Usage of the Speech Disfluency Detection Method for the Machine Translation of the Transcriptions of Spoken Language

Artem Kramov; Sergiy Pogorilyy

doi:10.18523/2617-3808.2022.5.54-61

Автор(и)

Artem Kramov інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro, Україна
Sergiy Pogorilyy Київський національний університет імені Тараса Шевченка, Україна

DOI:

https://doi.org/10.18523/2617-3808.2022.5.54-61

Ключові слова:

оброблення природної мови, нейронний машинний переклад, дисфлюентність мовлення, оброблення усної мови

Анотація

У роботі розглянуто проблему здійснення нейронного машинного перекладу результатів транскрибування усної мови, які містять елементи дисфлюентності мовлення, з англійської мови на українську. Проаналізовано наявні методи та програмні засоби виявлення елементів дисфлюентності мовлення в англомовних текстах. Створено синтетичний розмічений корпус, що містить оригінальні версії документів та їхні модифіковані версії відповідно до визначених типів дисфлюентності мовлення. Здійснено експериментальну перевірку ефективності застосування методу виявлення елементів дисфлюентності мовлення для вдосконалення перекладу усної мови на основі застосування моделей нейронного машинного перекладу для пари англійської та української мов. Отримані результати свідчать про доцільність використання зазначеного методу для попереднього оброблення результатів транскрибування діалогів для створення коректних когерентних перекладів за допомогою зазначених моделей машинного перекладу.

Біографії авторів

Artem Kramov, інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro

Крамов Артем Андрійович – доктор філософії з галузі знань «Інформаційні технології», інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro, a.kramov@seven-pro.com

Sergiy Pogorilyy, Київський національний університет імені Тараса Шевченка

Погорілий Сергій Дем’янович – доктор технічних наук, професор кафедри комп’ютерної інженерії факультету радіофізики, електроніки та комп’ютерних систем Київського національного університету імені Тараса Шевченка, sdp@univ.net.ua

Посилання

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate.
Charniak, E., & Johnson, M. (2001). Edit Detection and Parsing for Transcribed Speech. In Second Meeting of the North American Chapter of the Association for Computational Linguistics. https://aclanthology.org/N01-1016.
Cho, K., van Merrienboer, B., Bahdanau, D., & Bengio, Y. (2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, 103–111. Association for Computational Linguistics. https://doi.org/10.3115/v1/W14-4012
Dabre, R., Chu, C., & Kunchukuttan, A. (2020). A Survey of Multilingual Neural Machine Translation. ACM Computing Surveys,
(5), 1–38. https://doi.org/10.1145/3406095
Garg, S., Peitz, S., Nallasamy, U., & Paulik, M. (2019). Jointly Learning to Align and Translate with Transformer Models. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 4453–4462. https://doi.org/10.18653/v1/D19-1453
Gliwa, B., Mochol, I., Biesek, M., & Wawer, A. (2019). SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. In Proceedings of the 2nd Workshop on New Frontiers in Summarization, 70–79. https://doi.org/10.18653/v1/D19-5409
Honnibal Matthew, & Montani Ines. (2015). spaCy – Industrialstrength Natural Language Processing in Python. https://spacy.io/.
Honnibal, M., & Johnson, M. (2014). Joint Incremental Disfluency Detection and Dependency Parsing. Transactions of the Association for Computational Linguistics, 2, 131–142. https://doi.org/10.1162/tacl_a_00171
Jamshid Lou, P., & Johnson, M. (2020). Improving Disfluency Detection by Self-Training a Self-Attentive Model. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 3754–3763. https://doi.org/10.18653/v1/2020.acl-main.346
Jamshid Lou, P., Wang, Y., & Johnson, M. (2019). Neural Constituency Parsing of Speech Transcripts. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2756–2765. https://doi.org/10.18653/v1/N19-1282
John J. Godfrey, & Edward Holliman. (1997). Switchboard-1 Release 2. https://catalog.ldc.upenn.edu/LDC97S62.
Kahn, J. G., Lease, M., Charniak, E., Johnson, M., & Ostendorf, M. (2005). Effective Use of Prosody in Parsing Conversational Speech. In Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 233–240. https://aclanthology.org/H05-1030.
Language Technology Research Group at the University of Helsinki. (2020). Helsinki-NLP/opus-mt-en-uk · Hugging Face. https://huggingface.co/Helsinki-NLP/opus-mt-en-uk.
Maruf, S., Saleh, F., & Haffari, G. (2021). A Survey on Document-Level Neural Machine Translation: Methods and Evaluation. ACM Comput. Surv., 54 (2). https://doi.org/10.1145/3441691
Meta AI. (2022). 200 languages within a single AI model: A breakthrough in high-quality machine translation. https://ai.facebook.com/blog/nllb-200-high-quality-machine-translation/.
Miltenberger, Raymond G., & Woods, D. W. (1998). Speech Disfluencies. In F. M. S. T. Watson & F. M. Gresham (Eds.), Handbook of Child Behavior Therapy (pp. 127–142). Springer US. https://doi.org/10.1007/978-1-4615-5323-6_7
Müller, M., Rios, A., Voita, E., & Sennrich, R. (2018). A Large-Scale Test Set for the Evaluation of Context-Aware Pronoun Translation in Neural Machine Translation. Proceedings of the Third Conference on Machine Translation: Research Papers, 61–72. https://doi.org/10.18653/v1/W18-6307
NLLB Team, Costa-jussà, M. R., Cross, J., Çelebi, O., Elbayad, M., Heafield, K., Heffernan, K., Kalbassi, E., Lam, J., Licht, D., Maillard, J., Sun, A., Wang, S., Wenzek, G., Youngblood, A., Akula, B., Barrault, L., Gonzalez, G. M., Hansanti, P., ... Wang, J. (2022). No Language Left Behind: Scaling Human-Centered Machine Translation.
One AI Inc. (2022). One AI Language Studio. https://studio.oneai.com.
Pennington, J., Socher, R., & Manning, C. (2014). GloVe: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543. https://doi.org/10.3115/v1/D14-1162
Rasooli, M. S., & Tetreault, J. (2013). Joint Parsing and Disfluency Detection in Linear Time. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 124–129. Association for Computational Linguistics. https://aclanthology.org/D13-1013
Shriberg, E. (1994). Preliminaries to a Theory of Speech Disfluencies.
Sun, Z., Wang, M., Zhou, H., Zhao, C., Huang, S., Chen, J., & Li, L. (2022). Rethinking Document-level Neural Machine Translation. Findings of the Association for Computational Linguistics: ACL 2022, 3537–3548. https://doi.org/10.18653/v1/2022.findings-acl.279
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., Klingner, J., Shah, A., Johnson, M., Liu, X., Kaiser, Ł., Gouws, S., Kato, Y., Kudo, T., Kazawa, H., ... Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.

Застосування методу виявлення елементів дисфлюентності мовлення для машинного перекладу транскрибцій усної мови

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Artem Kramov, інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro

Sergiy Pogorilyy, Київський національний університет імені Тараса Шевченка

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Інформація

##plugins.block.developedBy.blockTitle##