Застосування методу виявлення елементів дисфлюентності мовлення для машинного перекладу транскрибцій усної мови

Автор(и)

  • Artem Kramov інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro, Україна
  • Sergiy Pogorilyy Київський національний університет імені Тараса Шевченка, Україна

DOI:

https://doi.org/10.18523/2617-3808.2022.5.54-61

Ключові слова:

оброблення природної мови, нейронний машинний переклад, дисфлюентність мовлення, оброблення усної мови

Анотація

У роботі розглянуто проблему здійснення нейронного машинного перекладу результатів транскрибування усної мови, які містять елементи дисфлюентності мовлення, з англійської мови на українську. Проаналізовано наявні методи та програмні засоби виявлення елементів дисфлюентності мовлення в англомовних текстах. Створено синтетичний розмічений корпус, що містить оригінальні версії документів та їхні модифіковані версії відповідно до визначених типів дисфлюентності мовлення. Здійснено експериментальну перевірку ефективності застосування методу виявлення елементів дисфлюентності мовлення для вдосконалення перекладу усної мови на основі застосування моделей нейронного машинного перекладу для пари англійської та української мов. Отримані результати свідчать про доцільність використання зазначеного методу для попереднього оброблення результатів транскрибування діалогів для створення коректних когерентних перекладів за допомогою зазначених моделей машинного перекладу.

Біографії авторів

Artem Kramov, інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro

Крамов Артем Андрійович – доктор філософії з галузі знань «Інформаційні технології», інженер-дослідник у галузі обробки природної мови в компаніях One AI і SevenPro, a.kramov@seven-pro.com

Sergiy Pogorilyy, Київський національний університет імені Тараса Шевченка

Погорілий Сергій Дем’янович – доктор технічних наук, професор кафедри комп’ютерної інженерії факультету радіофізики, електроніки та комп’ютерних систем Київського національного університету імені Тараса Шевченка, sdp@univ.net.ua

Посилання

  1. Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate.
  2. Charniak, E., & Johnson, M. (2001). Edit Detection and Parsing for Transcribed Speech. In Second Meeting of the North American Chapter of the Association for Computational Linguistics. https://aclanthology.org/N01-1016.
  3. Cho, K., van Merrienboer, B., Bahdanau, D., & Bengio, Y. (2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, 103–111. Association for Computational Linguistics. https://doi.org/10.3115/v1/W14-4012
  4. Dabre, R., Chu, C., & Kunchukuttan, A. (2020). A Survey of Multilingual Neural Machine Translation. ACM Computing Surveys,
  5. (5), 1–38. https://doi.org/10.1145/3406095
  6. Garg, S., Peitz, S., Nallasamy, U., & Paulik, M. (2019). Jointly Learning to Align and Translate with Transformer Models. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 4453–4462. https://doi.org/10.18653/v1/D19-1453
  7. Gliwa, B., Mochol, I., Biesek, M., & Wawer, A. (2019). SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. In Proceedings of the 2nd Workshop on New Frontiers in Summarization, 70–79. https://doi.org/10.18653/v1/D19-5409
  8. Honnibal Matthew, & Montani Ines. (2015). spaCy – Industrialstrength Natural Language Processing in Python. https://spacy.io/.
  9. Honnibal, M., & Johnson, M. (2014). Joint Incremental Disfluency Detection and Dependency Parsing. Transactions of the Association for Computational Linguistics, 2, 131–142. https://doi.org/10.1162/tacl_a_00171
  10. Jamshid Lou, P., & Johnson, M. (2020). Improving Disfluency Detection by Self-Training a Self-Attentive Model. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 3754–3763. https://doi.org/10.18653/v1/2020.acl-main.346
  11. Jamshid Lou, P., Wang, Y., & Johnson, M. (2019). Neural Constituency Parsing of Speech Transcripts. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2756–2765. https://doi.org/10.18653/v1/N19-1282
  12. John J. Godfrey, & Edward Holliman. (1997). Switchboard-1 Release 2. https://catalog.ldc.upenn.edu/LDC97S62.
  13. Kahn, J. G., Lease, M., Charniak, E., Johnson, M., & Ostendorf, M. (2005). Effective Use of Prosody in Parsing Conversational Speech. In Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 233–240. https://aclanthology.org/H05-1030.
  14. Language Technology Research Group at the University of Helsinki. (2020). Helsinki-NLP/opus-mt-en-uk · Hugging Face. https://huggingface.co/Helsinki-NLP/opus-mt-en-uk.
  15. Maruf, S., Saleh, F., & Haffari, G. (2021). A Survey on Document-Level Neural Machine Translation: Methods and Evaluation. ACM Comput. Surv., 54 (2). https://doi.org/10.1145/3441691
  16. Meta AI. (2022). 200 languages within a single AI model: A breakthrough in high-quality machine translation. https://ai.facebook.com/blog/nllb-200-high-quality-machine-translation/.
  17. Miltenberger, Raymond G., & Woods, D. W. (1998). Speech Disfluencies. In F. M. S. T. Watson & F. M. Gresham (Eds.), Handbook of Child Behavior Therapy (pp. 127–142). Springer US. https://doi.org/10.1007/978-1-4615-5323-6_7
  18. Müller, M., Rios, A., Voita, E., & Sennrich, R. (2018). A Large-Scale Test Set for the Evaluation of Context-Aware Pronoun Translation in Neural Machine Translation. Proceedings of the Third Conference on Machine Translation: Research Papers, 61–72. https://doi.org/10.18653/v1/W18-6307
  19. NLLB Team, Costa-jussà, M. R., Cross, J., Çelebi, O., Elbayad, M., Heafield, K., Heffernan, K., Kalbassi, E., Lam, J., Licht, D., Maillard, J., Sun, A., Wang, S., Wenzek, G., Youngblood, A., Akula, B., Barrault, L., Gonzalez, G. M., Hansanti, P., ... Wang, J. (2022). No Language Left Behind: Scaling Human-Centered Machine Translation.
  20. One AI Inc. (2022). One AI Language Studio. https://studio.oneai.com.
  21. Pennington, J., Socher, R., & Manning, C. (2014). GloVe: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543. https://doi.org/10.3115/v1/D14-1162
  22. Rasooli, M. S., & Tetreault, J. (2013). Joint Parsing and Disfluency Detection in Linear Time. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 124–129. Association for Computational Linguistics. https://aclanthology.org/D13-1013
  23. Shriberg, E. (1994). Preliminaries to a Theory of Speech Disfluencies.
  24. Sun, Z., Wang, M., Zhou, H., Zhao, C., Huang, S., Chen, J., & Li, L. (2022). Rethinking Document-level Neural Machine Translation. Findings of the Association for Computational Linguistics: ACL 2022, 3537–3548. https://doi.org/10.18653/v1/2022.findings-acl.279
  25. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., Klingner, J., Shah, A., Johnson, M., Liu, X., Kaiser, Ł., Gouws, S., Kato, Y., Kudo, T., Kazawa, H., ... Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.

##submission.downloads##

Опубліковано

2023-02-24

Як цитувати

[1]
A. Kramov і S. Pogorilyy, «Застосування методу виявлення елементів дисфлюентності мовлення для машинного перекладу транскрибцій усної мови», NRPCOMP, т. 5, с. 54–61, Лют 2023.