Оцінка трансформерних моделей mT5 для українсько-англійського перекладу

Автор(и)

  • Жан Жанович Махаммедов Національний університет «Києво-Могилянська академія», Україна
  • Оксана Валентинівна Кирієнко Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0009-9456-6331
  • Владислав Олександрович Ткаченко Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0008-2228-7563

DOI:

https://doi.org/10.18523/2617-3808.2025.8.97-101

Ключові слова:

трансформер, оброблення природної мови, машинний переклад, нейронний машинний переклад, mT5, HPLT, BLEU, chrF , NLLB-200

Анотація

Цю статтю присвячено кількісному вивченню впливу розміру архітектури Transformer на точність українсько-англійського машинного перекладу з використанням моделі mT5. Досліджено ефективність роботи моделей mT5 різних розмірів (small, base, large) щодо часу навчання, часу генерації перекладів і якості перекладу, оціненої метриками BLEU та chrF++. Результати показують, що більші моделі mT5 демонструють вищу якість перекладу, але потребують значно більше обчислювальних ресурсів. Результати дослідження підтверджують доцільність застосування моделей mT5 для українсько-англійського перекладу, навіть на типових обчислювальних системах.

Біографії авторів

Жан Жанович Махаммедов, Національний університет «Києво-Могилянська академія»

студент магістерської програми «Комп’ютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», zhan.makhammedov@ukma.edu.ua

Оксана Валентинівна Кирієнко, Національний університет «Києво-Могилянська академія»

старший викладач кафедри інформатики факультету інформатики Національного університету «Києво-Могилянська академія», o.kyriienko@ukma.edu.ua

Владислав Олександрович Ткаченко, Національний університет «Києво-Могилянська академія»

студент аспірантської програми «Компʼютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», vo.tkachenko@ukma.edu.ua

Посилання

  1. Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv. https://arxiv.org/abs/1409.0473.
  2. Burchell, L., Gilbert, O., Arefyev, N., Aulamo, M., Banon, M., Chen, P., Fedorova, M., Guillou, L., Haddow, B., Haije, J., Helel, J., Hentiksson, E., Klimaszewski, M., Komulainen, V., Kutuzov, A., Kytoniemi, J., Laippala, V., Maehlum, P., Malik, B., ... Zaragoza-Bernabeu, J. (2025). An expanded massive multilingual dataset for high-performance language technologies (HPLT). arXiv. https://arxiv.org/abs/2503.10267.
  3. Costa-jussà, M. R., Cross, J., Çelebi, O., Elbayad, M., Heafield, K., Heffernan, K., Kalbassi, E., Lam, J., Licht, D., Maillard, J., Sun, A., Wang, S., Wenzek, G., Youngblood, A., Akula, B., Barrault, L., Mejia, G., Hansanti, P., Hoffman, J., ... Wang, J. (2022). No language left behind: Scaling human-centered machine translation. arXiv. https://arxiv.or/g/abs/2207.04672.
  4. Glybovets, M., Zadokhin, D., Dekhtiar, B., & Pyechkurova, O. (2024). Natural language processing using large language models and machine learning methods. NaUKMA Research Papers. Computer Science, 7, 102–111. https://doi.org/10.18523/2617-3808.2024.7.102-111.
  5. Och, F. J., & Ney, H. (2000). Statistical machine translation. In Proceedings of the 5th EAMT Workshop: Harvesting Existing Resources. European Association for Machine Translation. https://aclanthology.org/2000.eamt-1.5.pdf.
  6. Papineni, K., Roukos, S., Ward, T., & Zhu, W. (2002). Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (pp. 311–318). Association for Computational Linguistics. https://aclanthology.org/P02-1040.pdf.
  7. Popović, M. (2017). chrF++: Words helping character n-grams. In Proceedings of the Second Conference on Machine Translation (pp. 612–618). Association for Computational Linguistics. https://aclanthology.org/W17-4770.pdf.
  8. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need.arXiv. https://arxiv.org/abs/1706.03762.
  9. Xue, L., Constant, N., Roberts, A., Kale, M., Al-Rfou, R., Siddhant, A., Barua, A., & Raffel, C. (2020). mT5: A massively multilingual pretrained text-to-text transformer. arXiv. https://arxiv.org/pdf/2010.11934.

##submission.downloads##

Опубліковано

2025-11-26

Номер

Розділ

Нейронні мережі та машинне навчання