Evaluating mT5 Transformer Models for Ukrainian-English Translation

Жан Жанович Махаммедов; Оксана Валентинівна Кирієнко; Владислав Олександрович Ткаченко

doi:10.18523/2617-3808.2025.8.97-101

Оцінка трансформерних моделей mT5 для українсько-англійського перекладу

Автор(и)

Жан Жанович Махаммедов Національний університет «Києво-Могилянська академія», Україна
Оксана Валентинівна Кирієнко Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0009-9456-6331
Владислав Олександрович Ткаченко Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0008-2228-7563

DOI:

https://doi.org/10.18523/2617-3808.2025.8.97-101

Ключові слова:

трансформер, оброблення природної мови, машинний переклад, нейронний машинний переклад, mT5, HPLT, BLEU, chrF , NLLB-200

Анотація

Цю статтю присвячено кількісному вивченню впливу розміру архітектури Transformer на точність українсько-англійського машинного перекладу з використанням моделі mT5. Досліджено ефективність роботи моделей mT5 різних розмірів (small, base, large) щодо часу навчання, часу генерації перекладів і якості перекладу, оціненої метриками BLEU та chrF++. Результати показують, що більші моделі mT5 демонструють вищу якість перекладу, але потребують значно більше обчислювальних ресурсів. Результати дослідження підтверджують доцільність застосування моделей mT5 для українсько-англійського перекладу, навіть на типових обчислювальних системах.

Біографії авторів

Жан Жанович Махаммедов, Національний університет «Києво-Могилянська академія»

студент магістерської програми «Комп’ютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», zhan.makhammedov@ukma.edu.ua

Оксана Валентинівна Кирієнко, Національний університет «Києво-Могилянська академія»

старший викладач кафедри інформатики факультету інформатики Національного університету «Києво-Могилянська академія», o.kyriienko@ukma.edu.ua

Владислав Олександрович Ткаченко, Національний університет «Києво-Могилянська академія»

студент аспірантської програми «Компʼютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», vo.tkachenko@ukma.edu.ua

Посилання

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv. https://arxiv.org/abs/1409.0473.
Burchell, L., Gilbert, O., Arefyev, N., Aulamo, M., Banon, M., Chen, P., Fedorova, M., Guillou, L., Haddow, B., Haije, J., Helel, J., Hentiksson, E., Klimaszewski, M., Komulainen, V., Kutuzov, A., Kytoniemi, J., Laippala, V., Maehlum, P., Malik, B., ... Zaragoza-Bernabeu, J. (2025). An expanded massive multilingual dataset for high-performance language technologies (HPLT). arXiv. https://arxiv.org/abs/2503.10267.
Costa-jussà, M. R., Cross, J., Çelebi, O., Elbayad, M., Heafield, K., Heffernan, K., Kalbassi, E., Lam, J., Licht, D., Maillard, J., Sun, A., Wang, S., Wenzek, G., Youngblood, A., Akula, B., Barrault, L., Mejia, G., Hansanti, P., Hoffman, J., ... Wang, J. (2022). No language left behind: Scaling human-centered machine translation. arXiv. https://arxiv.or/g/abs/2207.04672.
Glybovets, M., Zadokhin, D., Dekhtiar, B., & Pyechkurova, O. (2024). Natural language processing using large language models and machine learning methods. NaUKMA Research Papers. Computer Science, 7, 102–111. https://doi.org/10.18523/2617-3808.2024.7.102-111.
Och, F. J., & Ney, H. (2000). Statistical machine translation. In Proceedings of the 5th EAMT Workshop: Harvesting Existing Resources. European Association for Machine Translation. https://aclanthology.org/2000.eamt-1.5.pdf.
Papineni, K., Roukos, S., Ward, T., & Zhu, W. (2002). Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (pp. 311–318). Association for Computational Linguistics. https://aclanthology.org/P02-1040.pdf.
Popović, M. (2017). chrF++: Words helping character n-grams. In Proceedings of the Second Conference on Machine Translation (pp. 612–618). Association for Computational Linguistics. https://aclanthology.org/W17-4770.pdf.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need.arXiv. https://arxiv.org/abs/1706.03762.
Xue, L., Constant, N., Roberts, A., Kale, M., Al-Rfou, R., Siddhant, A., Barua, A., & Raffel, C. (2020). mT5: A massively multilingual pretrained text-to-text transformer. arXiv. https://arxiv.org/pdf/2010.11934.

##submission.downloads##

Опубліковано

2025-11-26

Номер

Том 8 (2025): Наукові записки НаУКМА. Комп’ютерні науки

Розділ

Нейронні мережі та машинне навчання

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Автори, які публікуються у цьому журналі, погоджуються з такими умовами:

а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.

б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.

в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)

г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).