The Application of Monolingual and Multilingual BERT-Based Models for Text Automation Tasks

Данило Олегович Ванін

doi:10.18523/2617-3808.2025.8.76-83

Автор(и)

Данило Олегович Ванін Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0007-4510-8209

DOI:

https://doi.org/10.18523/2617-3808.2025.8.76-83

Ключові слова:

оброблення природної мови, великі мовні моделі, одно- та багатомовні моделі, BERT

Анотація

Обʼєктом дослідження цієї статті є одно- та багатомовні моделі на основі BERT. Предметом дослідження було порівняння продуктивності таких моделей на завданнях ОПМ із наголосом на їх застосуванні для української мови. Методологічну основу порівняльного аналізу становило використання стандартних підходів до навчання та оцінки моделей. У дослідженні використовувались доступні джерела інформації.
Загалом результати дослідження свідчать про те, що як одномовні, так і багатомовні моделі на основі BERT можуть бути ефективними для вирішення завдань ОПМ залежно від конкретної мови, завдання та доступних ресурсів. Хоча одномовні моделі часто перевершують багатомовні у завданнях своєї конкретної мови, багатомовні моделі можуть мати перевагу, коли ресурси для навчання одномовних моделей обмежені. Проведене порівняння роботи одно- та багатомовних моделей для різних мов додатково підкреслило важливість проведення окремого порівняння їх застосування для української мови.
Проведений аналіз сприятиме створенню комплексного україномовного бенчмарку, що покращить якість моделей і стимулюватиме нові дослідження у галузі ОПМ для української мови, розроблення нових, більш ефективних моделей.

Біографія автора

Данило Олегович Ванін, Національний університет «Києво-Могилянська академія»

випускник магістерської програми «Компʼютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», danylo.vanin@ukma.edu.ua

Посилання

Chaplynskyi, D. (2023). Introducing ubertext 2.0: a corpus of modern Ukrainian at scale. In M. Romanyshyn (Ed.), Proceedings of the second ukrainian natural language processing workshop (UNLP) (pp. 1–10). Association for Computational Linguistics. https://aclanthology.org/2023.unlp-1.1.
Chaplynskyi, D., & Romanyshyn, M. (2024). Introducing NER-UK 2.0: A Rich Corpus of Named Entities for Ukrainian. In M. Romanyshyn, N. Romanyshyn, A. Hlybovets & O. Ignatenko (Eds.), Proceedings of the Third Ukrainian Natural Language Processing Workshop (UNLP) @ LREC-COLING 2024 (pp. 23–29). ELRA and ICCL. https://aclanthology.org/2024.unlp-1.4.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: pre-training of deep bidirectional transformers for language understanding. In J. Burstein, C. Doran & T. Solorio (Eds.), Proceedings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers) (pp. 4171–4186). Association for Computational Linguistics. https://aclanthology.org/N19-1423.
Feijo, D. de V., & Moreira, V. P. (2020). Mono vs multilingual transformer-based models: a comparison across several language tasks. https://doi.org/10.48550/arXiv.2007.09757.
Gomez, F. P., Rozovskaya, A., & Roth, D. (N. d.). A Low-Resource Approach to the Grammatical Error Correction of Ukrainian. In M. Romanyshyn (Ed.), Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP) (pp. 114–120). Association for Computational Linguistics. https://aclanthology.org/2023.unlp-1.14.
Goyal, N., Du, J., Ott, M., Anantharaman, G., & Conneau, A. (2021). Larger-Scale transformers for multilingual masked language modeling.
Haltiuk, M., & Smywiński-Pohl, A. (2024). LiBERTa: Advancing Ukrainian Language Modeling through Pre-training from Scratch. In Unlp 2024.
Hamotskyi, S., Levbarg, A.-I., & Hänig, C. (2024). Eval-UA-tion 1.0: benchmark for evaluating Ukrainian (large) language models. In Unlp 2024. https://hal.science/hal-04534651.
Joshi, P., Santy, S., Budhiraja, A., Bali, K., & Choudhury, M. (2020). The State and Fate of Linguistic Diversity and Inclusion in the NLP World. In D. Jurafsky, J. Chai, N. Schluter & J. Tetreault (Eds.), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 6282–6293). Association for Computational Linguistics. https://aclanthology.org/2020.acl-main.560.
Kiulian, A., Polishko, A., Khandoga, M., Chubych, O., Connor, J., Ravishankar, R., & Shirawalmath, A. (2024). From bytes to borsch: finetuning gemma and mistral for the Ukrainian language representation. https://doi.org/10.48550/arXiv.2404.09138.
Levy, S., John, N., Liu, L., Vyas, Y., Ma, J., Yoshinari, F., Ballesteros, M., Castelli, V., & Roth, D. (2023). Comparing biases and the impact of multilingual training across multiple languages. In Association for computational linguistics, Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 10260–10280. https://aclanthology.org/2023.emnlp-main.634.
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. CoRR, abs/1907.11692. http://arxiv.org/abs/1907.11692.
Luukkonen, R., Burdge, J., Zosa, E., Talman, A., Komulainen, V., Hatanpää, V., Sarlin, P., & Pyysalo, S. (2024). Poro 34B and the blessing of multilinguality. https://doi.org/10.48550/arXiv.2404.01856.
Pires, T., Schlinger, E., & Garrette, D. (2019). How multilingual is multilingual BERT? In A. Korhonen, D. Traum & L. Màrquez (Eds.), Proceedings of the 57th annual meeting of the association for computational linguistics (pp. 4996–5001). Association for Computational Linguistics. https://aclanthology.org/P19-1493.
Ruder, S. (2022, 14 листопада). The state of multilingual AI. ruder.io. https://www.ruder.io/state-of-multilingual-ai/.
Rust, P., Pfeiffer, J., Vulić, I., Ruder, S., & Gurevych, I. (2021). How good is your tokenizer? On the monolingual performance of multilingual language models. In C. Zong, F. Xia, R. Navigli & W. Li (Eds.), Proceedings of the 59th annual meeting of the association for computational linguistics and the 11th international joint conference on natural language processing (Volume 1: long papers) (pp. 3118–3135). Association for Computational Linguistics. https://aclanthology.org/2021.acl-long.243.
Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. ArXiv, abs/1910.01108. https://api.semanticscholar.org/CorpusID:203626972.
Shaham, U., Herzig, J., Aharoni, R., Szpektor, I., Tsarfaty, R., & Eyal, M. (2024). Multilingual instruction tuning with just a pinch of multilinguality. https://doi.org/10.48550/arXiv.2401.01854.
Sido, J., Pražák, O., Přibáň, P., Pašek, J., Seják, M., & Konopík, M. (2021). Czert — czech bert-like model for language representation. https://doi.org/10.48550/arXiv.2103.13031/
Torge, S., Politov, A., Lehmann, C., Saffar, B., & Tao, Z. (N. d.). Named entity recognition for low-resource languages - profiting from language families. In J. Piskorski, M. Marcińczuk, P. Nakov, M. Ogrodniczuk, S. Pollak, P. Přibáň, P. Rybak, J. Steinberger & R. Yangarber (Eds.), Proceedings of the 9th workshop on slavic natural language processing 2023 (slavicnlp 2023) (pp. 1–10). Association for Computational Linguistics. https://aclanthology.org/2023.bsnlp-1.1.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. In Proceedings of the 31st international conference on neural information processing systems (pp. 6000–6010). Curran Associates Inc.
Velankar, A., Patil, H., & Joshi, R. (2023). Mono vs multilingual BERT for hate speech detection and text classification: a case study in marathi. In N. El Gayar, E. Trentin, M. Ravanelli & H. Abbas (Eds.), Artificial neural networks in pattern recognition (pp. 121–128). Springer International Publishing.
Vīksna, R., & Skadina, I. (N. d.). Multilingual slavic named entity recognition. In Proceedings of the 8th workshop on balto-slavic natural language processing (pp. 93–97). Association for Computational Linguistics. https://aclanthology.org/2021.bsnlp-1.11.
Virtanen, A., Kanerva, J., Ilo, R., Luoma, J., Luotolahti, J., Salakoski, T., Ginter, F., & Pyysalo, S. (2019). Multilingual is not enough: BERT for Finnish. https://doi.org/10.48550/arXiv.1912.07076.
Yang, Z., Laki, L., Váradi, T., & Prószéky, G. (2023). Mono- and multilingual GPT-3 models for hungarian (pp. 94–104). https://doi.org/10.1007/978-3-031-40498-6_9.

Використання одно- та багатомовних моделей на базі BERT для вирішення задач автоматичного оброблення текстів

Автор(и)

DOI:

Ключові слова:

Анотація

Біографія автора

Данило Олегович Ванін, Національний університет «Києво-Могилянська академія»

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Інформація

##plugins.block.developedBy.blockTitle##