Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання

Автор(и)

  • Микола Миколайович Глибовець Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0005-6942-8026
  • Дмитро Володимирович Задохін Національний університет «Києво-Могилянська академія», Україна
  • Богдан-Ярема Дехтяр Національний університет «Києво-Могилянська академія», Україна
  • Олена Миколаївна Пєчкурова Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0002-6689-7968

DOI:

https://doi.org/10.18523/2617-3808.2024.7.102-111

Ключові слова:

NLP, NER, CNN, машинне навчання, архітектура нейронних мереж, архітектура Transformer, машинний переклад, великі мовні моделі (Llama, BERT, GPT)

Анотація

У статті представлено аналіз можливостей великих мовних моделей для вирішення задач NLP. Описано особливості архітектури Transformer, що є основою для сучасних моделей з оброблення природної мови. Розглянуто окремі компоненти архітектури, їхню роль і важливість для роботи з людською мовою. Проведено порівняльний аналіз Transformer та інших наявних моделей для завдання машинного перекладу.
Проаналізовано фактори, що дали змогу створювати моделі з мільярдами параметрів — великі мовні моделі. Розглянуто сім’ю моделей Llama від Meta як приклад такої моделі. Особливу увагу було приділено моделям порівняно невеликого розміру, що можуть бути потужним і водночас доступним інструментом для оброблення природної мови.
Наразі глибинне машинне навчання і згорткові нейронні мережі (CNN) посідають важливе місце у сфері оброблення природної мови (NLP). Тому в статті оцінено ефективність використання його алгоритмів, моделей і методів для вирішення основних задач на прикладі задачі розпізнавання іменованих сутностей (NER).
Наведено методи глибинного навчання, які зробили революцію в NER, надавши можливість набагато краще розуміти контекст, фіксувати залежності на великих відстанях і ефективно використовувати великі обсяги даних. Проведено класифікацію моделей на основі трансформерів, що дають найкращі результати на цей момент. Зараз існує багато моделей, розроблених на основі трансформера.
Описано результати порівняння двох із найпоширеніших моделей — BERT (гарні результати у широкому спектрі завдань NLP, зокрема відповіді на запитання, класифікація тексту, висновок природною мовою, передбачення лівого і правого контексту слова) і GPT-3 (великі успіхи, як-от мовне моделювання, генерування тексту й відповіді на запитання). Ці моделі проходять попереднє навчання на великих текстових наборах даних, щоб вивчити фундаментальні мовні уявлення. Обидві моделі активно використовують потенціал тонкого налаштування.

Біографії авторів

Микола Миколайович Глибовець, Національний університет «Києво-Могилянська академія»

доктор фізико-математичних наук, професор кафедри інформатики факультету інформатики Національного університету «Києво-Могилянська академія», glib@ukma.edu.ua

Дмитро Володимирович Задохін, Національний університет «Києво-Могилянська академія»

студент магістерської програми «Комп’ютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», d.zadokhin@ukma.edu.ua

Богдан-Ярема Дехтяр, Національний університет «Києво-Могилянська академія»

студент магістерської програми «Комп’ютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», b.dekhtіar@ukma.edu.ua

Олена Миколаївна Пєчкурова, Національний університет «Києво-Могилянська академія»

старший викладач кафедри мультимедійних технологій факультету інформатики Національного університету «Києво-Могилянська Академія», pyechkurova@ukma.edu.ua

Посилання

  1. Ainslie, Joshua, et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv:2305.13245.
  2. Cho, Kyunghyun, Merrienboer, Bart van, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, & Bengio, Yoshua. (2014). Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs, 1406.1078. https://aclanthology.org/D14-1179/.
  3. Chollet, Chung, Junyoung, Gülçehre, Çaglar, Cho, Kyunghyun, & Bengio, Yoshua. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs. 1412.3555. https://arxiv.org/abs/1412.3555.
  4. Durango, María, Torres, Silva Ever, & Orozco-Duque, Andres. (2023) Named Entity Recognition in Electronic Health Records: A Methodological Review. Healthcare Informatics Research, 29, 286–300. https://doi.org/10.4258/hir.2023.29.4.286.
  5. Francois. (2016). Xception: Deep learning with depthwise separable convolutions. arXiv:1610.02357.
  6. Gehring, Jonas, Auli, Michael, Grangier, David, Yarats, Denis, & Dauphin, Yann N. (2017). Convolutional sequence to sequence learning. arXiv:1705.03122v2.
  7. Graves. Alex. (2013). Generating sequences with recurrent neural networks. arXiv:1308.0850.
  8. Hlybovets, A. M. (2017). Avtomatyzovanyi poshuk imenovanykh sutnostei u nerozmichenykh tekstakh ukrainskoiu movoiu. Shtuchnyi intelekt, 2, 45–51 [in Ukrainian].
  9. Hlybovets, A. M., Lehinevych, T. I. (2019). Arkhitektura systemy modelei hlybokykh neironnykh merezh dlia znakhodzhennia podibnosti obiektiv v heterohennomu seredovyshchi. In Mizhnarodno naukovo-praktychna konferentsiia “Obchysliuvalnyi intelekt” (pp. 249–250) [in Ukrainian].
  10. Hochreiter, Sepp, Yoshua Bengio, Paolo Frasconi, & Jürgen Schmidhuber. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. https://www.researchgate.net/publication/2839938_Gradient_Flow_in_Recurrent_Nets_the_Difficulty_of_Learning_Long-Term_Dependencies.
  11. Jianpeng, Cheng, Li Dong, & Mirella, Lapata. (2016). Long short-term memory-networks for machine reading. arXiv:1601.06733.
  12. Kaiming, He, Zhang, Xiangyu, Ren, Shaoqing, & Sun, Jian. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770–778).
  13. Lei Ba, Jimmy, Kiros, Jamie Ryan, & Hinton, Geoffrey E. (2016). Layer normalization. arXiv:1607.06450.
  14. Manning, Christopher, & Hinrich, Schutze. (1999). Foundations of statistical natural language processing. MIT press.
  15. Parikh Ankur, Täckström, Oscar, Das, Dipanjan, & Uszkoreit, Jakob. (2016). A decomposable attention model. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (pp. 2249–2255). https://aclanthology.org/D16-1244/.
  16. Paulus, Romain, Xiong, Caiming, & Socher, Richard. (2017). A deep reinforced model for abstractive summarization. arXiv:1705.04304.
  17. Sag, Ivan A. (1991). Linguistic theory and natural language processing. Natural Language and Speech: Symposium Proceedings Brussels. Springer Berlin Heidelberg.
  18. Shazeer, Noam. (2020). Glu variants improve transformer. arXiv:2002.05202.
  19. Su, Jianlin, et al. (2024). Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568: 127063.
  20. Touvron, Hugo, et al. (2023а). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
  21. Touvron, Hugo, et al. (2023b). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
  22. Vaswani, A. (2017). Attention is all you need. Advances in Neural Information Processing Systemsm.
  23. Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., ... & Wang, G. (2023). Gpt-ner: Named entity recognition via large language models. arXiv preprint arXiv:2304.10428.
  24. Zhang, Biao, & Rico Sennrich. (2019) Root mean square layer normalization. Advances in Neural Information Processing Systems, 32.

##submission.downloads##

Опубліковано

2025-05-12