Оброблення природної мови за допомоги великих мовних моделей і методів машинного навчання
DOI:
https://doi.org/10.18523/2617-3808.2024.7.102-111Ключові слова:
NLP, NER, CNN, машинне навчання, архітектура нейронних мереж, архітектура Transformer, машинний переклад, великі мовні моделі (Llama, BERT, GPT)Анотація
У статті представлено аналіз можливостей великих мовних моделей для вирішення задач NLP. Описано особливості архітектури Transformer, що є основою для сучасних моделей з оброблення природної мови. Розглянуто окремі компоненти архітектури, їхню роль і важливість для роботи з людською мовою. Проведено порівняльний аналіз Transformer та інших наявних моделей для завдання машинного перекладу.
Проаналізовано фактори, що дали змогу створювати моделі з мільярдами параметрів — великі мовні моделі. Розглянуто сім’ю моделей Llama від Meta як приклад такої моделі. Особливу увагу було приділено моделям порівняно невеликого розміру, що можуть бути потужним і водночас доступним інструментом для оброблення природної мови.
Наразі глибинне машинне навчання і згорткові нейронні мережі (CNN) посідають важливе місце у сфері оброблення природної мови (NLP). Тому в статті оцінено ефективність використання його алгоритмів, моделей і методів для вирішення основних задач на прикладі задачі розпізнавання іменованих сутностей (NER).
Наведено методи глибинного навчання, які зробили революцію в NER, надавши можливість набагато краще розуміти контекст, фіксувати залежності на великих відстанях і ефективно використовувати великі обсяги даних. Проведено класифікацію моделей на основі трансформерів, що дають найкращі результати на цей момент. Зараз існує багато моделей, розроблених на основі трансформера.
Описано результати порівняння двох із найпоширеніших моделей — BERT (гарні результати у широкому спектрі завдань NLP, зокрема відповіді на запитання, класифікація тексту, висновок природною мовою, передбачення лівого і правого контексту слова) і GPT-3 (великі успіхи, як-от мовне моделювання, генерування тексту й відповіді на запитання). Ці моделі проходять попереднє навчання на великих текстових наборах даних, щоб вивчити фундаментальні мовні уявлення. Обидві моделі активно використовують потенціал тонкого налаштування.
Посилання
- Ainslie, Joshua, et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv:2305.13245.
- Cho, Kyunghyun, Merrienboer, Bart van, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, & Bengio, Yoshua. (2014). Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs, 1406.1078. https://aclanthology.org/D14-1179/.
- Chollet, Chung, Junyoung, Gülçehre, Çaglar, Cho, Kyunghyun, & Bengio, Yoshua. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs. 1412.3555. https://arxiv.org/abs/1412.3555.
- Durango, María, Torres, Silva Ever, & Orozco-Duque, Andres. (2023) Named Entity Recognition in Electronic Health Records: A Methodological Review. Healthcare Informatics Research, 29, 286–300. https://doi.org/10.4258/hir.2023.29.4.286.
- Francois. (2016). Xception: Deep learning with depthwise separable convolutions. arXiv:1610.02357.
- Gehring, Jonas, Auli, Michael, Grangier, David, Yarats, Denis, & Dauphin, Yann N. (2017). Convolutional sequence to sequence learning. arXiv:1705.03122v2.
- Graves. Alex. (2013). Generating sequences with recurrent neural networks. arXiv:1308.0850.
- Hlybovets, A. M. (2017). Avtomatyzovanyi poshuk imenovanykh sutnostei u nerozmichenykh tekstakh ukrainskoiu movoiu. Shtuchnyi intelekt, 2, 45–51 [in Ukrainian].
- Hlybovets, A. M., Lehinevych, T. I. (2019). Arkhitektura systemy modelei hlybokykh neironnykh merezh dlia znakhodzhennia podibnosti obiektiv v heterohennomu seredovyshchi. In Mizhnarodno naukovo-praktychna konferentsiia “Obchysliuvalnyi intelekt” (pp. 249–250) [in Ukrainian].
- Hochreiter, Sepp, Yoshua Bengio, Paolo Frasconi, & Jürgen Schmidhuber. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. https://www.researchgate.net/publication/2839938_Gradient_Flow_in_Recurrent_Nets_the_Difficulty_of_Learning_Long-Term_Dependencies.
- Jianpeng, Cheng, Li Dong, & Mirella, Lapata. (2016). Long short-term memory-networks for machine reading. arXiv:1601.06733.
- Kaiming, He, Zhang, Xiangyu, Ren, Shaoqing, & Sun, Jian. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770–778).
- Lei Ba, Jimmy, Kiros, Jamie Ryan, & Hinton, Geoffrey E. (2016). Layer normalization. arXiv:1607.06450.
- Manning, Christopher, & Hinrich, Schutze. (1999). Foundations of statistical natural language processing. MIT press.
- Parikh Ankur, Täckström, Oscar, Das, Dipanjan, & Uszkoreit, Jakob. (2016). A decomposable attention model. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (pp. 2249–2255). https://aclanthology.org/D16-1244/.
- Paulus, Romain, Xiong, Caiming, & Socher, Richard. (2017). A deep reinforced model for abstractive summarization. arXiv:1705.04304.
- Sag, Ivan A. (1991). Linguistic theory and natural language processing. Natural Language and Speech: Symposium Proceedings Brussels. Springer Berlin Heidelberg.
- Shazeer, Noam. (2020). Glu variants improve transformer. arXiv:2002.05202.
- Su, Jianlin, et al. (2024). Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568: 127063.
- Touvron, Hugo, et al. (2023а). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
- Touvron, Hugo, et al. (2023b). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
- Vaswani, A. (2017). Attention is all you need. Advances in Neural Information Processing Systemsm.
- Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., ... & Wang, G. (2023). Gpt-ner: Named entity recognition via large language models. arXiv preprint arXiv:2304.10428.
- Zhang, Biao, & Rico Sennrich. (2019) Root mean square layer normalization. Advances in Neural Information Processing Systems, 32.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2024 M. Glybovets, D. Zadokhin, B. Dekhtіar, O. Pyechkurova

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).