Automatic Text Classification

Андрій Вікторович Дубовик; Євгеній Анатолійович Волинець

doi:10.18523/2617-3808.2025.8.102-107

Автоматична класифікація текстів

Автор(и)

Андрій Вікторович Дубовик Національний університет «Києво-Могилянська академія», Україна
Євгеній Анатолійович Волинець Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0003-3232-9425

DOI:

https://doi.org/10.18523/2617-3808.2025.8.102-107

Ключові слова:

класифікація текстів, машинне навчання, оброблення української мови, Naive Bayes, SVM, RNN, попереднє оброблення тексту

Анотація

У цьому дослідженні здійснено аналіз сучасних підходів до класифікації текстової інформації. Особливу увагу приділено автоматичній класифікації текстів, що передбачає їхній розподіл за визначеними категоріями без використання ручного аналізу. Розглянуто й порівняно ефективність різних методів класифікації з акцентом на гібридні системи, які здатні поєднувати переваги окремих підходів і забезпечувати підвищену точність та продуктивність моделей. Також обґрунтовано вибір інструментальних засобів для подальшої програмної реалізації системи автоматизованої класифікації текстів за категоріями. Для навчання моделей запропоновано використовувати збірку AG News Classification Dataset з платформи kaggle.com. Доцільним вважається обмеження класифікаційного процесу комбінацією трьох моделей — Naive Bayes, Support Vector Machine (SVM) та Recurrent Neural Networks (RNN), які вирізняються невисокими вимогами до обчислювальних ресурсів і часу на тренування.

Біографії авторів

Андрій Вікторович Дубовик, Національний університет «Києво-Могилянська академія»

студент бакалаврської програми «Інженерія програмного забезпечення» факультету інформатики Національного університету «Києво-Могилянська академія», andrii.dubovyk@ukma.edu.ua

Євгеній Анатолійович Волинець, Національний університет «Києво-Могилянська академія»

кандидат фізико-математичних наук, старший викладач факультету інформатики Національного університетут «Києво-Могилянська академія», ye.volynets@ukma.edu.ua

Посилання

ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months. (2023). https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-aihttps://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-monthschatbot-has-completely-changed-the-world-in-12-months.
Ekolle, Zie Eya, & Kohno, Ryuji. (2023). A Generative Learning Model for Heterogeneous Text Classification Based on Collaborative Partial Classifications. https://www.mdpi.com/2076-3417/13/14/8211.
Gasparetto, A., Marcuzzo, M., Zangari, A., & Albarelli, A. (2022). A Survey on Text Classification Algorithms: From Text to Predictions. https://www.mdpi.com/2078-2489/13/2/83.
Google voice search: faster and more accurate. (2015). https://research.google/blog/google-voice-search-faster-and-more-accurate.
Hlybovets, A., & Bikchentaev, M. (2022). Prohramna systema perevirky na plahiat ukrainskykh tekstiv. NaUKMA Research Papers. Computer Science, 5, 16–25. https://doi.org/10.18523/2617-3808.2022.5.16-25 [in Ukrainian].
Kaggle. (n. d.). https://www.kaggle.com.
Large language model (LLM). (2024). https://www.growthloop.com/university/article/llm.
Machine Learning Glossary. (n. d.). https://developers.google.com/machine-learning/glossary.
Matplotlib Documentation. (n. d.). https://matplotlib.org.
Natural Language Toolkit Documentation. (n. d.). https://www.nltk.org.
NumPy Documentation. (n. d.). https://numpy.org.
Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. (2018). https://research.google/blog/open-sourcingbert-state-of-the-art-pre-traininghttps://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processingfor-natural-language-processing.
Pandas Documentation. (n. d.). https://pandas.pydata.org.
Rosé, C. P., Roque, A., Bhembe, D., & Vanlehn, K. (2003). A Hybrid Text Classification Approach for Analysis of Student Essay. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=7f7e133f636308b5f67600ad321335f716a7a14a.
Scikit-learn Documentation. (n. d.). https://scikit-learn.org/stable.
Scikit-learn: Naive Baye. (n. d.). https://scikit-learn.org/stable/modules/naive_bayes.html.
Seaborn Documentation. (n. d.). https://seaborn.pydata.org.
Support vector machine. (n. d.). https://en.wikipedia.org/wiki/Support_vector_machine.
TensorFlow Documentation. (n. d.). https://www.tensorflow.org.
Understanding Text Classification in Python. (2022). https://www.datacamp.com/tutorial/text-classificationhttps://www.datacamp.com/tutorial/text-classification-pythonpython.

##submission.downloads##

Опубліковано

2025-11-26

Номер

Том 8 (2025): Наукові записки НаУКМА. Комп’ютерні науки

Розділ

Нейронні мережі та машинне навчання

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Автори, які публікуються у цьому журналі, погоджуються з такими умовами:

а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.

б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.

в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)

г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).