Автоматична класифікація текстів
DOI:
https://doi.org/10.18523/2617-3808.2025.8.102-107Ключові слова:
класифікація текстів, машинне навчання, оброблення української мови, Naive Bayes, SVM, RNN, попереднє оброблення текстуАнотація
У цьому дослідженні здійснено аналіз сучасних підходів до класифікації текстової інформації. Особливу увагу приділено автоматичній класифікації текстів, що передбачає їхній розподіл за визначеними категоріями без використання ручного аналізу. Розглянуто й порівняно ефективність різних методів класифікації з акцентом на гібридні системи, які здатні поєднувати переваги окремих підходів і забезпечувати підвищену точність та продуктивність моделей. Також обґрунтовано вибір інструментальних засобів для подальшої програмної реалізації системи автоматизованої класифікації текстів за категоріями. Для навчання моделей запропоновано використовувати збірку AG News Classification Dataset з платформи kaggle.com. Доцільним вважається обмеження класифікаційного процесу комбінацією трьох моделей — Naive Bayes, Support Vector Machine (SVM) та Recurrent Neural Networks (RNN), які вирізняються невисокими вимогами до обчислювальних ресурсів і часу на тренування.
Посилання
- ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months. (2023). https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-aihttps://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-monthschatbot-has-completely-changed-the-world-in-12-months.
- Ekolle, Zie Eya, & Kohno, Ryuji. (2023). A Generative Learning Model for Heterogeneous Text Classification Based on Collaborative Partial Classifications. https://www.mdpi.com/2076-3417/13/14/8211.
- Gasparetto, A., Marcuzzo, M., Zangari, A., & Albarelli, A. (2022). A Survey on Text Classification Algorithms: From Text to Predictions. https://www.mdpi.com/2078-2489/13/2/83.
- Google voice search: faster and more accurate. (2015). https://research.google/blog/google-voice-search-faster-and-more-accurate.
- Hlybovets, A., & Bikchentaev, M. (2022). Prohramna systema perevirky na plahiat ukrainskykh tekstiv. NaUKMA Research Papers. Computer Science, 5, 16–25. https://doi.org/10.18523/2617-3808.2022.5.16-25 [in Ukrainian].
- Kaggle. (n. d.). https://www.kaggle.com.
- Large language model (LLM). (2024). https://www.growthloop.com/university/article/llm.
- Machine Learning Glossary. (n. d.). https://developers.google.com/machine-learning/glossary.
- Matplotlib Documentation. (n. d.). https://matplotlib.org.
- Natural Language Toolkit Documentation. (n. d.). https://www.nltk.org.
- NumPy Documentation. (n. d.). https://numpy.org.
- Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. (2018). https://research.google/blog/open-sourcingbert-state-of-the-art-pre-traininghttps://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processingfor-natural-language-processing.
- Pandas Documentation. (n. d.). https://pandas.pydata.org.
- Rosé, C. P., Roque, A., Bhembe, D., & Vanlehn, K. (2003). A Hybrid Text Classification Approach for Analysis of Student Essay. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=7f7e133f636308b5f67600ad321335f716a7a14a.
- Scikit-learn Documentation. (n. d.). https://scikit-learn.org/stable.
- Scikit-learn: Naive Baye. (n. d.). https://scikit-learn.org/stable/modules/naive_bayes.html.
- Seaborn Documentation. (n. d.). https://seaborn.pydata.org.
- Support vector machine. (n. d.). https://en.wikipedia.org/wiki/Support_vector_machine.
- TensorFlow Documentation. (n. d.). https://www.tensorflow.org.
- Understanding Text Classification in Python. (2022). https://www.datacamp.com/tutorial/text-classificationhttps://www.datacamp.com/tutorial/text-classification-pythonpython.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 A. Dubovyk, Y. Volynets

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

