Автоматична класифікація текстів

Автор(и)

  • Андрій Вікторович Дубовик Національний університет «Києво-Могилянська академія», Україна
  • Євгеній Анатолійович Волинець Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0003-3232-9425

DOI:

https://doi.org/10.18523/2617-3808.2025.8.102-107

Ключові слова:

класифікація текстів, машинне навчання, оброблення української мови, Naive Bayes, SVM, RNN, попереднє оброблення тексту

Анотація

У цьому дослідженні здійснено аналіз сучасних підходів до класифікації текстової інформації. Особливу увагу приділено автоматичній класифікації текстів, що передбачає їхній розподіл за визначеними категоріями без використання ручного аналізу. Розглянуто й порівняно ефективність різних методів класифікації з акцентом на гібридні системи, які здатні поєднувати переваги окремих підходів і забезпечувати підвищену точність та продуктивність моделей. Також обґрунтовано вибір інструментальних засобів для подальшої програмної реалізації системи автоматизованої класифікації текстів за категоріями. Для навчання моделей запропоновано використовувати збірку AG News Classification Dataset з платформи kaggle.com. Доцільним вважається обмеження класифікаційного процесу комбінацією трьох моделей — Naive Bayes, Support Vector Machine (SVM) та Recurrent Neural Networks (RNN), які вирізняються невисокими вимогами до обчислювальних ресурсів і часу на тренування.

Біографії авторів

Андрій Вікторович Дубовик, Національний університет «Києво-Могилянська академія»

студент бакалаврської програми «Інженерія програмного забезпечення» факультету інформатики Національного університету «Києво-Могилянська академія», andrii.dubovyk@ukma.edu.ua

Євгеній Анатолійович Волинець, Національний університет «Києво-Могилянська академія»

кандидат фізико-математичних наук, старший викладач факультету інформатики Національного університетут «Києво-Могилянська академія», ye.volynets@ukma.edu.ua

Посилання

  1. ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months. (2023). https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-aihttps://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-monthschatbot-has-completely-changed-the-world-in-12-months.
  2. Ekolle, Zie Eya, & Kohno, Ryuji. (2023). A Generative Learning Model for Heterogeneous Text Classification Based on Collaborative Partial Classifications. https://www.mdpi.com/2076-3417/13/14/8211.
  3. Gasparetto, A., Marcuzzo, M., Zangari, A., & Albarelli, A. (2022). A Survey on Text Classification Algorithms: From Text to Predictions. https://www.mdpi.com/2078-2489/13/2/83.
  4. Google voice search: faster and more accurate. (2015). https://research.google/blog/google-voice-search-faster-and-more-accurate.
  5. Hlybovets, A., & Bikchentaev, M. (2022). Prohramna systema perevirky na plahiat ukrainskykh tekstiv. NaUKMA Research Papers. Computer Science, 5, 16–25. https://doi.org/10.18523/2617-3808.2022.5.16-25 [in Ukrainian].
  6. Kaggle. (n. d.). https://www.kaggle.com.
  7. Large language model (LLM). (2024). https://www.growthloop.com/university/article/llm.
  8. Machine Learning Glossary. (n. d.). https://developers.google.com/machine-learning/glossary.
  9. Matplotlib Documentation. (n. d.). https://matplotlib.org.
  10. Natural Language Toolkit Documentation. (n. d.). https://www.nltk.org.
  11. NumPy Documentation. (n. d.). https://numpy.org.
  12. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. (2018). https://research.google/blog/open-sourcingbert-state-of-the-art-pre-traininghttps://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processingfor-natural-language-processing.
  13. Pandas Documentation. (n. d.). https://pandas.pydata.org.
  14. Rosé, C. P., Roque, A., Bhembe, D., & Vanlehn, K. (2003). A Hybrid Text Classification Approach for Analysis of Student Essay. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=7f7e133f636308b5f67600ad321335f716a7a14a.
  15. Scikit-learn Documentation. (n. d.). https://scikit-learn.org/stable.
  16. Scikit-learn: Naive Baye. (n. d.). https://scikit-learn.org/stable/modules/naive_bayes.html.
  17. Seaborn Documentation. (n. d.). https://seaborn.pydata.org.
  18. Support vector machine. (n. d.). https://en.wikipedia.org/wiki/Support_vector_machine.
  19. TensorFlow Documentation. (n. d.). https://www.tensorflow.org.
  20. Understanding Text Classification in Python. (2022). https://www.datacamp.com/tutorial/text-classificationhttps://www.datacamp.com/tutorial/text-classification-pythonpython.

##submission.downloads##

Опубліковано

2025-11-26

Номер

Розділ

Нейронні мережі та машинне навчання