Програмна система класифікації текстів на основі машинного навчання та рекурентної нейронної мережі
DOI:
https://doi.org/10.18523/2617-3808.2025.8.15-27Ключові слова:
автоматична класифікація текстів, Naive Bayes, Support Vector Machine, LSTM, Recurrent Neural Network, машинне навчання, Python, TensorFlow, AG News Classification DatasetАнотація
У цій роботі описано побудову та результати тестування програмної системи автоматичної класифікації текстів, яка полягає в розподілі текстів за певними категоріями, зокрема текстів українською мовою. Наш застосунок побудований на використанні трьох моделей — Naive Bayes, Support Vector Machine, LSTM — архітектури рекурентної нейронної мережі Recurrent Neural Network (RNN) та їх комбінації. Він дає змогу доволі швидко і точно класифікувати тексти, надавати користувачу можливість зручним способом натренувати систему на власних даних і досить просто налаштувати параметри для оптимальних результатів.
Для ефективного опрацювання вхідних даних і реалізації алгоритму класифікації ми вибрали мову програмування Python. Основними бібліотеками реалізації функціоналу застосунку стали TensorFlow, scikit-learn (для надання простого та зрозумілого інтерфейсу), Natural Language Toolkit (nltk), NumPy, Pandas. Matplotlib і seaborn застосовували для візуалізації даних і побудови графіків. Розроблений графічний застосунок здатен розпізнавати тексти (англійською або українською мовою) чотирьох категорій (World, Sports, Science / Technology, Business) з точністю близько 92 %.
Для навчання моделей ми застосували AG News Classification Dataset із kaggle.com.
Тестування застосунку підтвердило припущення, що спеціалізовані моделі, крім того, що є значно ефективнішими в плані використання ресурсів, також можуть демонструвати кращий результат у класифікації текстів, ніж LLM. Система також може бути швидко адаптована й до задачі фільтрації спаму. За декілька секунд можна отримати SVM модель, яка зможе розпізнавати типові спам-повідомлення з точністю близько 99 %. Так само були протестовані можливості системи при розпізнаванні емоційної забарвленості тексту. Вдалося досягти точності 87,75 %.
Посилання
- Datacamp. (n. d.). Understanding text classification in Python. https://www.datacamp.com/tutorial/text-classification-pythonpython.
- Ekolle, Z. E., & Kohno, R. (2023). A generative learning model for heterogeneous text classification based on collaborative partial classifications. Applied Sciences, 13 (14), 8211. https://www.mdpi.com/2076-3417/13/14/8211.
- Gasparetto, A., Marcuzzo, M., Zangari, A., & Albarelli, A. (2022). A survey on text classification algorithms: From text to predictions. Information, 13 (2), 83. https://www.mdpi.com/2078-2489/13/2/83.
- Google Developers. (n. d.). Machine learning glossary. https://developers.google.com/machine-learning/glossary.
- Hlybovets, A. M., & Bikchentayev, M. (2022). Prohramna systema perevirky na plahiat ukrainskykh tekstiv. NaUKMA Research Papers. Computer Science, 5, 16–25. https://doi.org/10.18523/2617-3808.2022.5.16-25 [in Ukrainian].
- Kaggle. (n. d.). https://www.kaggle.com.
- Matplotlib. (n. d.). https://matplotlib.org.
- Natural Language Toolkit (nltk). (n. d.). https://www.nltk.org.
- NumPy. (n. d.). https://numpy.org.
- Pandas. (n. d.). https://pandas.pydata.org.
- Pymorphy2. (n. d.). https://github.com/pymorphy2/pymorphy2.
- Rosé, C. P., Roque, A., Bhembe, D., & VanLehn, K. (2003). A hybrid text classification approach for analysis of student essays. In Proceedings of the HLT-NAACL 03 Workshop on Building Educational Applications Using Natural Language Processing (pp. 79–86). https://aclanthology.org/W03-0210.pdf.
- Scikit-learn. (n. d.). https://scikit-learn.org/stable.
- Scikit-learn. (n. d.). Naive Bayes. https://scikit-learn.org/stable/modules/naive_bayes.html.
- Seaborn. (n. d.). https://seaborn.pydata.org.
- Support vector machine. (n. d.). Wikipedia. https://en.wikipedia.org/wiki/Support_vector_machine.
- TensorFlow. (n. d.). https://www.tensorflow.org.
- UkStemmer. (n. d.). https://github.com/Desklop/Uk_Stemmer.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 A. Hlybovets, A. Dubovyk, A. Afonin

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

