Програмна система перевірки на плагіат українських текстів

Автор(и)

  • Andrii Hlybovets Національний університет «Києво-Могилянська академія», Україна
  • Mykola Bikchentaev Національний університет «Києво-Могилянська академія», Україна

DOI:

https://doi.org/10.18523/2617-3808.2022.5.16-25

Ключові слова:

пошук плагіату, BERT, Word2Vec, машинне навчання

Анотація

Метою цієї роботи є опис методології побудови програмної системи (застосунку) перевірки на плагіат наукових публікацій українською мовою з використанням двох моделей машинного навчання – Word2Vec і BERT. Ми розглядаємо виявлення зовнішнього плагіату в українських текстах, що передбачає порівняння вхідного документа з документами в колекції. Вбудовування слів використовували для порівняння документів, оскільки тексти зі схожим значенням або контекстом створюють подібні вбудовування слів. За допомогою Word2Vec і BERT ми перетворюємо кожен документ на ряд убудовувань слів. Розрахунок міри подібності для цих убудовувань допомагає визначити схожість документів. Інтерфейс програми розроблено з використанням бібліотеки React. Вебзастосунок використовує бібліотеку компонентів Material UI і базу даних MongoDB. Бекенд написано з використанням мов програмування Python і Flask.

Біографії авторів

Andrii Hlybovets, Національний університет «Києво-Могилянська академія»

Глибовець Андрій Миколайович – доктор технічних наук, декан факультету інформатики Національного університету «Києво-Могилянська академія», a.glybovets@ukma.edu.ua

Mykola Bikchentaev, Національний університет «Києво-Могилянська академія»

Бікчентаєв Микола Олексійович – студент магістерської програми «Прикладна математика» факультету інформатики Національного університету «Києво-Могилянська академія», m.bikchentaev@ukma.edu.ua

Посилання

  1. Alammar, Jay. The Illustrated Bert, Elmo, and Co. (How NLP Cracked Transfer Learning). Visualizing Machine Learning One Concept at a Time. https://jalammar.github.io/illustrated-bert/.
  2. Alammar, Jay. The Illustrated Transformer. The Illustrated Transformer – Jay Alammar – Visualizing Machine Learning One Concept at a Time. https://jalammar.github.io/illustrated-transformer/.
  3. Alammar, Jay. The Illustrated word2vec. Visualizing Machine Learning One Concept at a Time. https://jalammar.github.io/illustrated-word2vec/.
  4. Ali, Zafar. (2019, Jan. 7). A Simple word2vec Tutorial. Medium, Medium. https://medium.com/@zafaralibagh6/a-simple-word-2vec-tutorial-61e64e38a6a1.
  5. What Is the Difference between Stemming and Lemmatization? Bitext. https://blog.bitext.com/what-is-the-difference-betweenstemming-and-lemmatization/.
  6. Doshi, Ketan. (2021, June 3). Transformers Explained Visually (Part 2): How It Works, Step-by-Step. Medium, Towards Data Science. https://towardsdatascience.com/transformers-explained-visually-part-2-how-it-works-step-by-step-b49fa4a64f34.
  7. Doshi, Ketan. (2021, June 8). Transformers Explained Visually - Not Just How, but Why They Work so Well. Medium, Towards Data Science. https://towardsdatascience.com/transformers-explained-visually-not-just-how-but-why-they-work-so-welld840bd61a9d3.
  8. Flask. Pallets. https://palletsprojects.com/p/flask/.
  9. Gharavi, E., Bijari, K., & Zahirnia, K. (2016). A Deep Learning Approach to Persian Plagiarism Detection. FIRE (Working Notes), 154–159.
  10. Gilyadov, Julian. Word2Vec Explained. Hacker’s Blog – Get a Beer and Join Me down This Geeky Rabbit Hole Adventure. https://israelg99.github.io/2017-03-23-Word2Vec-Explained/.
  11. Google Code Archive – Long-Term Storage for Google Code Project Hosting. Google, https://code.google.com/archive/p/word2vec/.
  12. Hambi, El Mostafa, & Faouzia, Benabbou. (2020). A deep learningbased technique for plagiarism detection: a comparative study. International Journal of Artificial Intelligence, 9 (1), 81–90.
  13. Horev, Rani. (2018, Nov. 17). Bert Explained: State of the Art Language Model for NLP. Medium, Towards Data Science. https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270.
  14. Kathrani, Kashyap. (2022, Apr. 8). All about Embeddings. Medium, Medium. https://medium.com/@kashyapkathrani/all-aboutembeddings-829c8ff0bf5b.
  15. LANG-UK. Lang. https://lang.org.ua/uk/models/.
  16. Malnik, Jessica. (2022, Mar. 7). 7 Common Types of Plagiarism Explained. Writer. https://writer.com/blog/types-of-plagiarism/.
  17. React – a JavaScript Library for Building User Interfaces. A JavaScript Library for Building User Interfaces. https://reactjs.org/.
  18. SentenceТransformers Documentation. https://www.sbert.net/.
  19. The React Component Library You Always Wanted. MUI. https://mui.com/.
  20. Varun. (2020, Dec. 3). Calculating Document Similarities Using Bert and Other Models. Medium. https://towardsdatascience.com/calculating-document-similarities-using-bert-and-othermodels-b2c1a29c9630.
  21. Varun. (2020, Aug. 19). The Quantitative Value of Text, TF-IDF and More... Medium, Analytics Vidhya. https://medium.com/analytics-vidhya/the-quantitative-value-of-text-tf-idf-and-moree3c7883f1df3.
  22. Wood, T. (2020, July 7). Transformer Neural Network. DeepAI. https://deepai.org/machine-learning-glossary-and-terms/transformer-neural-network.

##submission.downloads##

Опубліковано

2023-02-24

Як цитувати

[1]
A. Hlybovets і M. Bikchentaev, «Програмна система перевірки на плагіат українських текстів», NRPCOMP, т. 5, с. 16–25, Лют 2023.