Програмна система перевірки на плагіат українських текстів
DOI:
https://doi.org/10.18523/2617-3808.2022.5.16-25Ключові слова:
пошук плагіату, BERT, Word2Vec, машинне навчанняАнотація
Метою цієї роботи є опис методології побудови програмної системи (застосунку) перевірки на плагіат наукових публікацій українською мовою з використанням двох моделей машинного навчання – Word2Vec і BERT. Ми розглядаємо виявлення зовнішнього плагіату в українських текстах, що передбачає порівняння вхідного документа з документами в колекції. Вбудовування слів використовували для порівняння документів, оскільки тексти зі схожим значенням або контекстом створюють подібні вбудовування слів. За допомогою Word2Vec і BERT ми перетворюємо кожен документ на ряд убудовувань слів. Розрахунок міри подібності для цих убудовувань допомагає визначити схожість документів. Інтерфейс програми розроблено з використанням бібліотеки React. Вебзастосунок використовує бібліотеку компонентів Material UI і базу даних MongoDB. Бекенд написано з використанням мов програмування Python і Flask.
Посилання
- Alammar, Jay. The Illustrated Bert, Elmo, and Co. (How NLP Cracked Transfer Learning). Visualizing Machine Learning One Concept at a Time. https://jalammar.github.io/illustrated-bert/.
- Alammar, Jay. The Illustrated Transformer. The Illustrated Transformer – Jay Alammar – Visualizing Machine Learning One Concept at a Time. https://jalammar.github.io/illustrated-transformer/.
- Alammar, Jay. The Illustrated word2vec. Visualizing Machine Learning One Concept at a Time. https://jalammar.github.io/illustrated-word2vec/.
- Ali, Zafar. (2019, Jan. 7). A Simple word2vec Tutorial. Medium, Medium. https://medium.com/@zafaralibagh6/a-simple-word-2vec-tutorial-61e64e38a6a1.
- What Is the Difference between Stemming and Lemmatization? Bitext. https://blog.bitext.com/what-is-the-difference-betweenstemming-and-lemmatization/.
- Doshi, Ketan. (2021, June 3). Transformers Explained Visually (Part 2): How It Works, Step-by-Step. Medium, Towards Data Science. https://towardsdatascience.com/transformers-explained-visually-part-2-how-it-works-step-by-step-b49fa4a64f34.
- Doshi, Ketan. (2021, June 8). Transformers Explained Visually - Not Just How, but Why They Work so Well. Medium, Towards Data Science. https://towardsdatascience.com/transformers-explained-visually-not-just-how-but-why-they-work-so-welld840bd61a9d3.
- Flask. Pallets. https://palletsprojects.com/p/flask/.
- Gharavi, E., Bijari, K., & Zahirnia, K. (2016). A Deep Learning Approach to Persian Plagiarism Detection. FIRE (Working Notes), 154–159.
- Gilyadov, Julian. Word2Vec Explained. Hacker’s Blog – Get a Beer and Join Me down This Geeky Rabbit Hole Adventure. https://israelg99.github.io/2017-03-23-Word2Vec-Explained/.
- Google Code Archive – Long-Term Storage for Google Code Project Hosting. Google, https://code.google.com/archive/p/word2vec/.
- Hambi, El Mostafa, & Faouzia, Benabbou. (2020). A deep learningbased technique for plagiarism detection: a comparative study. International Journal of Artificial Intelligence, 9 (1), 81–90.
- Horev, Rani. (2018, Nov. 17). Bert Explained: State of the Art Language Model for NLP. Medium, Towards Data Science. https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270.
- Kathrani, Kashyap. (2022, Apr. 8). All about Embeddings. Medium, Medium. https://medium.com/@kashyapkathrani/all-aboutembeddings-829c8ff0bf5b.
- LANG-UK. Lang. https://lang.org.ua/uk/models/.
- Malnik, Jessica. (2022, Mar. 7). 7 Common Types of Plagiarism Explained. Writer. https://writer.com/blog/types-of-plagiarism/.
- React – a JavaScript Library for Building User Interfaces. A JavaScript Library for Building User Interfaces. https://reactjs.org/.
- SentenceТransformers Documentation. https://www.sbert.net/.
- The React Component Library You Always Wanted. MUI. https://mui.com/.
- Varun. (2020, Dec. 3). Calculating Document Similarities Using Bert and Other Models. Medium. https://towardsdatascience.com/calculating-document-similarities-using-bert-and-othermodels-b2c1a29c9630.
- Varun. (2020, Aug. 19). The Quantitative Value of Text, TF-IDF and More... Medium, Analytics Vidhya. https://medium.com/analytics-vidhya/the-quantitative-value-of-text-tf-idf-and-moree3c7883f1df3.
- Wood, T. (2020, July 7). Transformer Neural Network. DeepAI. https://deepai.org/machine-learning-glossary-and-terms/transformer-neural-network.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Andrii Hlybovets, Mykola Bikchentaev
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).