Метод формування навчальної вибірки для масивів даних на основі машинного навчання

Автор(и)

  • Христина Володимирівна Ліп’яніна-Гочаренко Західноукраїнський національний університет, Україна https://orcid.org/0000-0002-2441-6292

DOI:

https://doi.org/10.18523/2617-3808.2023.6.30-35

Ключові слова:

навчальна вибірка, машинне навчання, RFM-аналіз, кластерний аналіз, тендери

Анотація

У цій роботі запропоновано новий метод формування навчальної вибірки на базі машинного навчання, що об’єднує дані з RFM-аналізу та кластерного аналізу. Метод застосовано до даних, отриманих з аукціонів українського сайту ProZorro Продажі. Запропонована вибірка охоплює 92 638 аукціонів, 29 164 унікальні аукціони та 39 747 унікальних організаторів. У процесі RFM-аналізу дані розбито на групи: «Найкращі організатори тендерів», «Вірні організатори тендерів» та ін. Далі, методом K-means, дані були поділено на кластери, що дало змогу відокремити різні категорії організаторів. Результати тестування, проведеного з використанням Logistic Regression і Naive Bayes, засвідчили високу точність для обох методів. Продемонстровано, що вибірка та групування за допомогою запропонованого методу допомагають відрізняти організаторів тендерів за їхніми характеристиками та результатами. Подальші дослідження мають бути у напрямі розроблення автоматизованої системи для вибору організаторів тендерів на основі машинного навчання, що сприятиме оптимізації участі у тендерних процедурах.

Біографія автора

Христина Володимирівна Ліп’яніна-Гочаренко, Західноукраїнський національний університет

Кандидат технічних наук, доцент, доцент кафедри інформаційно-обчислювальних систем і управління Західноукраїнського національного університету, kh.lipianina@wunu.edu.ua

Посилання

  1. Anitha, P., & Patil, M. M. (2019). RFM model for customer purchase behavior using K-Means algorithm. Journal of King Saud University — Computer and Information Sciences. https://doi.org/10.1016/j.jksuci.2019.12.011
  2. Kamilov, M., Hudayberdiev, M., & Khamroev, A. (2019b). Algorithm for the Development of a Training Set that Best Describes the Objects of Recognition. Procedia Computer Science, 150, 116–122. https://doi.org/10.1016/j.procs.2019.02.024.
  3. Kianisarkaleh, A., & Ghassemian, H. (2016). Nonparametric feature extraction for classification of hyperspectral images with limited training samples. ISPRS Journal of Photogrammetry and Remote Sensing, 119, 64–78. https://doi.org/10.1016/j.isprsjprs.2016.05.009.
  4. Krysovatyy, A., Lipianina-Honcharenko, H., Sachenko, S., Desyatnyuk, O., Banasik, A., & Lukasevych-Krutnyk, I. (2022). Recognizing the Fictitious Business Entity on Logistic Regression Base. Proceedings of the 3rd International Workshop on Intelligent Information Technologies & Systems of Information Security Khmelnytskyi, 3156, 218–227. https://ceur-ws.org/Vol-3156/paper15.pdf.
  5. Krysovatyy, A., Lipyanina-Goncharenko, H., Desyatnyuk, O., Sachenko, S., Lukasevych-Krutnyk, I., & Butrin-Boka, N. (2021). Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes. In 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT). IEEE. https://doi.org/10.1109/csit52700.2021.9648584.
  6. Li, G. (2013). Application of Improved K-Means Clustering Algorithm in Customer Segmentation. Applied Mechanics and Materials, 411–414, 1081–1084. https://doi.org/10.4028/www.scientific.net/amm.411-414.1081.
  7. Piza, D. M., & Moroz, G. V. (2018). Methods of Forming Classified Training Sample for Adaptation of Weight Coefficient of Automatic Interference Compensator. Radioelectronics and Communications Systems, 61 (1), 32–37. https://doi.org/10.3103/s0735272718010041.
  8. Piza, D. M., Bugrova, T. I., Lavrentiev, V. N., & Semenov, D. S. (2018). Method of Forming Classified Training Sample in Case of Spacial Signal Processing under Influence of Combined Interference. Radioelectronics and Communications Systems, 61 (7), 325–331. https://doi.org/10.3103/s0735272718070051.
  9. ProZorro. https://bi.prozorro.sale/#/participantsCard.

##submission.downloads##

Опубліковано

2024-03-24

Як цитувати

[1]
Х. В. Ліп’яніна-Гочаренко, «Метод формування навчальної вибірки для масивів даних на основі машинного навчання», NRPCOMP, т. 6, с. 30–35, Бер 2024.