Метод формування навчальної вибірки для масивів даних на основі машинного навчання
DOI:
https://doi.org/10.18523/2617-3808.2023.6.30-35Ключові слова:
навчальна вибірка, машинне навчання, RFM-аналіз, кластерний аналіз, тендериАнотація
У цій роботі запропоновано новий метод формування навчальної вибірки на базі машинного навчання, що об’єднує дані з RFM-аналізу та кластерного аналізу. Метод застосовано до даних, отриманих з аукціонів українського сайту ProZorro Продажі. Запропонована вибірка охоплює 92 638 аукціонів, 29 164 унікальні аукціони та 39 747 унікальних організаторів. У процесі RFM-аналізу дані розбито на групи: «Найкращі організатори тендерів», «Вірні організатори тендерів» та ін. Далі, методом K-means, дані були поділено на кластери, що дало змогу відокремити різні категорії організаторів. Результати тестування, проведеного з використанням Logistic Regression і Naive Bayes, засвідчили високу точність для обох методів. Продемонстровано, що вибірка та групування за допомогою запропонованого методу допомагають відрізняти організаторів тендерів за їхніми характеристиками та результатами. Подальші дослідження мають бути у напрямі розроблення автоматизованої системи для вибору організаторів тендерів на основі машинного навчання, що сприятиме оптимізації участі у тендерних процедурах.
Посилання
- Anitha, P., & Patil, M. M. (2019). RFM model for customer purchase behavior using K-Means algorithm. Journal of King Saud University — Computer and Information Sciences. https://doi.org/10.1016/j.jksuci.2019.12.011
- Kamilov, M., Hudayberdiev, M., & Khamroev, A. (2019b). Algorithm for the Development of a Training Set that Best Describes the Objects of Recognition. Procedia Computer Science, 150, 116–122. https://doi.org/10.1016/j.procs.2019.02.024.
- Kianisarkaleh, A., & Ghassemian, H. (2016). Nonparametric feature extraction for classification of hyperspectral images with limited training samples. ISPRS Journal of Photogrammetry and Remote Sensing, 119, 64–78. https://doi.org/10.1016/j.isprsjprs.2016.05.009.
- Krysovatyy, A., Lipianina-Honcharenko, H., Sachenko, S., Desyatnyuk, O., Banasik, A., & Lukasevych-Krutnyk, I. (2022). Recognizing the Fictitious Business Entity on Logistic Regression Base. Proceedings of the 3rd International Workshop on Intelligent Information Technologies & Systems of Information Security Khmelnytskyi, 3156, 218–227. https://ceur-ws.org/Vol-3156/paper15.pdf.
- Krysovatyy, A., Lipyanina-Goncharenko, H., Desyatnyuk, O., Sachenko, S., Lukasevych-Krutnyk, I., & Butrin-Boka, N. (2021). Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes. In 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT). IEEE. https://doi.org/10.1109/csit52700.2021.9648584.
- Li, G. (2013). Application of Improved K-Means Clustering Algorithm in Customer Segmentation. Applied Mechanics and Materials, 411–414, 1081–1084. https://doi.org/10.4028/www.scientific.net/amm.411-414.1081.
- Piza, D. M., & Moroz, G. V. (2018). Methods of Forming Classified Training Sample for Adaptation of Weight Coefficient of Automatic Interference Compensator. Radioelectronics and Communications Systems, 61 (1), 32–37. https://doi.org/10.3103/s0735272718010041.
- Piza, D. M., Bugrova, T. I., Lavrentiev, V. N., & Semenov, D. S. (2018). Method of Forming Classified Training Sample in Case of Spacial Signal Processing under Influence of Combined Interference. Radioelectronics and Communications Systems, 61 (7), 325–331. https://doi.org/10.3103/s0735272718070051.
- ProZorro. https://bi.prozorro.sale/#/participantsCard.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Kh. Lipianina-Honcharenko
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).