Аугментація даних у комп’ютерному зорі із використанням генеративних моделей

Автор(и)

  • Сергій Олександрович Чоловський Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0003-3343-6986
  • Олена Андріївна Бучко Національний університет «Києво-Могилянська академія», Україна https://orcid.org/0009-0006-4190-5895

DOI:

https://doi.org/10.18523/2617-3808.2025.8.88-96

Ключові слова:

аугментація, комп’ютерний зір, генеративні моделі, генеративно-змагальні мережі, дифузійні мережі

Анотація

У статті представлено огляд сучасних підходів до використання генеративних моделей для аугментації даних у задачах комп’ютерного зору. Показано, що ці моделі здатні генерувати високоякісні зображення та різні типи розмітки, що забезпечує їхню ефективність у широкому спектрі прикладних задач. Важливою умовою є недопущення витоку даних під час застосування переднавчених моделей. Проаналізовано методи оцінювання якості синтетичних даних, зокрема використання метрик візуальної якості та відповідності обумовлення, часто із залученням допоміжних моделей. Окреслено перспективні напрями подальших досліджень, зокрема забезпечення якості генерації без використання допоміжних моделей та розроблення методів вибору зразків для аугментації для найбільш ефективного навчання.

Біографії авторів

Сергій Олександрович Чоловський, Національний університет «Києво-Могилянська академія»

аспірант програми «Комп’ютерні науки» факультету інформатики Національного університету «Києво-Могилянська академія», s.cholovskyi@ukma.edu.ua

Олена Андріївна Бучко, Національний університет «Києво-Могилянська академія»

PhD технічних наук, доцент факультету інформатики Національного університету «Києво-Могилянська академія», olena.buchko@ukma.edu.ua

Посилання

  1. Baran, I., Kupyn, O., & Kravchenko, A. (2019). Safe Augmentation: Learning Task-Specific Transformations from Data (arXiv:1907.12896). arXiv. https://doi.org/10.48550/arXiv.1907.12896.
  2. Chadebec, C., & Allassonnière, S. (2021). Data Augmentation with Variational Autoencoders and Manifold Sampling. Deep Generative Models, and Data Augmentation, Labelling, and Imperfections: First Workshop, DGM4MICCAI 2021, and First Workshop, DALI 2021, Held in Conjunction with MICCAI 2021, Strasbourg, France, October 1, 2021, Proceedings, 184–192. https://doi.org/10.1007/978-3-030-88210-5_17.
  3. Chaikovskyi, O., Volokyta, A., Kyrianov, A., & Loutskii, H. (2021). Data Augmentation Method Using Generative Adversarial Networks. Technical Sciences and Technologies, 83–91. https://doi.org/10.25140/2411-5363-2021-2(24)-83-91.
  4. Cho, S.-B., Cheng, Y., & Sul, S. (2024). Enhanced classification performance through GauGAN-based data augmentation for tomato leaf images. IET Image Processing, 18 (14), 4887–4897. https://doi.org/10.1049/ipr2.13069.
  5. Cubuk, E. D., Zoph, B., Mané, D., Vasudevan, V., & Le, Q. V. (2019). AutoAugment: Learning Augmentation Strategies From Data. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 113–123. https://doi.org/10.1109/CVPR.2019.00020.
  6. Fan, Z., Kelkar, V., Anastasio, M. A., & Li, H. (2022). Application of DatasetGAN in medical imaging: Preliminary studies. Medical Imaging 2022: Image Processing, 12032, 452–458. https://doi.org/10.1117/12.2611191.
  7. Fang, H., Han, B., Zhang, S., Zhou, S., Hu, C., & Ye, W.-M. (2024). Data Augmentation for Object Detection via Controllable Diffusion Models. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 1246–1255. https://doi.org/10.1109/WACV57701.2024.00129.
  8. Fawakherji, M., Potena, C., Prevedello, I., Pretto, A., Bloisi, D. D., & Nardi, D. (2020). Data Augmentation Using GANs for Crop/Weed Segmentation in Precision Farming. 2020 IEEE Conference on Control Technology and Applications (CCTA), 279–284. https://doi.org/10.1109/CCTA41146.2020.9206297.
  9. Ho, D., Liang, E., Stoica, I., Abbeel, P., & Chen, X. (2019, May 14). Population Based Augmentation: Efficient Learning of Augmentation Policy Schedules (Issue arXiv:1905.05393). arXiv. https://doi.org/10.48550/arXiv.1905.05393.
  10. Jackson, P. T., Atapour-Abarghouei, A., Bonner, S., Breckon, T., & Obara, B. (2019, April 12). Style Augmentation: Data Augmentation via Style Randomization (Issue arXiv:1809.05375). arXiv. https://doi.org/10.48550/arXiv.1809.05375.
  11. Jain, S., Lawrence, H., Moitra, A., & Madry, A. (2022, December 2). Distilling Model Failures as Directions in Latent Space (Issue arXiv:2206.14754). arXiv. https://doi.org/10.48550/arXiv.2206.14754.
  12. Li, Y., Hu, G., Wang, Y., Hospedales, T., Robertson, N. M., & Yang, Y. (2020). Differentiable Automatic Data Augmentation. In A. Vedaldi, H. Bischof, T. Brox, & J.-M. Frahm (Eds.), Computer Vision — ECCV 2020 (pp. 580–595). Springer International Publishing. https://doi.org/10.1007/978-3-030-58542-6_35.
  13. Lu, C.-Y., Arcega Rustia, D. J., & Lin, T.-T. (2019). Generative Adversarial Network Based Image Augmentation for Insect Pest Classification Enhancement. IFAC-PapersOnLine, 52 (30), 1–5. https://doi.org/10.1016/j.ifacol.2019.12.406.
  14. Nguyen, Q., Vu, T., Tran, A., & Nguyen, K. (2023). Dataset Diffusion: Diffusion-based Synthetic Data Generation for Pixel-Level Semantic Segmentation. Advances in Neural Information Processing Systems, 36, 76872–76892.
  15. Nikolov, I. A. (2024). Variational Autoencoders for Pedestrian Synthetic Data Augmentation of Existing Datasets: 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, VISAPP 2024. Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, 2, 829–836. https://doi.org/10.5220/0012570700003660.
  16. Norouzi, S., Fleet, D. J., & Norouzi, M. (2020, November 24). Exemplar VAE: Linking Generative Models, Nearest Neighbor Retrieval, and Data Augmentation (Issue arXiv:2004.04795). arXiv. https://doi.org/10.48550/arXiv.2004.04795.
  17. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10674–10685. https://doi.org/10.1109/CVPR52688.2022.01042.
  18. Shi, J., Riba, E., Mishkin, D., Moreno, F., & Nicolaou, A. (2020, November 19). Differentiable Data Augmentation with Kornia (Issue arXiv:2011.09832). arXiv. https://doi.org/10.48550/arXiv.2011.09832.
  19. Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning. Journal of Big Data, 6 (1), 60. https://doi.org/10.1186/s40537-019-0197-0.
  20. Trabucco, B., Doherty, K., Gurinas, M., & Salakhutdinov, R. (2025, June 10). Effective Data Augmentation With Diffusion Models (Issue arXiv:2302.07944). arXiv. https://doi.org/10.48550/arXiv.2302.07944.
  21. Wang, Z., Li, Y., Wan, J., & Vasconcelos, N. (2025). Diffusion-based Data Augmentation for Object Counting Problems. ICASSP 2025 — 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1–5. https://doi.org/10.1109/ICASSP49660.2025.10888449.
  22. Wu, W., Zhao, Y., Chen, H., Gu, Y., Zhao, R., He, Y., Zhou, H., Shou, M. Z., & Shen, C. (2023). DatasetDM: Synthesizing data with perception annotations using diffusion models. Proceedings of the 37th International Conference on Neural Information Processing Systems, 54683–54695.
  23. Xiao, C., Xu, S. X., & Zhang, K. (2023). Multimodal Data Augmentation for Image Captioning using Diffusion Models. Proceedings of the 1st Workshop on Large Generative Models Meet Multimodal Applications, 23–33. https://doi.org/10.1145/3607827.3616839.
  24. Xie, J., Li, W., Li, X., Liu, Z., Ong, Y. S., & Loy, C. C. (2024). MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation. Int. J. Comput. Vision, 133 (4), 1456–1475. https://doi.org/10.1007/s11263-024-02223-3.
  25. Yang, L., Xu, X., Kang, B., Shi, Y., & Zhao, H. (2023). FreeMask: Synthetic images with dense annotations make stronger segmentation models. Proceedings of the 37th International Conference on Neural Information Processing Systems, 18659–18675.
  26. Zhang, Y., Ling, H., Gao, J., Yin, K., Lafleche, J.-F., Barriuso, A., Torralba, A., & Fidler, S. (2021). DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort. 10140–10150. https://doi.org/10.1109/CVPR46437.2021.01001.

##submission.downloads##

Опубліковано

2025-11-26

Номер

Розділ

Нейронні мережі та машинне навчання