Аугментація даних у комп’ютерному зорі із використанням генеративних моделей
DOI:
https://doi.org/10.18523/2617-3808.2025.8.88-96Ключові слова:
аугментація, комп’ютерний зір, генеративні моделі, генеративно-змагальні мережі, дифузійні мережіАнотація
У статті представлено огляд сучасних підходів до використання генеративних моделей для аугментації даних у задачах комп’ютерного зору. Показано, що ці моделі здатні генерувати високоякісні зображення та різні типи розмітки, що забезпечує їхню ефективність у широкому спектрі прикладних задач. Важливою умовою є недопущення витоку даних під час застосування переднавчених моделей. Проаналізовано методи оцінювання якості синтетичних даних, зокрема використання метрик візуальної якості та відповідності обумовлення, часто із залученням допоміжних моделей. Окреслено перспективні напрями подальших досліджень, зокрема забезпечення якості генерації без використання допоміжних моделей та розроблення методів вибору зразків для аугментації для найбільш ефективного навчання.
Посилання
- Baran, I., Kupyn, O., & Kravchenko, A. (2019). Safe Augmentation: Learning Task-Specific Transformations from Data (arXiv:1907.12896). arXiv. https://doi.org/10.48550/arXiv.1907.12896.
- Chadebec, C., & Allassonnière, S. (2021). Data Augmentation with Variational Autoencoders and Manifold Sampling. Deep Generative Models, and Data Augmentation, Labelling, and Imperfections: First Workshop, DGM4MICCAI 2021, and First Workshop, DALI 2021, Held in Conjunction with MICCAI 2021, Strasbourg, France, October 1, 2021, Proceedings, 184–192. https://doi.org/10.1007/978-3-030-88210-5_17.
- Chaikovskyi, O., Volokyta, A., Kyrianov, A., & Loutskii, H. (2021). Data Augmentation Method Using Generative Adversarial Networks. Technical Sciences and Technologies, 83–91. https://doi.org/10.25140/2411-5363-2021-2(24)-83-91.
- Cho, S.-B., Cheng, Y., & Sul, S. (2024). Enhanced classification performance through GauGAN-based data augmentation for tomato leaf images. IET Image Processing, 18 (14), 4887–4897. https://doi.org/10.1049/ipr2.13069.
- Cubuk, E. D., Zoph, B., Mané, D., Vasudevan, V., & Le, Q. V. (2019). AutoAugment: Learning Augmentation Strategies From Data. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 113–123. https://doi.org/10.1109/CVPR.2019.00020.
- Fan, Z., Kelkar, V., Anastasio, M. A., & Li, H. (2022). Application of DatasetGAN in medical imaging: Preliminary studies. Medical Imaging 2022: Image Processing, 12032, 452–458. https://doi.org/10.1117/12.2611191.
- Fang, H., Han, B., Zhang, S., Zhou, S., Hu, C., & Ye, W.-M. (2024). Data Augmentation for Object Detection via Controllable Diffusion Models. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 1246–1255. https://doi.org/10.1109/WACV57701.2024.00129.
- Fawakherji, M., Potena, C., Prevedello, I., Pretto, A., Bloisi, D. D., & Nardi, D. (2020). Data Augmentation Using GANs for Crop/Weed Segmentation in Precision Farming. 2020 IEEE Conference on Control Technology and Applications (CCTA), 279–284. https://doi.org/10.1109/CCTA41146.2020.9206297.
- Ho, D., Liang, E., Stoica, I., Abbeel, P., & Chen, X. (2019, May 14). Population Based Augmentation: Efficient Learning of Augmentation Policy Schedules (Issue arXiv:1905.05393). arXiv. https://doi.org/10.48550/arXiv.1905.05393.
- Jackson, P. T., Atapour-Abarghouei, A., Bonner, S., Breckon, T., & Obara, B. (2019, April 12). Style Augmentation: Data Augmentation via Style Randomization (Issue arXiv:1809.05375). arXiv. https://doi.org/10.48550/arXiv.1809.05375.
- Jain, S., Lawrence, H., Moitra, A., & Madry, A. (2022, December 2). Distilling Model Failures as Directions in Latent Space (Issue arXiv:2206.14754). arXiv. https://doi.org/10.48550/arXiv.2206.14754.
- Li, Y., Hu, G., Wang, Y., Hospedales, T., Robertson, N. M., & Yang, Y. (2020). Differentiable Automatic Data Augmentation. In A. Vedaldi, H. Bischof, T. Brox, & J.-M. Frahm (Eds.), Computer Vision — ECCV 2020 (pp. 580–595). Springer International Publishing. https://doi.org/10.1007/978-3-030-58542-6_35.
- Lu, C.-Y., Arcega Rustia, D. J., & Lin, T.-T. (2019). Generative Adversarial Network Based Image Augmentation for Insect Pest Classification Enhancement. IFAC-PapersOnLine, 52 (30), 1–5. https://doi.org/10.1016/j.ifacol.2019.12.406.
- Nguyen, Q., Vu, T., Tran, A., & Nguyen, K. (2023). Dataset Diffusion: Diffusion-based Synthetic Data Generation for Pixel-Level Semantic Segmentation. Advances in Neural Information Processing Systems, 36, 76872–76892.
- Nikolov, I. A. (2024). Variational Autoencoders for Pedestrian Synthetic Data Augmentation of Existing Datasets: 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, VISAPP 2024. Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, 2, 829–836. https://doi.org/10.5220/0012570700003660.
- Norouzi, S., Fleet, D. J., & Norouzi, M. (2020, November 24). Exemplar VAE: Linking Generative Models, Nearest Neighbor Retrieval, and Data Augmentation (Issue arXiv:2004.04795). arXiv. https://doi.org/10.48550/arXiv.2004.04795.
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10674–10685. https://doi.org/10.1109/CVPR52688.2022.01042.
- Shi, J., Riba, E., Mishkin, D., Moreno, F., & Nicolaou, A. (2020, November 19). Differentiable Data Augmentation with Kornia (Issue arXiv:2011.09832). arXiv. https://doi.org/10.48550/arXiv.2011.09832.
- Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning. Journal of Big Data, 6 (1), 60. https://doi.org/10.1186/s40537-019-0197-0.
- Trabucco, B., Doherty, K., Gurinas, M., & Salakhutdinov, R. (2025, June 10). Effective Data Augmentation With Diffusion Models (Issue arXiv:2302.07944). arXiv. https://doi.org/10.48550/arXiv.2302.07944.
- Wang, Z., Li, Y., Wan, J., & Vasconcelos, N. (2025). Diffusion-based Data Augmentation for Object Counting Problems. ICASSP 2025 — 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1–5. https://doi.org/10.1109/ICASSP49660.2025.10888449.
- Wu, W., Zhao, Y., Chen, H., Gu, Y., Zhao, R., He, Y., Zhou, H., Shou, M. Z., & Shen, C. (2023). DatasetDM: Synthesizing data with perception annotations using diffusion models. Proceedings of the 37th International Conference on Neural Information Processing Systems, 54683–54695.
- Xiao, C., Xu, S. X., & Zhang, K. (2023). Multimodal Data Augmentation for Image Captioning using Diffusion Models. Proceedings of the 1st Workshop on Large Generative Models Meet Multimodal Applications, 23–33. https://doi.org/10.1145/3607827.3616839.
- Xie, J., Li, W., Li, X., Liu, Z., Ong, Y. S., & Loy, C. C. (2024). MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation. Int. J. Comput. Vision, 133 (4), 1456–1475. https://doi.org/10.1007/s11263-024-02223-3.
- Yang, L., Xu, X., Kang, B., Shi, Y., & Zhao, H. (2023). FreeMask: Synthetic images with dense annotations make stronger segmentation models. Proceedings of the 37th International Conference on Neural Information Processing Systems, 18659–18675.
- Zhang, Y., Ling, H., Gao, J., Yin, K., Lafleche, J.-F., Barriuso, A., Torralba, A., & Fidler, S. (2021). DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort. 10140–10150. https://doi.org/10.1109/CVPR46437.2021.01001.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 S. Cholovskyi, O. Buchko

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії CC BY 4.0 Creative Commons Attribution International License, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

