Görüntüden görüntüye çeviri, farklı alanlardaki görüntüleri dönüştürme sürecidir. Generative Adversarial Networks (GAN'lar) ve Convolutional Neural Networks (CNN'ler), görüntü çevirisinde yaygın olarak kullanılan tekniklerdir. Bu çalışma, GAN mimarileri için en etkili kayıp fonksiyonunu bulmayı amaçlamaktadır ve daha iyi görüntüler sentezlemeyi hedeflemektedir. Bu amaçla, temel bir GAN mimarisi olan Pix2Pix yönteminde kayıp fonksiyonlarını değiştirerek deneysel sonuçlar elde edildi. Pix2Pix yönteminde kullanılan mevcut kayıp fonksiyonu Mean Absolute Error (MAE) olarak bilinen L_1 metriğidir. Bu çalışmada, Pix2Pix mimarisinde kayıp fonksiyonuna konvolüsyon tabanlı algısal benzerlik CONTENT, LPIPS ve DISTS metriklerinin etkisi incelendi. Ayrıca, görüntüden görüntüye çevirme üzerindeki etkiler, orijinal L_1 kaybıyla birlikte L_1_CONTENT, L_1_LPIPS ve L_1_DISTS algısal benzerlik metrikleri kullanılarak yüzde 50 oranında analiz edildi. Yöntemlerin performans analizleri Cityscapes, Denim2Mustache, Maps ve Papsmear veri setleri üzerinde gerçekleştirildi. Görsel sonuçlar, geleneksel (FSIM, HaarPSI, MS-SSIM, PSNR, SSIM, VIFp ve VSI) ve güncel (FID ve KID) görüntü karşılaştırma metrikleri ile analiz edildi. Sonuç olarak, GAN mimarilerinin kayıp fonksiyonu için konvansiyonel yöntemler yerine konvolüsyon tabanlı yöntemler kullanıldığında daha iyi sonuçlar elde edildiği gözlemlendi. Ayrıca, LPIPS ve DISTS yöntemlerinin gelecekte GAN mimarilerinin kayıp fonksiyonunda kullanılabileceği gözlemlendi.
Derin öğrenme Benzerlik metrikleri Görüntüden görüntüye dönüşüm Evrişimli sinir ağ Çekişmeli üretici ağ
Image-to-image translation is the process of transforming images from different domains. Generative Adversarial Networks (GANs), and Convolutional Neural Networks (CNNs) are widely used in image translation. This study aims to find the most effective loss function for GAN architectures and synthesize better images. For this, experimental results were obtained by changing the loss functions on the Pix2Pix method, one of the basic GAN architectures. The exist loss function used in the Pix2Pix method is the Mean Absolute Error (MAE). It is called the L_1metric. In this study, the effect of convolutional-based perceptual similarity CONTENT, LPIPS, and DISTS metrics on image-to-image translation was applied on the loss function in Pix2Pix architecture. In addition, the effects on image-to-image translation were analyzed using perceptual similarity metrics ( L_1_CONTENT, L_1_LPIPS, and L_1_DISTS) with the original L_1 loss at a rate of 50%. Performance analyzes of the methods were performed with the Cityscapes, Denim2Mustache, Maps, and Papsmear datasets. Visual results were analyzed with conventional (FSIM, HaarPSI, MS-SSIM, PSNR, SSIM, VIFp and VSI) and up-to-date (FID and KID) image comparison metrics. As a result, it has been observed that better results are obtained when convolutional-based methods are used instead of conventional methods for the loss function of GAN architectures. It has been observed that LPIPS and DISTS methods can be used in the loss function of GAN architectures in the future
Deep learning Similarity metrics Image to image translation Convolutional neural network Generative adversarial networks
Birincil Dil | İngilizce |
---|---|
Konular | Görüntü İşleme, Derin Öğrenme |
Bölüm | PAPERS |
Yazarlar | |
Yayımlanma Tarihi | 6 Haziran 2024 |
Gönderilme Tarihi | 31 Ocak 2024 |
Kabul Tarihi | 13 Mart 2024 |
Yayımlandığı Sayı | Yıl 2024 |
The Creative Commons Attribution 4.0 International License is applied to all research papers published by JCS and
a Digital Object Identifier (DOI) is assigned for each published paper.