A Siamese Neural Network-Based Perceptual Quality Metric for Image and Video Assessment
Öz
Accurately assessing the perceptual similarity of visual data is a critical requirement in many multimedia applications, including video coding, streaming, and image restoration. Traditional pixel-based metrics such as Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index (SSIM), however, are limited in their ability to capture high-level semantic and contextual distortions perceived by humans, as they primarily focus on low-level structural differences. This limitation often results in inaccurate quality estimates, particularly when evaluating subtle texture losses or compression-induced visual artifacts. To address these challenges, this study introduces a new, fully neural, training-free evaluation metric, Neural Siamese Perceptual Quality (NSPQ). NSPQ measures perceptual similarity by comparing the feature embeddings of reference and distorted images using a pre-trained AlexNet-based Siamese Neural Network and translating the distance between embeddings into a perceptual similarity score. This approach shifts the focus of visual quality assessment from pixel-level differences to high-level feature representations, thereby providing estimates that better align with human visual perception. The proposed method was extensively evaluated on compressed natural video sequences obtained from the Xiph.org dataset as well as on a variety of distortions in the BAPPS dataset. Experimental results demonstrate that NSPQ achieves higher perceptual accuracy than traditional metrics. In the Xiph.org scenario, NSPQ reached an average performance of 99%, substantially surpassing SSIM (96%), normalized PSNR (39%), and VMAF (56%). In the BAPPS dataset, NSPQ obtained an average score of 85% in the p0 scenario, outperforming SSIM (65%). In the p1 scenario, NSPQ more accurately reflected distortion severity with an average score of 38%, remaining below the constant SSIM value of 65%. Overall, the findings indicate that NSPQ can serve not only as a complementary quality measure but also as a primary evaluation metric in applications such as video encoding, image restoration, and quality control.
Anahtar Kelimeler
Image Quality Assessment, PSNR, SSIM, VMAF, AlexNet, Siamese Neural Networks
Destekleyen Kurum
The Scientific and Technological Research Council of Türkiye (TÜBİTAK)
Proje Numarası
5249902
Teşekkür
This work is supported by The Scientific and Technological Research Council of Türkiye (TÜBİTAK) 1515 Frontier R&D Laboratories Support Program for Türk Telekom 6G R&D Lab under project number 5249902.
Görüntü ve Video Değerlendirmesi için Siyam Sinir Ağı Tabanlı Algısal Kalite Ölçütü
Öz
Görsel verilerin algısal benzerliğinin doğru bir şekilde değerlendirilmesi; video kodlama, akış (streaming) ve görüntü iyileştirme gibi birçok multimedya uygulaması için kritik bir gereksinimdir. Ancak, Tepe Sinyal-Gürültü Oranı (PSNR) ve Yapısal Benzerlik İndeksi (SSIM) gibi geleneksel piksel tabanlı metrikler, insan görsel sistemi tarafından algılanan yüksek seviyeli anlamsal ve bağlamsal bozulmaları yakalamakta yetersiz kalmaktadır. Bu metrikler düşük seviyeli yapısal farklara odaklandığından, özellikle ince doku kayıplarının veya sıkıştırmaya bağlı görsel artefaktların değerlendirilmesinde hatalı kalite tahminlerine neden olabilmektedir. Bu sınırlamaları aşmak amacıyla bu çalışma, bütünüyle sinirsel, eğitim gerektirmeyen yeni bir değerlendirme metriği olan Neural Siamese Perceptual Quality (NSPQ) yöntemini önermektedir. NSPQ, referans ve bozulmuş görüntülerin özellik gömülerini (feature embeddings) önceden eğitilmiş AlexNet tabanlı bir Siamese Sinir Ağı ile karşılaştırmakta ve bu gömüler arasındaki mesafeyi algısal benzerlik skoruna dönüştürmektedir. Böylece, görsel kalite değerlendirme süreci piksel düzeyindeki farklardan yüksek seviyeli temsil alanlarına kaydırılmakta ve insan görsel algısıyla daha tutarlı sonuçlar elde edilmektedir. Önerilen yöntem, Xiph.org veri setindeki sıkıştırılmış doğal video dizileri ile BAPPS veri setindeki çeşitli bozulma türleri üzerinde kapsamlı bir şekilde değerlendirilmiştir. Deneysel sonuçlar, NSPQ’nun geleneksel metriklere kıyasla daha yüksek algısal doğruluk sağladığını göstermektedir. Xiph.org senaryosunda NSPQ ortalama %99 performansa ulaşmış; bu değer SSIM’in (%96), normalize PSNR’nin (%39) ve VMAF’ın (%56) belirgin şekilde üzerindedir. BAPPS veri setinde NSPQ, p0 senaryosunda ortalama %85 skor ile SSIM’i (%65) geride bırakmıştır. p1 senaryosunda ise NSPQ, bozulma şiddetini daha doğru yansıtarak ortalama %38 skor üretmiş ve sabit kalan SSIM değerinin (%65) altında kalarak gerçekçi bir ayırt edicilik ortaya koymuştur. Genel olarak bulgular, NSPQ’nun yalnızca tamamlayıcı bir kalite ölçütü olarak değil, video kodlama, görüntü restorasyonu ve kalite kontrolü gibi uygulamalarda birincil değerlendirme metriği olarak da etkili bir şekilde kullanılabileceğini göstermektedir.
Anahtar Kelimeler
Görüntü Kalite Değerlendirme, PSNR, SSIM, VMAF, AlexNet, Siyam Sinir Ağları
Destekleyen Kurum
Türkiye Bilim ve Teknolojik Araştırma Kurumu (TÜBİTAK)
Proje Numarası
5249902
Teşekkür
Bu çalışma, Türkiye Bilim ve Teknolojik Araştırma Kurumu (TÜBİTAK) tarafından Türk Telekom 6G Ar-Ge Laboratuvarı için yürütülen 1515 Sınır Ar-Ge Laboratuvarları Destek Programı kapsamında, 5249902 proje numarasıyla desteklenmiştir.