Son yıllarda derin öğrenme yöntemleri tıbbi görüntüleme alanında büyük ilerleme kaydetmiştir. Özellikle Evrişimsel Sinir Ağları ve Transformatör tabanlı modeller bu alanda yüksek başarı oranlarına ulaşarak önemli ilerlemeler kaydetmiştir. Bu çalışmada, beş farklı transfer öğrenme mimarisinin (DenseNet169, InceptionV3, MobileNetV2, VGG16 ve Xception) ve Vision Transformer (ViT) modellerinin cilt kanseri türlerinin sınıflandırılmasındaki performansı karşılaştırılmıştır. Çalışmada kullanılan veri kümesi Cilt Kanseri Veri Kümesidir. İlk aşamada ViT modeli %93,79 geri çağırma, %92,22 kesinlik, %93,00 F1-skoru ve %92,42 doğruluk ile tüm metriklerde en yüksek performansı göstermiştir. Diğer modeller, özellikle InceptionV3 ve MobileNetV2, yüksek geri çağırma oranları sergilemiş, ancak ViT'nin genel doğruluğuna ulaşamamıştır. Geliştirilmiş görüntülerle yapılan analizin ikinci aşamasında, orijinal görüntüler önce gri tonlamaya dönüştürülmüş, ardından eşikleme, Canny kenar algılama, genişletme ve erozyon uygulanmıştır. Bu görüntü işleme adımları görüntülerin kontrastını artırmış ve lezyon sınırlarını daha belirgin hale getirmiştir. Bu geliştirilmiş görüntülerle analiz edildiğinde, ViT yine en yüksek performansı elde etmiş ve geri çağırma (%95,49), hassasiyet (%94,17), F1-skoru (%94,83) ve doğruluk (%94,39) ile önemli ölçüde üstün olmuştur. ViT modeli, tıbbi görüntüleme uygulamalarında, özellikle karmaşık ve geliştirilmiş görüntülerde en yüksek doğruluk ve güvenilirliği sağlayan model olarak öne çıkmakta ve diğer modellere göre belirgin bir avantaj sunmaktadır. Ayrıca bu çalışma, görüntü işleme tekniklerinin derin öğrenme modellerinin doğruluğunu ve verimliliğini önemli ölçüde artırabileceğini açıkça ortaya koymaktadır. Bu bulgular, tıbbi görüntüleme alanında model seçimi yapılırken her bir yöntemin avantaj ve kısıtlamalarının dikkate alınması, uygulama gereksinimlerine ve veri setine göre en uygun modelin belirlenmesi gerektiğini vurgulamaktadır.
Cilt kanseri Derin öğrenme Görme dönüştürücü Sınıflandırma Transfer öğrenme Tıbbi görüntüleme
In recent years, deep learning has achieved remarkable advancements in medical image analysis, particularly through Convolutional Neural Networks (CNNs) and Transformer-based architectures. This study aims to evaluate and compare the performance of five transfer learning models (DenseNet169, InceptionV3, MobileNetV2, VGG16 and Xception) and a Vision Transformer (ViT) model for the classification of skin cancer using the “Skin Cancer: Malignant vs. Benign” dataset .In the first phase, the ViT model achieved the highest overall performance with 93.79% recall, 92.22% precision, 93.00% F1-score and 92.42% accuracy. Although InceptionV3 and MobileNetV2 demonstrated strong recall values, they did not match the overall accuracy of ViT. In the second phase, image enhancement techniques—grayscale conversion, thresholding, Canny edge detection, dilation, and erosion were applied to emphasize lesion boundaries and improve contrast. Using these enhanced images, the ViT model again achieved the best performance, with 95.49% recall, 94.17% precision, 94.83% F1-score, and 94.39% accuracy. These results indicate that the ViT architecture provides superior accuracy and reliability in complex and enhanced medical images. Furthermore, the study demonstrates that incorporating image preprocessing techniques can significantly enhance the performance of deep learning models in medical imaging applications.
Classification Deep learning Medical imaging Skin cancer Transfer learning Vision transformer
| Birincil Dil | İngilizce |
|---|---|
| Konular | Yazılım Mühendisliği (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 28 Mayıs 2025 |
| Kabul Tarihi | 23 Aralık 2025 |
| Yayımlanma Tarihi | 31 Aralık 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 15 Sayı: 2 |