This study presents a comparative analysis of four different Transformer-based deep learning architectures (Vision Transformer (ViT), Swin Transformer (Swin-T), Data-efficient Image Transformer (DeiT), and Convolutional Transformer (CoaT)) for Autism Spectrum Disorder (ASD) detection using facial images. In recent years, Transformer architectures have increasingly replaced traditional convolutional neural network based approaches in ASD detection research. In this context, experimental results demonstrate that the Swin-T model achieved the highest classification performance with 87.76% accuracy and an AUC of 0.96. The CoaT model followed closely with 86.01% accuracy and an AUC of 0.94, while DeiT (84.27% accuracy) and ViT (82.52% accuracy) exhibited relatively lower performance. Confusion matrix and ROC curve analyses confirm that the Swin-T model significantly reduced both false positive and false negative rates. These findings highlight the effectiveness of Swin-T and CoaT models in visual data processing and suggest that, when supported by larger datasets, these architectures could provide valuable contributions to early ASD diagnosis in both clinical and research domains.
Bu çalışma, yüz görüntülerinden Otizm Spektrum Bozukluğu (OSB) tespiti amacıyla dört farklı Transformer tabanlı derin öğrenme mimarisinin (Vision Transformer (ViT), Swin Transformer (Swin-T), Data-efficient Image Transformer (DeiT) ve Convolutional Transformer (CoaT)) karşılaştırmalı analizini sunmaktadır. Son yıllarda, OSB tespitine yönelik araştırmalarda geleneksel evrişimsel sinir ağları tabanlı yaklaşımların yerini giderek Transformer mimarileri almaya başlamıştır. Bu kapsamda gerçekleştirilen deneyler, Swin-T modelinin %87,76 doğruluk ve 0,96 AUC ile en yüksek sınıflandırma performansına ulaştığını göstermektedir. CoaT modeli %86,01 doğruluk ve 0,94 AUC ile ikinci sırada yer alırken, DeiT (%84,27 doğruluk) ve ViT (%82,52 doğruluk) nispeten daha düşük başarı sergilemiştir. Karışıklık matrisi ve ROC eğrileri analizleri, Swin-T modelinin yanlış pozitif ve yanlış negatif oranlarını önemli ölçüde azalttığını ortaya koymaktadır. Elde edilen bulgular, özellikle Swin-T ve CoaT modellerinin görsel veri işleme konusundaki etkinliğini vurgulamakta ve bu mimarilerin daha büyük veri kümeleri ile desteklendiğinde erken OSB tanısı sürecine klinik ve araştırma alanlarında değerli katkılar sağlayabileceğini öne sürmektedir.
Bu çalışmada, kamuya açık veri setleri kullanılmış olup, herhangi bir etik kurul izni gerekmemektedir. Kullanılan veri setleri, https://www.kaggle.com/cihan063/autism-image-data adresinden temin edilmiştir.
| Primary Language | Turkish |
|---|---|
| Subjects | Computer Software |
| Journal Section | Bilgisayar Mühendisliği / Computer Engineering |
| Authors | |
| Early Pub Date | August 31, 2025 |
| Publication Date | September 1, 2025 |
| Submission Date | February 17, 2025 |
| Acceptance Date | March 30, 2025 |
| Published in Issue | Year 2025 Volume: 15 Issue: 3 |