Bu makale, verimsiz ve dengesiz veri kümeleri üzerinde nesne tanıma uygulamalarını iyileştirmek için hibrit bir yöntem önermektedir. Önerilen yöntem, Vision Transformer (ViT) derin öğrenme modelini ve çeşitli klasik makine öğrenimi sınıflandırıcılarını (LightGBM, AdaBoost, ExtraTrees ve Logistic Regression) kullanarak nesne tanıma performansını artırmayı amaçlamaktadır. Çalışmada kullanılan Caltech-101 veri kümesi, sınıf dengesizliği sorunları olan düşük çözünürlüklü ve gürültülü bir görüntü veri kümesidir. Yöntemimiz, Vision Transformer modelinin özellik çıkarma yetenekleri ile klasik makine öğrenimi sınıflandırıcılarının sağlam sınıflandırma performansını birleştirerek daha iyi sonuçlar elde etmektedir. Caltech-101 veri kümesi üzerinde yapılan deneyler, önerilen yöntemin %92,3'lük bir hassasiyet ve %89,7'lik bir geri çağırma elde ettiğini ve diğer son teknoloji yöntemlerden önemli ölçüde daha iyi performans gösterdiğini ortaya koymaktadır. Deneysel sonuçlar, önerilen yöntemin diğer mevcut yöntemlerden daha iyi performans gösterdiğini ve nesne tanıma görevlerinde önemli iyileştirmeler sağladığını göstermektedir.
Nesne tanıma Vision Transformer Lojistik Regresyon Caltech 101 Görüntü İşleme Yapay Zeka
This paper proposes a hybrid method to improve object recognition applications on inefficient and imbalanced datasets. The proposed method aims to enhance object recognition performance using the Vision Transformer (ViT) deep learning model and various classical machine learning classifiers (LightGBM, AdaBoost, ExtraTrees, and Logistic Regression). The Caltech-101 dataset used in the study is a low-resolution and noisy image dataset with class imbalance problems. Our method achieves better results by combining the feature extraction capabilities of the Vision Transformer model and the robust classification performance of classical machine learning classifiers. Experiments conducted on the Caltech-101 dataset demonstrate that the proposed method achieves a precision of 92.3%, a recall of 89.7%, and an accuracy of 95.5%, highlighting its effectiveness in addressing the challenges of object recognition in imbalanced datasets.
Object recognition Vision Transformer Logistic Regression Caltech 101 Image Processing Artificial Intelligence
Birincil Dil | İngilizce |
---|---|
Konular | Yazılım Mühendisliği (Diğer) |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Mart 2025 |
Gönderilme Tarihi | 15 Ocak 2025 |
Kabul Tarihi | 5 Mart 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 15 Sayı: 1 |
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.