Bu çalışma, aktivasyon fonksiyonlarında türevlenebilirlik ve matematiksel süreklilik kavramlarını yeniden değerlendirerek, bu özelliklerin evrişimli sinir ağlarının (CNN) performansı üzerindeki etkisini deneysel olarak incelemektedir. Swish ve Mish gibi türevlenebilir aktivasyon fonksiyonları son yıllarda yaygın olarak kullanılmaya başlanmış olsa da, bu özelliklerin öğrenme performansına katkısı, özellikle sığ mimarilerde belirsizliğini korumaktadır. Bu kapsamda, CIFAR-10 veri seti üzerinde kontrollü bir karşılaştırmalı deneysel çalışma gerçekleştirilmiştir. ReLU, Leaky ReLU, Softplus, Swish ve Mish olmak üzere beş yaygın aktivasyon fonksiyonu değerlendirilmiştir. Her fonksiyon, aynı CNN mimarisi ve eğitim ayarları altında üç kez eğitilmiş ve sınıflandırma doğruluğu ile eğitim sürecindeki kararlılık birlikte analiz edilmiştir. Çalışmanın bulguları, sıfır noktasında türevlenebilir olmayan ReLU’nun en yüksek ortalama doğruluğa ulaştığını ortaya koymuştur. Buna karşın, Leaky ReLU daha düşük varyansla daha kararlı bir öğrenme davranışı sergilemiştir. Türevlenebilir ve smooth (yumuşak) yapıya sahip olan Swish ve Mish fonksiyonları, öğrenme süreci boyunca tutarlı bir davranış göstermelerine rağmen, doğruluk açısından beklenen üstünlüğü ortaya koyamamıştır. Softplus fonksiyonu ise doygunluk eğilimi nedeniyle en zayıf performansı göstermiştir. Bu bulgular, matematiksel türevlenebilirlik ve sürekliliğin teoride cazip özellikler olmasına rağmen, pratikte CNN performansı açısından doğrudan bir avantaj sunmadığını göstermektedir. Aktivasyon fonksiyonlarının etkinliği büyük ölçüde mimari yapı ve öğrenme dinamikleri tarafından şekillenmektedir. Bu çalışma, aktivasyon fonksiyonu seçiminde matematiksel varsayımlar yerine ampirik verilere dayalı değerlendirmelere öncelik verilmesi gerektiğini vurgulayan özgün bir bakış açısı önermektedir.
Aktivasyon Fonksiyonları Türevlenebilirlik Evrişimsel Sinir Ağları Ampirik Değerlendirme Peroformans Analizi
This study re-evaluates the concepts of differentiability and mathematical continuity in activation functions and experimentally investigates the impact of these features on the performance of convolutional neural networks (CNNs). Although differentiable activation functions, such as Swish and Mish, have become prevalent in recent years, the contribution of these features to learning performance remains ambiguous, particularly in shallow architectures. A controlled comparative study was conducted on the CIFAR-10 dataset. Five common activation functions, namely ReLU, Leaky ReLU, Softplus, Swish, and Mish, were evaluated. Each function was trained thrice under the same CNN architecture and training settings, and the classification accuracy and training stability were analyzed in tandem. The findings of this study indicated that ReLU, which is not differentiable at the zero point, achieved the highest average accuracy. In contrast, Leaky ReLU demonstrated a more stable learning behavior with reduced variance. The Swish and Mish functions, which possess differentiable and smooth structures, demonstrated consistent behavior throughout the learning process; however, they did not exhibit the anticipated superiority in terms of accuracy. The Softplus function demonstrated the least favorable performance, attributable to its proclivity for saturating. These findings suggest that, despite the appeal of mathematical differentiability and continuity in theory, they do not offer a direct advantage in terms of CNN performance in practice. The effectiveness of activation functions is predominantly shaped by the architectural structure and learning dynamics. This study proposes an original perspective that emphasizes the prioritization of evaluations based on empirical data over mathematical assumptions when selecting activation functions.
Activation Functions Differentiability Convolutional Neural Networks Empirical Evaluation Performance Analysis
This study does not involve human or animal participants. All procedures followed scientific and ethical principles, and all referenced studies are appropriately cited.
This research received no external funding.
All parts of the study were conducted by the Author.
| Primary Language | English |
|---|---|
| Subjects | Deep Learning, Neural Networks |
| Journal Section | Research Article |
| Authors | |
| Submission Date | May 23, 2025 |
| Acceptance Date | December 10, 2025 |
| Publication Date | January 21, 2026 |
| Published in Issue | Year 2026 Volume: 14 Issue: 1 |