Derin sinir ağlarının eğitilebilirliği, özellikle katman sayısı arttığında, gradyan sönümlenmesi veya gradyan patlaması gibi sorunlar nedeniyle zorlaşmaktadır. Bu çalışmada, Softplus aktivasyon fonksiyonu kullanılan tam bağlı ileri beslemeli sinir ağları için, merkezi limit teoremine dayalı iki yeni yol ağırlık başlatma düzeni önerilmiştir. İlk düzen yalnızca ileri yönde sinyal istatistiklerini, ikincisi ise hem ileri hem de geri yönde istatistikleri korumayı hedeflemektedir. CIFAR-10 ve CIFAR-100 veri kümeleri üzerinde yapılan deneylerde, derin mimarilerde yalnızca ileri yöndeki istatistik korumanın yeterli olmadığı, iki yönlü korumanın ise ağın eğitilebilirliğini anlamlı şekilde artırdığı gözlemlenmiştir. Özellikle 25 gizli katmanlı ağlarda, yalnızca iki yönlü koruma sağlayan başlatma düzeniyle başarılı eğitim gerçekleştirilebilmiştir. Elde edilen sonuçlar, aktivasyon fonksiyonu dinamiklerine uygun başlatma stratejilerinin, derin sinir ağlarının eğitilebilmesinde belirleyici rol oynadığını göstermektedir.
Aktivasyon Fonksiyonu Derin Sinir Ağları Softplus Yol Ağırlık Başlatma
The trainability of deep neural networks becomes challenging as the number of layers increases, primarily due to issues such as vanishing or exploding gradients. In this study, two new weight initialization schemes based on the central limit theorem are proposed for fully connected feedforward neural networks using the Softplus activation function. The first scheme aims to preserve signal statistics only in the forward direction, while the second aims to preserve them in both forward and backward directions. Experiments conducted on the CIFAR-10 and CIFAR-100 datasets demonstrate that preserving only forward signal statistics is insufficient in deep architectures, whereas preserving statistics in both directions significantly improves trainability. Particularly in architectures with 25 hidden layers, successful training was achieved only with the bidirectional initialization scheme. The results reveal that initialization strategies compatible with the dynamics of the activation function play a critical role in enabling the effective training of deep neural networks.
Activation Function Deep Neural Networks Softplus Weight Initialization
Birincil Dil | Türkçe |
---|---|
Konular | Makine Öğrenme (Diğer) |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Erken Görünüm Tarihi | 19 Ekim 2025 |
Yayımlanma Tarihi | 22 Ekim 2025 |
Gönderilme Tarihi | 11 Haziran 2025 |
Kabul Tarihi | 6 Temmuz 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 7 Sayı: 2 |