Bu çalışmada Iğdır Aras Nehri Kuş Cenneti'nde sıklıkla görülen kuş türlerinin seslerinden tanınması üzerinde durulmuştur. Bu amaçla derin öğrenme yöntemleri kullanılmıştır. Biyolojik çeşitliliğin incelenmesi ve analiz edilmesi için akustik gözetleme çalışmaları yapılmaktadır. Bu iş için pasif dinleyici/kaydedici adındaki aygıtlar kullanılmaktadır. Genel olarak bu kaydedici aygıtlarla toplanan ham ses kayıtlarının üzerinde çeşitli analizler gerçekleştirilir. Bu çalışmada, kuşlardan elde edilen ham ses kayıtları tarafımızca geliştirilen yöntemlerle işlenmiş ve daha sonra derin öğrenme mimarileriyle kuş türleri sınıflandırılmıştır. Sınıflandırma çalışmaları, Aras Kuş Cenneti’nde çokça görülen 22 kuş türü üzerinde yapılmıştır. Ses kayıtları 10 saniyelik klipler haline getirilmiş daha sonra bunlar birer saniyelik log mel spektrogramlara çevrilmiştir. Sınıflandırma yöntemi olarak derin öğrenme mimarilerinden Evrişimsel Sinir Ağları (CNN)
ve Uzun Kısa-Dönemli Bellek Sinir Ağları (LSTM) kullanılmıştır. Ayrıca bu iki modelin yanında Öğrenme Aktarımı yöntemi de kullanılmıştır. Öğrenme aktarımı için kullanılan ön-eğitimli evrişimsel sinir ağlarından VGGish ve YAMNet modelleriyle seslerin yüksek seviyeli öznitelik vektörleri çıkarılmıştır. Çıkarılan bu vektörler sınıflandırıcıların giriş katmanlarını oluşturmuştur. Yapılan deneylerle dört farklı mimarinin ses kayıtları üzerindeki doğruluk oranları ve F1 skorları bulunmuştur. Buna göre en yüksek doğruluk oranı (acc) ve F1 skoru sırasıyla %94.2 ve %92.8 ile VGGish modelinin kullanıldığı sınıflandırıcıyla elde edilmiştir.
ses sınıflandırma kuş tanıma aktarım öğrenme log mel-spektrogram vggish yamnet
This study focuses on recognizing bird species from their voices, which are frequently seen in Aras River
Bird Sanctuary of Iğdır. For this purpose, deep learning methods were used. Acoustic monitoring is carried out to examine and analyze biological diversity. Passive acoustic listeners/recorders are used for this work. In general, various analyzes are performed on the raw sound recordings collected with these recording devices. In this study, raw sound recordings obtained from birds were processed with the methods developed by us, and then bird species were classified with deep learning architectures. Classifications were carried out on 22 bird species that are frequently seen in Aras Bird Sanctuary. Audio
recordings were made into 10-second clips and then converted into one-second log mel spectrograms. Convolutional Neural Networks (CNN) and Long Short-Term Memory Neural Networks (LSTM), which are deep learning architectures, were used as classification methods. In addition to these two models, the Transfer Learning method was also used. Highlevel feature vectors of sounds were extracted with VGGish and YAMNet models, which are pre-trained convolutional neural networks, used for transfer learning. These extracted vectors formed the input layers of the classifiers. Accuracy rates and F1 scores of four different architectures were found through experiments. Accordingly, the highest accuracy rate (acc) and F1 score were obtained with the classifier using the VGGish model with 94.2% and 92.8%, respectively.
sound classification bird recognition transfer learning log mel-spectrogram vggish yamnet
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Bilgisayar Mühendisliği / Computer Engineering |
Yazarlar | |
Yayımlanma Tarihi | 1 Eylül 2022 |
Gönderilme Tarihi | 1 Haziran 2022 |
Kabul Tarihi | 22 Haziran 2022 |
Yayımlandığı Sayı | Yıl 2022 |