Speaker diarization is the task of distinguishing and segmenting speech from multiple speakers in an audio recording, a crucial task for various applications such as meeting transcription, voice activated systems, and audio indexing. Traditional clustering-based methods have been widely used, but they struggle with challenges in real-world scenarios, including noisy environments, overlapping speech, speaker variability and variable recording conditions. This study addresses these limitations by focusing on deep learning-based approaches, which have demonstrated significant advancements in improving the accuracy of multi-speaker diarization. The aim of this study is to compare traditional clustering methods with new deep learning techniques, including Time Delay Neural Networks (TDNN), End-to-End Neural Diarization (EEND), and the Fully Supervised UIS-RNN, to solve the challenges of multi-speaker diarization. The results show that on the CallHome dataset, TDNN systems indicated slight improvements in non-overlapping speech, with a Diarization Error Rate (DER) of 12-14%, in comparison to 13-15% for traditional clustering methods. However, in overlapping speech, EEND outperformed traditional methods, achieving a DER of 12.6%, which was significantly lower than the 23.7% observed with traditonal clustering. The Fully Supervised UIS-RNN model delivered the best overall performance, achieving a DER of 7.6%. Future research should focus on integrating the strengths of traditional and deep learning techniques while reducing the computational and data requirements for more accessible, real-time speaker diarization systems. The findings indicated that deep learning will make a substantial contribution to the field of speaker diarisation.
Speaker Diarization Traditional Clustering Algorithm Deep Learning Overlapping Speech Computational Complexity
Konuşmacı diyarizasyonu, bir ses kaydında birden fazla konuşmacıdan gelen konuşmayı ayırt etme ve bölümlere ayırma görevidir ve toplantı transkripsiyonu, sesle etkinleştirilen sistemler ve ses indeksleme gibi çeşitli uygulamalar için çok önemli bir görevdir. Geleneksel kümeleme tabanlı yöntemler yaygın olarak kullanılmaktadır, ancak gürültülü ortamlar, örtüşen konuşma, konuşmacı değişkenliği ve değişken kayıt koşulları gibi gerçek dünya senaryolarındaki zorluklarla mücadele etmektedirler. Bu çalışma, çok hoparlörlü diyarizasyonunun doğruluğunu artırmada önemli gelişmeler gösteren derin öğrenme tabanlı yaklaşımlara odaklanarak bu sınırlamaları ele almaktadır. Bu makalenin amacı, geleneksel kümeleme yöntemlerini Zaman Gecikmeli Sinir Ağları (TDNN), Uçtan Uca Sinirsel Günlük Oluşturma (EEND) ve Tam Denetimli UIS-RNN gibi derin öğrenme teknikleriyle karşılaştırarak çok konuşmacılı diyarizasyon zorluklarını çözmektir. Sonuçlar, CallHome veri setinde, TDNN sistemlerinin, geleneksel kümeleme yöntemleri için %13-15'e kıyasla, %12-14'lük bir Diyarizasyon Hata Oranı (DER) ile örtüşmeyen konuşmada hafif iyileşmeler gösterdiğini göstermektedir. Bununla birlikte, örtüşen konuşmada, EEND geleneksel yöntemlerden daha iyi performans göstermiş ve geleneksel kümeleme ile gözlemlenen %23,7'den önemli ölçüde daha düşük olan %12,6'lık bir DER elde etmiştir. Tam Denetimli UIS-RNN modeli, %7,6'lık bir DER elde ederek en iyi genel performansı sağlamıştır. Bulgular, derin öğrenmenin konuşmacı diyarizasyonu alanında önemli bir katkı sağlayacağını göstermiştir.
Konuşmacı Diyarizasyonu Geleneksel Kümeleme Algoritması Derin Öğrenme Örtüşen Konuşma Hesaplama Karmaşıklığı
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 18 Eylül 2025 |
Yayımlanma Tarihi | 1 Ekim 2025 |
Gönderilme Tarihi | 11 Ekim 2024 |
Kabul Tarihi | 19 Nisan 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 25 Sayı: 5 |
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.