Research Article

Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti

Volume: 16 Number: 2 March 26, 2026
Gul Tahaoglu *, Asya Düzgün
TR EN

Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti

Abstract

Derin sahte ses manipülasyonları, gerçek insan seslerini neredeyse ayırt edilemeyecek kadar yüksek bir doğrulukla taklit edebilir; bu da ciddi güvenlik açıkları oluşturur, medyanın güvenilirliğini zedeler ve dijital kimlik doğrulama sistemlerinin güvenilirliğini tehdit eder. Bu çalışma, derin sahte ses örneklerini tespit etmek için Öz Denetimli Öğrenme (Self Supervised Learning, SSL) modellerinden elde edilen ses gösterimlerinin ve dikkat mekanizmalarına sahip NeXt-TDNN (NeXt Time Delay Neural Network) mimarisi ile sınıflandırılmasına dayalı sağlam bir tespit çerçevesi önermektedir. Önerilen yaklaşımda, girdi konuşma sinyallerinden ses özellikleri, HuBERT-Large ve WavLM-Large olarak isimlendirilen ön eğitimli SSL modelleri kullanılarak çıkarılmaktadır. Çıkarılan iki ayrı özellik bilgisinin birleştirilmesi amacı ile Uzman Karışımı (Mixture of Experts, MoE) mekanizması kullanılmıştır. MoE, farklı uzman ağlarının çıktılarının dinamik olarak ağırlıklandırılmasıyla birden fazla özelliğin daha etkili ve esnek bir şekilde birleştirilmesini sağlar. Bu yaklaşım, modelin hesaplama karmaşıklığını optimize ederken kanal ve zamansal boyutlarda daha ayrıntılı ve güvenilir bir gösterim öğrenimine imkân tanımaktadır. MoE tabanlı füzyon, özellikle heterojen ve yüksek boyutlu ses özelliklerini birleştirmede uzmanlaşmış alt modeller aracılığıyla derin sahte örnekleri ayırt etmede üstün performans sergilemektedir. Ayrıca MoE mimarisi, modelin genelleme yeteneğini artırarak farklı saldırı türlerine karşı daha sağlam ve ölçeklenebilir bir derin sahte ses tespit sistemi ortaya çıkarmaktadır. Bu bağlamda, MoE tabanlı özellik füzyonuna sahip önerilen tespit yöntemi, derin sahte ses tespitinde önemli avantajlar sunmaktadır. Deneysel sonuçlara göre önerilen yaklaşım ASVspoof 2019 LA veri kümesinde %0,34 EER ve 0,01 min t-DCF değerlerine ulaşmıştır.

Keywords

Derin sahte ses tespiti, Ses sahteciliği tespiti, Siber güvenlik, MoE füzyonu, HuBERT, WavLM

Supporting Institution

Karadeniz Technical University

Project Number

FBB-2025-16705

Ethical Statement

Exempt from ethical declaration.

Thanks

This study is supported by the Karadeniz Technical University Scientific Research Projects project number FBB-2025-16705. We thank them for their support.

References

  1. Al Tairi, H., Javed, A., Khan, T., ve Saudagar, A. K. J. (2025). DeepLASD countermeasure for logical access audio spoofing. Scientific Reports, 15, 20839.
  2. Alzantot, M., Wang, Z., ve Srivastava, M. B. (2019). Deep residual neural networks for audio spoofing detection. arXiv preprint, arXiv:1907.00501.
  3. Cao, B., Sun, Y., Zhu, P., ve Hu, Q. (2023). Multi-modal gated mixture of local-to-global experts for dynamic image fusion. Proceedings of the IEEE/CVF International Conference on Computer Vision (ss. 23555–23564).
  4. Chaiwongyen, A., vd. (2024). Spoofing countermeasure for fake speech detection using brute force features. Computer Speech & Language, 90, 101732.
  5. Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., vd. (2022). WavLM: Large-scale self-supervised pre-training for full stack speech processing. IEEE Journal of Selected Topics in Signal Processing, 16, 1505–1518.
  6. Combei, D., Stan, A., Oneata, D., ve Cucu, H. (2024). WavLM model ensemble for audio deepfake detection. arXiv preprint, arXiv:2408.07414.
  7. Eom, Y., Lee, Y., Um, J. S., ve Kim, H. (2022, September). Anti-spoofing using transfer learning with variational information bottleneck. Proceedings of Interspeech 2022 (ss. 3568–3572). Incheon, Republic of Korea.
  8. Ge, W., Wang, X., Liu, X., ve Yamagishi, J. (2025). Post-training for deepfake speech detection. arXiv preprint, arXiv:2506.21090.
  9. Grinberg, P., ve Shikhov, V. (2023). RawSpectrogram: On the way to effective streaming speech anti-spoofing. IEEE Access, 11, 109928–109938.
  10. Hsu, W. N., Bolte, B., Tsai, Y. H. H., Lakhotia, K., Salakhutdinov, R., ve Mohamed, A. (2021). HuBERT: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, 3451–3460.
APA
Tahaoglu, G., & Düzgün, A. (2026). Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti. Karadeniz Fen Bilimleri Dergisi, 16(2), 514-526. https://doi.org/10.31466/kfbd.1828944
AMA
1.Tahaoglu G, Düzgün A. Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti. KFBD. 2026;16(2):514-526. doi:10.31466/kfbd.1828944
Chicago
Tahaoglu, Gul, and Asya Düzgün. 2026. “Uzman Karışımı Füzyonu Ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti”. Karadeniz Fen Bilimleri Dergisi 16 (2): 514-26. https://doi.org/10.31466/kfbd.1828944.
EndNote
Tahaoglu G, Düzgün A (March 1, 2026) Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti. Karadeniz Fen Bilimleri Dergisi 16 2 514–526.
IEEE
[1]G. Tahaoglu and A. Düzgün, “Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti”, KFBD, vol. 16, no. 2, pp. 514–526, Mar. 2026, doi: 10.31466/kfbd.1828944.
ISNAD
Tahaoglu, Gul - Düzgün, Asya. “Uzman Karışımı Füzyonu Ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti”. Karadeniz Fen Bilimleri Dergisi 16/2 (March 1, 2026): 514-526. https://doi.org/10.31466/kfbd.1828944.
JAMA
1.Tahaoglu G, Düzgün A. Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti. KFBD. 2026;16:514–526.
MLA
Tahaoglu, Gul, and Asya Düzgün. “Uzman Karışımı Füzyonu Ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti”. Karadeniz Fen Bilimleri Dergisi, vol. 16, no. 2, Mar. 2026, pp. 514-26, doi:10.31466/kfbd.1828944.
Vancouver
1.Gul Tahaoglu, Asya Düzgün. Uzman Karışımı Füzyonu ile Öz-Denetimli Ses Temsilleri Kullanarak Derin Sahte Ses Tespiti. KFBD. 2026 Mar. 1;16(2):514-26. doi:10.31466/kfbd.1828944