TY - JOUR T1 - Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme AU - Kırbız, Serap PY - 2025 DA - January Y2 - 2024 JF - EMO Bilimsel Dergi PB - TMMOB Elektrik Mühendisleri Odası WT - DergiPark SN - 1309-5501 SP - 87 EP - 95 VL - 15 IS - 1 LA - tr AB - Bu makalede, kaynak ayrıştırma algoritmalarından faydalanarak birden fazla kaynaktan oluşan ses kayıtlarında konuşma işaretlerini güçlendirmek için bir yöntem önerilmektir. Ortamdaki konuşma sesleri ve diğer sesler arasındaki doğru dengeyi bulmak önemli bir problem olup, dinleyici şikayetleri arasında dikkati çekmektedir. Dinleyiciler, diyaloglar ve çevresel sesler arasındaki ses dengesini, kendi kişisel tercihlerine göre ayarlamak istemektedirler. Bu makalede diyalog içeren ses kayıtlarından matris ve tensör ayrıştırma modelleri kullanarak diyalogların ayrıştırılması ve bunun daha sonra kayıtta bulunan diğer seslerle farklı oranlarda yeniden birleştirilmesiyle, kullanıcının tercihini dikkate alan bir kayıt dinlemesi için bir yöntem geliştirilmektedir. Önerilen yöntem, akan veri üzerinde de çalışabilmekte olup, televizyon programları gibi gerçek zamana uygulanabilmektedir. KW - kaynak ayrıştırma KW - diyalog geliştirme KW - derin öğrenme CR - [1] D. D. Lee, ve H. S. Seung, “Algorithms for non-negative matrix factorization”, Advances in neural information processing systems, 2000. CR - [2] C. Févotte, E. Vincent, ve A. Ozerov. “Single-channel audio source separation with NMF: divergences, constraints and algorithms”, Audio Source Separation, Springer, 2018, 1-24. CR - [3] Ç. Hızlı, E. Karamatlı, A. T. Cemgil, ve S. Kırbız, “Değişimli Oto-Kodlayıcılar Kullanılarak Birleşik Kaynak Ayrıştırma ve Sınıflandırma-Joint Source Separation and Classification Using Variational Autoencoders”, In 28th IEEE Signal Processing and Communications Applications Conference (SIU), 2020. CR - [4] E. Karamatli, A. T. Cemgil, ve S. Kirbiz, “Audio Source Separation Using Variational Autoencoders and Weak Class Supervision”, IEEE Signal Processing Letters, 2019, 1349-1353. CR - [5] D. P. Kingma, ve M. Welling, “Auto-encoding Variational Bayes”. In Proc. ICLR, 2014. CR - [6] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, ve A. Lerchner, “beta-vae: Learning basic visual concepts with a constrained variational framework”, In Proc. ICLR, 2017. CR - [7] D. Wang, ve J. Chen, “Supervised Speech Separation Based on Deep Learning: An Overview”, IEEE/ACM transactions on audio, speech, and language processing 26.10 (2018): 1702-1726. CR - [8] S. Kırbız, A. Ozerov, A. Liutkus, ve L. Girin, "Perceptual coding-based Informed Source Separation," 2014 22nd European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, 2014, pp. 959-963. CR - [9] E. M. Grais, ve M. D. Plumbley, “Single channel audio source separation using convolutional denoising autoencoders”. 2017 IEEE global conference on signal and information processing (GlobalSIP) 2017. CR - [10] A. T. Cemgil, “Bayesian inference for nonnegative matrix factorisation models”, Computational intelligence and neuroscience, 2009(1), 785152 CR - [11] A. Zadeh, Y. C. Lim, P. P. Liang, ve L. P. Morency, "Variational auto-decoder: A method for neural generative modeling from incomplete data." arXiv preprint arXiv:1903.00840, 2019. CR - [12] S. Sra, ve I. S. Dhillon, “Generalized nonnegative matrix approximations with bregman divergences”. Advances in neural information processing systems, 2006, pp. 283–290). CR - [13] E. Vincent, R. Gribonval, ve C. Fevotte, “Performance measurement in blind audio source separation”, EEE transactions on audio, speech, and language processing 14.4 (2006): 1462-1469. CR - [14] J. Le Roux, S. Wisdom, H. Erdogan, ve J. R. Hershey, “SDR–Half-Baked or Well Done?”, 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, (pp. 626–630). CR - [15] W. Hsu, Y. Zhang, ve J. Glass, “Learning Latent Representations for Speech Generation and Transformation”, Interspeech 2016; Sep 8-12; San Francisco, CA. 2016. p. 1770-1774. CR - [16] P. Warden, “Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition”. arXiv preprint arXiv:1804.03209, 2018. CR - [17] M. Cooke, J. Barker, S. Cunningham, ve X. Shao, “An audio-visual corpus for speech perception and automatic speech recognition”. The Journal of the Acoustical Society of America 120.5, 2006: 2421-2424. CR - [18] D. P. Kingma, ve J. Ba, “Adam: A method for stochastic optimization arXiv preprint arXiv:1412.6980, 2014. CR - [19] S. Venkataramani, E. Tzinis, ve P. Smaragdis, “End-to-end Non-Negative Autoencoders for Sound Source Separation”, ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020. p. 116-120. CR - [20] A. W. Rix, J. G. Beerends, M. P. Hollier, ve A. P. Hekstra, “Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs”. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, 2001, (pp. 749–752). UR - https://dergipark.org.tr/tr/pub/emobd/issue//1578676 L1 - https://dergipark.org.tr/tr/download/article-file/4337095 ER -