Müzik notaları, müziğin gelişiminde kritik bir rol oynar. Yüzyıllar boyunca müzik, ister bestecisinin el yazması isterse herhangi bir yazılı versiyon olsun, resim biçiminde tutulmuştur. Bununla birlikte, müzik notalarının resim biçiminde arşiv edilmesi, müzik bilgilerinin alınması için birçok zorluğu doğurmuştur. Müzik notası tanıma, MIDI (çalma için) ve musicXML (sayfa düzeni için) gibi, müzik notalarının düzenlenebilecek veya çalınabilecek şekilde tanınmasına izin veren optik karakter tanıma (OCR) uygulamalarından biridir. Bu yazıda, görüntülerde nota tanıma için Evrişimli Sinir Ağları (CNN) tabanlı bir çerçeve öneriyoruz. Not ve dinlenme görüntülerinin genel özelliklerini çıkarmak için, önceden eğitilmiş popüler bir CNN ağı, yani ResNet-101'i kullanıyoruz. Ardından, eğitim ve sınıflandırma amacıyla bir Destek Vektör Makinesi (SVM) kullanılır. ResNet-101, görüntü tanıma için son teknoloji ürünü önceden eğitilmiş ağlardan biridir, ResNet-101 bir milyondan fazla görüntüyle eğitilmiştir. Hızlı bir doğrusal çözücü kullanan çok sınıflı SVM sınıflandırıcılar da çok güçlü bir sınıflandırıcıdır. Çalışmamızı test etmek için, deneyimizde veri seti Attwenger, P RecordLabel ve OMR-veri setinden türetildi ve ardından müzik teorisi ile manuel olarak etiketlendi. Sonuç olarak, notaları ve dinlenmeleri birbirinden %99.02 oranıda doğru bir şekilde ayırabiliriz. Ayrıca beş farklı not türünü sınıflandırabiliriz. Bu çalışmada, Resnet-101 ve bir SVM'in ile kez birleştirilerek müzik notası tanıma için bir araya getirilmiştir ve sonuçlar çok umut vericidir.
Optik müzik tanıma evrişimli sinir ağları destek vektör makinesi nota tanıma
Musical scores are the essential of music theory and its development. Musical notation was developed by Greeks around 521 BCE, considering that music was developed a long time ago will will find a gap between new musical technology and old scrpits of music theory since they were written in. However, having music scores in written form has rised various kinds of problems for music information retrieval (MIR). Music notation recognition is a type of optical character recognition (OCR) applications, which allow us to recognize musical scores and convert it to a format that can be editied or played on computer such as musicXML (for page layout). In this paper, we introduce a Convolutional Neural Networks (CNN) based framework for musical notation recognition in images. We use a popular pre-trained CNN network, namely ResNet-101 to extract global features of notation and rest images. Then, a Support Vector Machine (SVM) is employed for training and classification purpose. ResNet-101 is one of the state-of-art pre-trained network for image recognition, ResNet-101 trained with more than a million images. Multiclass SVM classifiers using a fast-linear solver is also very powerful classifier. We also evaluated the proposed approach on a dataset that was derived from Attwenger, P RecordLabel and OMR-dataset, and then labeled manually by music theory. As a result, we can separate notes and rests from each other with an average accuracy of 99.02%. We can also classify five different note types. This is the first time that Resnet-101 and a SVM is combined together to perform musical notation recognition, and results are very promising.
Optical music recognition convolutional neural networks support vector machine notation recognition
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Kasım 2020 |
Yayımlandığı Sayı | Yıl 2020 Ejosat Özel Sayı 2020 (ISMSIT) |