Gün geçtikçe cihazların uzaktan kontrolünü gerçekleştiren tanıma sistemleri gelişmektedir. En çok kullanılan tanıma sistemleri olarak konuşma, yüz ve parmak izi tanıma sistemleri gösterilebilir. Konuşma tanıma sistemleri güvenlik sistemlerinde, cihaz kontrolü sistemlerinde ve dikte ettirme sistemlerinde gerçek zamanlı olarak kullanılabilmektedir. Bu çalışmada konuşma komutlarının gerçek zamanlı olarak tanınması ile robot kolu kontrolü gerçekleştirilmiştir. Konuşma komutlarının tanınması için Yapay Sinir Ağları (YSA), Fisher Doğrusal Ayrım Analizi (FDAA) ve Ayırt Edici Ortak Vektör (AOVY) sınıflandırıcıları kullanılmıştır. Eğitim kümesi için, her biri altı farklı renge sahip dört farklı nesne için toplam 24 adet konuşma cümleleri oluşturulmuştur. Eğitim kümesindeki konuşma sinyalleri 8 konuşmacı tarafından oluşturulmuştur. Test ve eğitim aşamalarında her kişi 50 konuşma sinyalli seslendirmiştir. Komutun tanınması ile robot kolu önceden koordinatları belli olan nesneye yöneltilmektedir. Çalışma sonucunda AOVY için dil modelli ortalama konuşma tanıma oranı % 97,13 ve dil modelsiz % 88,20 olarak bulunmuştur. FDAA için dil modelsiz ortalama konuşma tanıma oranı % 87,3 ve dil modelli % 96,3 olarak bulunmuştur. YSA için dil modelli ortalama konuşma tanıma oranı % 89,76 ve dil modelsiz % 82,3 bulunmuştur.
Recognition systems, which perform remote control of devices, are developing day by day. Speech, face, and fingerprint recognition systems seem to be the most frequently used recognition systems. Speech recognition systems can be used in real-time for security, device control and dictation systems. In this study, the robot arm is controlled by recognizing the real-time speech commands. Artificial Neural Networks (ANN), Fisher Linear Discrimination Analysis (FLDA) and Discriminative Common Vector Approach (DCVA) classifiers were used to recognize speech commands. For the training set, a total of 24 speech sentences have been recorded for four different objects with six different colors. Speech signals in the training set have been generated by 8 speakers. During the test and training phases, each person voiced 50 speech signals. The robot arm is directed to the objects whose coordinates are known beforehand with the recognition of the command. As a result of the study, the average speech recognition rate for DCVA with language model was % 97,13 and without language model was % 88,20. For the FLDA, the average speech recognition rate without language model was % 87,3 and with language model was % 96,3. For ANN, the average speech recognition rate with language model was % 89,76 and without language model % 82,3.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2021 |
Yayımlandığı Sayı | Yıl 2021 |