İşaret dili, işitme engelli bireylerin düşüncelerini ve duygularını ifade etmeleri için hayati bir iletişim aracıdır. Türk İşaret Dili (TİD), el hareketleri, yüz ifadeleri ve vücut hareketlerine dayanır. Bu çalışmada, yaygın olarak kullanılan 41 TİD ifadesini tanımak için derin öğrenme modelleri geliştirilmiştir. El, yüz ve vücut hareketlerinin 3D yer işaretlerini yakalamak için Media Pipe Holistic çerçevesi kullanılarak orijinal bir veri seti oluşturulmuştur. Çalışmada, GRU, LSTM, Bi-LSTM modelleri ve hibrit mimarilere sahip olan CNN+GRU, GRU+LSTM, GRU+Bi-LSTM modelleri eğitilmiş ve değerlendirilmiştir. Modellerin eğitiminde dışarda tutma doğrulama yöntemi kullanılmıştır. Veri setinin %80'i eğitim ve %20'si test için ayrılmıştır. Ayrıca eğitim için ayrılan verinin %20'si doğrulama için kullanılmıştır. Derin öğrenme modelleri arasında en yüksek doğruluk oranını %96,72 ile CNN+GRU hibrit modeli elde etmiştir ve literatürdeki benzer çalışmalardan daha yüksek performans göstermiştir. Sonuçlarımız, derin öğrenme tekniklerinin TİD ifadelerini etkili bir şekilde sınıflandırabileceğini ortaya koymaktadır ve özellikle CNN+GRU kombinasyonu yüksek performans sağlamıştır. Gelecek çalışmalar, veri setinin genişletilmesi ve iskelet görüntüleriyle birlikte yer işaretlerinin de kullanıldığı gerçek zamanlı tanıma sistemlerinin geliştirilmesine odaklanacaktır.
Türk işaret dili İşaret dili tanıma Media pipe Derin öğrenme Tekrarlayan sinir ağı
124E379
Sign language is a vital communication tool for hearing-impaired individuals to express their thoughts and emotions. Turkish Sign Language (TSL) is based on hand gestures, facial expressions, and body movements. In this study, deep learning models were developed to recognize 41 commonly used TSL expressions. An original dataset was created using the Media Pipe Holistic framework to capture the 3D landmarks of hand, face, and body movements. The study trained and evaluated GRU, LSTM, and Bi-LSTM models, as well as hybrid architectures such as CNN+GRU, GRU+LSTM, and GRU+Bi-LSTM. In the training of the models, a hold-out validation method was used. 80% of the dataset was allocated for training and 20% for testing. Additionally, 20% of the training data was used for validation. Among Deep Learning models, the CNN+GRU hybrid model achieved the highest accuracy rate of 96.72%, outperforming similar studies in the literature. Our results demonstrate that deep learning techniques can effectively classify TSL expressions, with the CNN+GRU combination showing particularly high performance. Future work will focus on expanding the dataset and developing real-time recognition systems that incorporate both skeleton images and landmarks.
Turkish sign language Sign language recognition Media pipe Deep learning Recurrent neural network
TUBİTAK 1002 A
124E379
This study was supported by Scientific and Technological Research Council of Turkey (TUBITAK) under the Grant Number 124E379. The authors thank to TUBITAK for their supports.
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik Uygulaması |
Bölüm | Articles |
Yazarlar | |
Proje Numarası | 124E379 |
Yayımlanma Tarihi | 31 Aralık 2024 |
Gönderilme Tarihi | 15 Ekim 2024 |
Kabul Tarihi | 17 Kasım 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 10 Sayı: 2 |