Developments
and changes in multimedia tools are actively used in many areas of life and
bring a huge value to them. Nowadays, the concept of artificial intelligence is
highly developed and there are hundreds of practices and methods to support the
living standards especially for people with disabilities. The system developed
in this study enables automatic visualization of the media output scenes such
as movies, documentaries, etc., which are visually impaired people by means of
computer vision technique, and the results are transferred to the users by
voice command. HTML5 and CSS are used for visualizing the system, PHP and
JAVASCRIPT are used for programming. MySQL is preferred as the database of the
system. Computer vision, translation from text to speech and translation from
one language to another are the main instruments used in this study.
Cloud-based Microsoft AZURE Computer Vision API is used for computer vision,
Javascript Responce.js library is used for text-to-speech translation, Google
Cloud Text-To-Speech and Microsoft Azure Text to Speech APIs are used for
translation from one language to another one.
Audio Description Computer Vision Text to Speech Translation Machine Translation Cloud Computing
Multimedya
araçlarındaki gelişim ve değişimler hayatın birçok alanında aktif şekilde
kullanılmakta ve büyük oranda artı değer kazandırmaktadır. Yapay zekâ
kavramının son derece gelişmiş olduğu günümüzde, özellikle engelli bireylerin
yaşam standartlarını destekleyecek yüzlerce uygulama ve metot bulunmaktadır. Bu
çalışmada geliştirilen sistem özellikle görme engelli bireylerin izledikleri
film, belgesel gibi video formatındaki medya çıktı sahnelerinin görüntü
imgeleme tekniği sayesinde otomatik olarak betimlenmesini ve sonuçların
kullanıcılara sesli olarak aktarılmasını sağlamaktadır. Sistemin
görselleştirilmesinde HTML5 ve CSS, programlanmasında PHP ve JAVASCRIPT dilleri
kullanılmıştır. Sistemin veritabanı olarak MySQL tercih edilmiştir. Yapay zekâ
ve bilişim teknolojilerinden olan bilgisayarlı görü, metinden konuşmaya çevirme
ve bir dilden başka bir dile çeviri, bu çalışmada kullanılan temel
enstrümanlardır. Görüntü imgeleme işlemleri için bulut tabanlı Microsoft AZURE
Computer Vision API, metinden sese çevirme için Javascript Responce.js
kütüphanesi, bir dilden başka bir dile çeviri işlemlerinde ise Google Cloud
Text-To-Speech ve Microsoft Azure Text to Speech API’leri kullanılmıştır.
Sesli Betimleme Bilgisayarlı Görü Metinden Konuşmaya Çeviri Bulut Bilişim Makina Çevirisi Bulut Bilişim
Birincil Dil | İngilizce |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 13 Mart 2020 |
Kabul Tarihi | 1 Şubat 2020 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 4 Sayı: 1 |