Bu çalışmada sunulan yaklaşım, söz-dizimsel analiz safhasından elde edilecek yeni özellik şablonunun kullanılmasıyla dillerin birbirlerine olan benzerliğinin hesaplanması üzerinedir. Önerilen yeni özellik şablonu yardımıyla dillerin benzerliklerinin hesaplanabilirliğini gösterebilmek için iki farklı dil ailesine mensup 6 farklı dil kümesi üzerinde çalışmalar gerçekleştirilmiştir. İlk çalışmada Ural-Altay dil ailesine ait Türki diller ailesine mensup Türkiye, Kazak ve Uygur Türkçelerinin söz-dizimsel analizden elde edilen üçlü örüntü şablonları geliştirilen yazılım vasıtasıyla otomatik olarak çıkarılabilmekte ve aynı yazılım içerisinde geliştirilen farklı bir modül sayesinde de istenen dillerin benzerlik analizi yapılabilmektedir. Böylece ayni dil ailesine mensup dillerin yapısal olarak birbirlerine benzer ilişkilerinin gösterilmesinin yanı sıra diller arasındaki yapısal farklılıklar da ortaya çıkarılabilmektedir. Yaklaşım geliştirilirken ilk hedef Türki diller arasındaki benzerliklerin belirlenmesi olsa da oluşturulmak istenen yapının gerçek amacı dilden bağımsız bir sistem oluşturabilmektir. Oluşturulan sistemin dilden bağımsız bir yapı oluşturabildiğini gösterebilmek adına ikinci bir çalışma gerçekleştirilmiştir. İkinci çalışmada Germen dil ailesine mensup İngilizce, İsveççe ve Norveçce derlemleri kullanılarak dillerin birbirlerine olan benzerliklerin ölçümlenmesi sağlanmıştır. Dil ailesi Türkçe ve metrikler Jaccard, Dice ve Similarity matching olduğunda, en yüksek benzerlik Türkçe-Uygurca olup, metriklerin değerleri sırasıyla %25.21, %40.27 ve %50.42'dir. Dil ailesi Germen olduğunda en yüksek benzerlik Norveç-İsveççe olup, metriklerin değerleri sırasıyla %37.15, %54.17 ve %74.3'tür.
The approach presented in this study is about the calculation of the similarities among languages by using the new feature template to be obtained from the syntactic analysis phase. Studies were conducted on 6 different language sets from two different language families in order to show the calculability of similarity of languages with the help of the recommended new feature template. In the first study, triplet-pattern template which is obtained from the syntactic analysis of Turkey, Kazakh, and Uyghur Turkish languages from Turkic languages families belonging to the Ural-Altaic linguistic family, could be formed automatically through developed software, and also similarity analysis of the desired languages could be made thanks to a different module developed within the same software. Consequently, not only similar structural relations of the languages from the same language family but also structural differences among the languages can also be revealed. Even if the first aim is to determine the similarities among languages when developing an approach, the real aim of the desired structure is to form a system independent from the language. In order to show that the formed system has a structure independent from the language, another study was carried out. In the second study, the similarities among the languages were determined by using treebanks of English, Swedish and Norwegian from the Germen language family. When the language family is Turkic and the metrics are Jaccard, Dice, and Similarity Matching, the highest similarity is Turkish-Uyghur, and the values of the metrics are 25.21%, 40.27%, and 50.42%, respectively. When the language family is Germen, the highest similarity is Norwegian-Swedish, and the values of the metrics are 37.15%, 54.17%, and 74.3, respectively.
Language Similarity Universal Dependency Natural Language Processing
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 25 Nisan 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 27 Sayı: 1 |
e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688
Dergide yayımlanan tüm makalelere ücretiz olarak erişilebilinir ve Creative Commons CC BY-NC Atıf-GayriTicari lisansı ile açık erişime sunulur. Tüm yazarlar ve diğer dergi kullanıcıları bu durumu kabul etmiş sayılırlar. CC BY-NC lisansı hakkında detaylı bilgiye erişmek için tıklayınız.