BibTex RIS Cite

Identifying Collocations in Turkish Using Statistical Methods

Year 2016, Issue: 78, 253 - 286, 01.09.2016
https://izlik.org/JA68GN47TR

Abstract

Collocation is the combination of words in which words appear together more often than by chance in order to create a block of meaning. Since the extraction of collocations provides many benefits in automatic processing, translation of Turkish texts and in learning Turkish, it is an important issue in Turkish natural language processing. In this study several statistical techniques, including occurrence frequency, pointwise mutual information and hypothesis tests, are applied on Turkey Turkish corpus to automatically identify collocations. We have utilized both stemmed and surface forms of words in order to explore the effect of stemming in collocation extraction. The techniques are evaluated using the F-measure. The chi-square hypothesis test and pointwise mutual information methods have produced better results compared to other methods. In addition, we have observed that when words are stemmed, methods which may be considered as successful in collocation extraction may be more clearly discriminated.

Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi

Year 2016, Issue: 78, 253 - 286, 01.09.2016
https://izlik.org/JA68GN47TR

Abstract

Eşdizim, sözcüklerin bir anlam bütünlüğü oluşturmak üzere şans eseri olmayacak sıklıkla bir araya geldiği sözcük birliğidir. Eşdizimlerin belirlenmesi, Türkçe metinlerin otomatik olarak işlenmesi ve çevirilerinin yapılması, Türkçe dilinin eğitimi gibi çeşitli alanlardaki faydaları sebebiyle Türkçe doğal dil işleme çalışmalarında önemli bir konudur. Bu çalışmada, Türkçe bir derlemde corpus eşdizimlerin otomatik olarak belirlenmesi için çeşitli istatistiksel teknikler, gözlenme sıklığı occurrence frequency , noktasal karşılıklı bilgi katsayısı pointwise mutual information ve hipotez testleri uygulanmıştır. Eşdizimlerin belirlenmesinde gövdelemenin etkisinin araştırılması amacıyla sözcüklerin yanısıra bu sözcüklere ait sözcük gövdeleri üzerinde de çalışılmış, yöntemlerin başarımı F-ölçütü F-measure ile değerlendirilmiştir. Ki-kare hipotez testi ve noktasal karşılıklı bilgi katsayısı Türkiye Türkçesinde eşdizimlerin belirlenmesi konusunda diğer yöntemlere göre daha başarılı olmuştur. Ayrıca, gövdelenmiş sözcüklerden oluşan veri kümelerinde başarılı ve başarısız olarak kabul edebileceğimiz yöntemler arasındaki farkın daha net ortaya çıktığı görülmüştür.

There are 0 citations in total.

Details

Primary Language Turkish
Authors

Senem Kumova Metin This is me

Bahar Karaoğlan This is me

Publication Date September 1, 2016
IZ https://izlik.org/JA68GN47TR
Published in Issue Year 2016 Issue: 78

Cite

APA Metin, S. K., & Karaoğlan, B. (2016). Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi. Bilig, 78, 253-286. https://izlik.org/JA68GN47TR
AMA 1.Metin SK, Karaoğlan B. Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi. Bilig. 2016;(78):253-286. https://izlik.org/JA68GN47TR
Chicago Metin, Senem Kumova, and Bahar Karaoğlan. 2016. “Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi”. Bilig, nos. 78: 253-86. https://izlik.org/JA68GN47TR.
EndNote Metin SK, Karaoğlan B (September 1, 2016) Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi. Bilig 78 253–286.
IEEE [1]S. K. Metin and B. Karaoğlan, “Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi”, Bilig, no. 78, pp. 253–286, Sept. 2016, [Online]. Available: https://izlik.org/JA68GN47TR
ISNAD Metin, Senem Kumova - Karaoğlan, Bahar. “Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi”. Bilig. 78 (September 1, 2016): 253-286. https://izlik.org/JA68GN47TR.
JAMA 1.Metin SK, Karaoğlan B. Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi. Bilig. 2016;:253–286.
MLA Metin, Senem Kumova, and Bahar Karaoğlan. “Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi”. Bilig, no. 78, Sept. 2016, pp. 253-86, https://izlik.org/JA68GN47TR.
Vancouver 1.Senem Kumova Metin, Bahar Karaoğlan. Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi. Bilig [Internet]. 2016 Sep. 1;(78):253-86. Available from: https://izlik.org/JA68GN47TR

Ahmet Yesevi University Board of Trustees