Türkçe deyim ve atasözlerinin kullanımı çeşitli dijital ortamlardan elde edilen veri kümeleri kullanılarak incelenmiştir. Çalışma, Türk Dil Kurumu tarafından hazırlanan deyim ve atasözü sözlüğü referans alınarak üç ayrı veri kümesi üzerinde yürütülmüştür. Veri kümesi, Türkçe haber makaleleri, Twitter verileri ve Ekşi Sözlük web sitesinden alınan veriler kullanılarak oluşturulmuştur. Çalışmada doğrudan eşleme ve anlam tabanlı eşleme olmak üzere iki ayrı yöntem kullanılmıştır. Anlamsal benzerliğe dayalı beş ayrı dil modeli kullanılmıştır. Atasözleri ve deyimlerin eşleme performansı SBERT, LaBSE, USE, E5 ve DistilBERT modelleri kullanılarak değerlendirilmiştir. Sonuçlar deyimlerin dilde atasözlerinden daha yaygın kullanıldığını göstermiştir. Daha yüksek kapsama sahip modeller daha yüksek eşleme değerleri verirken, kesinlik değerleri azalmıştır; ancak seçici eşleme modelleri daha yüksek kesinlik değerlerine ulaşmıştır. Model performansları F1 puanı kullanılarak değerlendirildiğinde, DistilBERT en dengeli performansı sergilerken, SBERT ve E5 modelleri yüksek kapsamlarıyla öne çıkarken, LaBSE ve USE modelleri daha düşük hatırlama değerlerine rağmen daha yüksek kesinlik değerlerine ulaşmıştır. Sonuçlar, atasözleri ve deyimlerin farklı ortamlarda nasıl sunulduğunun ve dil modellerinin bu unsurları nasıl algıladığının bir değerlendirmesini sunmaktadır.
This study examined the use of Turkish idioms and proverbs using datasets obtained from various digital environments. The study was conducted using three different datasets, with the idiom and proverb dictionary prepared by the Turkish Language Association serving as a reference. The dataset was created using Turkish news articles, Twitter data, and data from the Ekşi Sözlük website. Two different methods were used in the study: direct matching and semantic-based matching. Five different language models based on semantic similarity were used. The matching performance of proverbs and idioms was evaluated using the SBERT, LaBSE, USE, E5, and DistilBERT models. The results showed that idioms are more widely used in language than proverbs. Models with higher coverage yielded higher matching values, while precision values decreased; however, selective matching models achieved higher precision values. When the model performances were evaluated using the F1-score, DistilBERT demonstrated the most balanced, while the SBERT and E5 models stood out with their high coverage, and the LaBSE and USE models achieved higher precision values despite their lower recall values. The results provide an assessment of the way proverbs and idioms are delivered in different environments and the language models' perception of these elements.
| Primary Language | English |
|---|---|
| Subjects | Electrical Engineering (Other) |
| Journal Section | Research Article |
| Authors | |
| Submission Date | August 26, 2025 |
| Acceptance Date | October 20, 2025 |
| Publication Date | December 22, 2025 |
| Published in Issue | Year 2025 Volume: 3 Issue: 2 |
