Günümüzde, büyük veri içinden istenilen bilgiyi kapsayan doğru içeriklere kısa sürede ulaşabilmek önemli bir ihtiyaçtır. İçeriklere ait başlıkların bu ihtiyacı karşılamada olumlu bir etkisi bulunmaktadır. Ancak yanıltıcı başlıklar olması durumunda bu bir dezavantaja dönüşebilmektedir. Bu çalışmada, güncel doğal dil işleme ve derin öğrenme teknolojilerini kullanarak Türkçe metinleri en iyi özetler biçimde ve daha yönlendirici Türkçe başlıkların üretilmesi amaçlanmaktadır.
Çalışmada yaklaşık 52.000 Türkçe haber metni ve başlığını içeren bir derlem kullanılmıştır. Derlemdeki haber metinleri ve başlıkları modelin doğru eğitilebilmesi için bazı ön işlemlerden geçirilmiştir. Daha insansı ve özgün sonuçlar elde etmek amacıyla genel ve soyut özetleme teknikleri çözüm yöntemleri olarak tercih edilmiştir. Eğitim modeli olarak, 2017 yılında yayınlanan ve doğal dil işleme alanında en son teknoloji olarak kabul edilen transformatör mimarisi tabanlı kodlayıcı-kod çözücü derin öğrenme mimarisi kullanılmıştır. Bu model, derin öğrenme kütüphanelerinden TensorFlow ve Keras kullanılarak geliştirilmiştir. Derin öğrenme çalışmalarında yüksek sistem gereksinimlerini karşılayan Google Colab aracılığı ile 20 ve 25 dönem eğitilerek sonuç üretilmiştir. Eğitim süresi toplam 3.5 saat gibi kısa bir sürede tamamlanmıştır.
Eğitilen model, 20 ve 25 eğitim dönemi sonunda sırayla 75% ve 85% oranında eğitim başarımı elde etmiştir. Eğitimde kullanılan veri kümesinin tamamı, eğitilen model ile tekrar üretilmiştir. Bu deneyde başarı ölçütleri olarak, genellikle özetleme görevlerinde tercih edilen ROUGE-1 metriği, BLEU ve ikisinin harmonik ortalaması olan F1 skoru tercih edilmiştir. ROUGE-1, BLEU ve F1 skoru, 20 eğitim dönemi sonunda sırayla %59, %54 ve %55 iken, 25 eğitim dönemi sonunda sırayla %77, %70 ve %73 olarak ölçülmüştür.
Transformatör mimarisinin başlık üretme probleminde kullanımının, bu alandaki mevcut çalışmalarda kullanılan derlemlere kıyasla daha az eğitim içeriğiyle çözüm üretebildiği ve diğer derin öğrenme mimarileri ile yapılan çalışmalara göre dilbilgisel ve anlamsal olarak daha başarılı sonuçlar elde edildiği gözlemlenmiştir.
Türkçe Doğal Dil İşleme Otomatik Başlık Üretme Soyut Metin Özetleme Derin Öğrenme Transformatör
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 11 Ağustos 2023 |
Yayımlanma Tarihi | 21 Ağustos 2023 |
Gönderilme Tarihi | 6 Temmuz 2021 |
Kabul Tarihi | 16 Mart 2023 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 39 Sayı: 1 |