Keywords provide a concise and precise description of the document's content. Due to the importance of the keyword and the difficulty of manual markup, automatic keyword extraction makes this process easy and fast. In this paper, Keyword Extraction from Kazakh News Dataset was presented. Model performance results were obtained by using the BERT base - uncased and BERT-base-multilingual-uncased pre-trained language model for the newly compiled Kazakh News Dataset-KND. Compiled Kazakh news data set consists of 7060 data. Data were collected from the web pages anatili.kazgazeta.kz, Bilimdinews.kz, and zhasalash.kz using the BeautifulSoap and Requests libraries. These web pages mostly contain news, history, and literary texts. The dataset includes the publication name or news title, the author of the publication or news subject, and the URL of the Kazakh news site. In the evaluation of the training results, it was observed that the BERT base-multilingual-uncased F-score performance was higher than the BERT model.
Kazakh language keyword extraction natural language processing BERT
-
-
-
Anahtar kelimeler, belgenin içeriğinin kısa ve kesin bir tanımını sağlar. Anahtar kelimenin önemi ve manuel işaretlemenin zorluğu nedeniyle, otomatik anahtar kelime çıkarımı bu işlemi kolay ve hızlı hale getirmektedir. Bu makalede Kazak haber veri setinden anahtar kelime çıkarımı sunulmaktadır. Yeni derlenen Kazak Haber Veri seti için BERT ve BERT-Base-Multilingual-Uncased önceden eğitilmiş dil modeli kullanılarak model performans sonuçları elde edilmiştir. Derlenen Kazak haber veri seti 7060 veriden oluşmaktadır. Veriler beautifulSoap ve requests kütüphaneleri kullanılarak aikyn.kz, anatili.kazgazeta.kz, zhasalash.kz ve baq.kz web sayfalarından toplanmıştır. Bu web sayfaları çoğunlukla haber, tarih, edebiyat metinlerini içermektedir. Veri seti yayın adını veya haber başlığını, yayının veya haberin konusunu ve Kazak haber sitesindeki URL'yi içermektedir. Eğitim sonuçları değerlendirildiğinde, BERT base-multilingual-uncased F-score başarımının BERT base - uncased modeline oranla daha yüksek olduğu gözlenmiştir.
-
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Proje Numarası | - |
Yayımlanma Tarihi | 31 Aralık 2022 |
Gönderilme Tarihi | 16 Haziran 2022 |
Kabul Tarihi | 7 Eylül 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 9 Sayı: 4 |
Açık Dergi Erişimi (BOAI)
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.