Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması

Ahmet İlkay Kısayol; Metin Turan

doi:10.29130/dubited.418453

Araştırma Makalesi

BibTex

RIS

Kaynak Göster

Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması

Yıl 2018, Cilt: 6 Sayı: 4, 1047 - 1057, 01.08.2018

Ahmet İlkay Kısayol , Metin Turan

https://doi.org/10.29130/dubited.418453

Cited By: 1

Öz

Özetleme,
bir bakıma metinleri kısaltma işlemidir. Bu kısaltma işlemi metinlerdeki önemli
bilgileri içerecek şekilde olmalıdır. Bu çalışmanın amacı da İngilizce dilinde
yazılmış makale, haber vs. gibi doküman paragraflarının içerdiği bilgi önemine
göre seçilerek özetleme yapılmasıdır. Çalışmanın
ilk aşamasında doküman kümesini temsil edecek önemli kelimeler belirlenmiştir.
Bu aşamada tüm dokümanlarda geçen kelimeler kök geçiş sıklıklarına göre
büyükten küçüğe göre sıralanır ve belirli sayıda seçilen en sık kelimeler ile
paragraf vektörü temsil edilir. Bir
sonraki aşamada, istenilen özet oranına göre paragraflar kümelere ayrıştırılır.
Kümeleme algoritması olarak K-Means kullanılmıştır. Kümeler oluşturulurken
başlangıç noktalarının belirlenmesi amacıyla iki farklı yöntem kullanılmıştır. İlk
yöntemde, geçiş sıklıkları en yüksek ilk 10 kelimeden birinin en fazla görüldüğü
paragraflar küme başlangıçları olarak seçilir. İkinci yöntemde, kullanıcının
belirlediği özet oranına göre seçilecek anahtar kelime sayısı belirlenir. Daha
sonra bu anahtar kelimelerin en çok geçtiği paragraflar başlangıç noktaları
olarak belirlenir. Özet oluşturmada çıkarım yöntemi olarak, ayrıştırılan her
bir küme içinden kümenin merkez noktasına Jaccard uzaklığı bakımından en yakın
olan paragraf seçimi uygulanmıştır. Çıkan sonuçlar kontrol edildiğinde ikinci
yöntemin daha başarılı bir sonuç verdiği gözlemlenmiştir. İkinci yönteme göre
başarı oranları %20 özet oranı için %40 , %40 özet oranı için %50 ve %60 özet
oranı için %71 elde edilmiştir.

Anahtar Kelimeler

çoklu dokümanlarda özetleme , paragraf tabanlı özetleme , metin öbekleme , özellik çıkarımı

Kaynakça

H. P., Lunh, “The Automatic Creation of Literature Abstracts,” IBM Journal, ss. 159-165, 1958.
H.P., Edmundson, “New Methods in Automatic Abstracting,” Journal of the ACM, ss. 264-285, 1969.
Brandow, Ron, Karl Mitze, and Lisa Ram, “Automatic condensation of electronic publications by sentence selection,” Information Processing and Management, c. 31, s. 5,ss. 675-685, 1995.
Meng Wang, Xiaorong Wang, Chungui Li, “Extracting Multi-document Summarization Based on Local Topics,” 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery, 2009.
Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitzt, “Multi-Document Summarization By Sentence Extraction,” NAACL-ANLP-AutoSum '00 Proceedings of the 2000 NAACL-ANLP Workshop on Automatic Summarization, ss. 40-48, 2000.
Jaruskulchai, C. ve Kruengkrai, C., “A Practical Text Summarizer by Paragraph Extraction for Thai,” The Sixth International Workshop on Information Retrieval with Asian Language, ss. 9-16, 2003.
Ebru Uzundere, Elda Dedja, Banu Diri, M.Fatih Amasyalı, “Türkçe Haber Metinleri İçin Otomatik Özetleme,” Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, 2008.
Fumiyo Fukumoto ve Yoshimi Suzuki, “Extracting key paragraph based on topic and event detection: towards multi-document summarization,” NAACL-ANLP-AutoSum '00 Proceedings of the 2000 NAACL-ANLPWorkshop on Automatic summarization, c.4, ss. 31-39, 2000.
Lloret, E. ve Palomar, M., “Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation,” Informatica, s. 34, ss. 29-35, 2010.
Min, W., Zhensheng, L. ve Yuqing, G. “Study on Semantic ParagraphPartition in Automatic Abstracting System,” Systems, Man and Cybernetics, ss. 892-897, 2001
Vance Faber ,”Clustering and the Continuous k-Means Algorithm,” Los Alamos Science Number 22, 1994.
Metin Turan, “Özgün Paragraf Tabanlı Çıkarım Tekniği Kullanarak Otomatik Çoklu Doküman Özetleme”, Doktora Tezi, Bilgisayar Mühendisliği Programı, Yıldız Teknik Üniversitesi, İstanbul, Türkiye, 2015.

Comparison of Two New Methodologies Using Paragraph Based Extractive Summarization

Yıl 2018, Cilt: 6 Sayı: 4, 1047 - 1057, 01.08.2018

Ahmet İlkay Kısayol , Metin Turan

https://doi.org/10.29130/dubited.418453

Cited By: 1

Öz

Summarization
is means of process of the abbreviation of a text. This abbreviation should be
such that it contains important information about the texts. The purpose of
this study is selecting paragraphs according to the importance of the
information contained in paragraphs of
documents such as articles, news, etc. written in English. During the
first phase of the study, important words that represents the document set were
identified. At this stage, the words in all the documents are sorted according
to the frequency of their stems in ascending order and paragraph vector are
represented by a certain number of most frequently limited selected words. In the next
step, the paragraphs are separated into clusters according to the desired
summary ratio. K-Means was used as the clustering algorithm. Two different
methods were used to determine the starting points when the clusters were
constructed. In the first method, the paragraphs with the highest frequency of
passage of one of the first 10 words are selected as the cluster starts. In the
second method, the number of keywords to be selected is determined according to
the summary ratio determined by the user. Then the paragraphs most often passed
by these keywords are set as starting points. As an extraction method in the
summarization, the paragraph selection which is closest to Jaccard distance to
the central point of the cluster is applied for all clusters.When the results
were checked, it was observed that the second method gave a more successful
result. Success rates according to the second method were 40% for the 20%
summary rate, 50% for the 40% summary rate and 71% for the summary rate.

Anahtar Kelimeler

multiple document summarize , paragraph base summarization , text grouping , feature extraction

Kaynakça

H. P., Lunh, “The Automatic Creation of Literature Abstracts,” IBM Journal, ss. 159-165, 1958.
H.P., Edmundson, “New Methods in Automatic Abstracting,” Journal of the ACM, ss. 264-285, 1969.
Brandow, Ron, Karl Mitze, and Lisa Ram, “Automatic condensation of electronic publications by sentence selection,” Information Processing and Management, c. 31, s. 5,ss. 675-685, 1995.
Meng Wang, Xiaorong Wang, Chungui Li, “Extracting Multi-document Summarization Based on Local Topics,” 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery, 2009.
Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitzt, “Multi-Document Summarization By Sentence Extraction,” NAACL-ANLP-AutoSum '00 Proceedings of the 2000 NAACL-ANLP Workshop on Automatic Summarization, ss. 40-48, 2000.
Jaruskulchai, C. ve Kruengkrai, C., “A Practical Text Summarizer by Paragraph Extraction for Thai,” The Sixth International Workshop on Information Retrieval with Asian Language, ss. 9-16, 2003.
Ebru Uzundere, Elda Dedja, Banu Diri, M.Fatih Amasyalı, “Türkçe Haber Metinleri İçin Otomatik Özetleme,” Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, 2008.
Fumiyo Fukumoto ve Yoshimi Suzuki, “Extracting key paragraph based on topic and event detection: towards multi-document summarization,” NAACL-ANLP-AutoSum '00 Proceedings of the 2000 NAACL-ANLPWorkshop on Automatic summarization, c.4, ss. 31-39, 2000.
Lloret, E. ve Palomar, M., “Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation,” Informatica, s. 34, ss. 29-35, 2010.
Min, W., Zhensheng, L. ve Yuqing, G. “Study on Semantic ParagraphPartition in Automatic Abstracting System,” Systems, Man and Cybernetics, ss. 892-897, 2001
Vance Faber ,”Clustering and the Continuous k-Means Algorithm,” Los Alamos Science Number 22, 1994.
Metin Turan, “Özgün Paragraf Tabanlı Çıkarım Tekniği Kullanarak Otomatik Çoklu Doküman Özetleme”, Doktora Tezi, Bilgisayar Mühendisliği Programı, Yıldız Teknik Üniversitesi, İstanbul, Türkiye, 2015.

Toplam 12 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Mühendislik
Bölüm	Makaleler
Yazarlar	Ahmet İlkay Kısayol Metin Turan
Yayımlanma Tarihi	1 Ağustos 2018
Yayımlandığı Sayı	Yıl 2018 Cilt: 6 Sayı: 4

Kaynak Göster

APA	Kısayol, A. İ., & Turan, M. (2018). Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması. Duzce University Journal of Science and Technology, 6(4), 1047-1057. https://doi.org/10.29130/dubited.418453
AMA	Kısayol Aİ, Turan M. Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması. DÜBİTED. Ağustos 2018;6(4):1047-1057. doi:10.29130/dubited.418453
Chicago	Kısayol, Ahmet İlkay, ve Metin Turan. “Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması”. Duzce University Journal of Science and Technology 6, sy. 4 (Ağustos 2018): 1047-57. https://doi.org/10.29130/dubited.418453.
EndNote	Kısayol Aİ, Turan M (01 Ağustos 2018) Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması. Duzce University Journal of Science and Technology 6 4 1047–1057.
IEEE	A. İ. Kısayol ve M. Turan, “Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması”, DÜBİTED, c. 6, sy. 4, ss. 1047–1057, 2018, doi: 10.29130/dubited.418453.
ISNAD	Kısayol, Ahmet İlkay - Turan, Metin. “Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması”. Duzce University Journal of Science and Technology 6/4 (Ağustos2018), 1047-1057. https://doi.org/10.29130/dubited.418453.
JAMA	Kısayol Aİ, Turan M. Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması. DÜBİTED. 2018;6:1047–1057.
MLA	Kısayol, Ahmet İlkay ve Metin Turan. “Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması”. Duzce University Journal of Science and Technology, c. 6, sy. 4, 2018, ss. 1047-5, doi:10.29130/dubited.418453.
Vancouver	Kısayol Aİ, Turan M. Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması. DÜBİTED. 2018;6(4):1047-5.

Düzce Üniversitesi Bilim ve Teknoloji Dergisi

Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması

Öz

Anahtar Kelimeler

Kaynakça

Comparison of Two New Methodologies Using Paragraph Based Extractive Summarization

Öz

Anahtar Kelimeler

Kaynakça

Ayrıntılar

Kaynak Göster

Cited By

Şüpheli Haberlerin Tespitine Yönelik Derin Öğrenme Tabanlı Haber Teyit Sisteminin Gerçekleştirilmesi

Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi

https://doi.org/10.24012/dumf.1651348