COVID-19, hastalığın ilk bildirildiği dönemden bu yana, şiddetli akut solunum sendromu büyük salgınlara neden olmaktadır ve dünya çapında bir pandemiye dönüşmüştür. Dünyanın birçok ülkesinde, COVID-19 salgınının zaman-mekansal analizine yönelik olarak önemli sayıda gerçek zamanlı, etkileşimli mobil ya da çevrimiçi coğrafi bilgi sistemleri, web siteleri ve uygulamalar geliştirilmiştir. Bilgi ve iletişim teknolojilerindeki ilerlemeler ile pek çok farklı kaynaktan COVID-19 salgınına yönelik olarak elde edilen veriler, salgın durumuna ilişkin bilgilerin etkin ve zamanında elde edilebilmesi için büyük önem taşımaktadır. Internetteki medya ve iletişim platformlarında paylaşılan haber makaleleri, bulaşıcı hastalık salgınlarının izlenmesi ve takip edilmesi için önemli bir veri kaynağı niteliğindedir. Bu çalışmada, İngiltere ve İspanya’da COVID-19 sürecine ilişkin 2020 yılının mart, mayıs ve temmuz aylarında yayınlanan 299’ar tane haber makalesi toplanarak oluşturulan derlem kullanılmaktadır. Metin belgelerinin temsilinde, üç temel n-gram modeli olan (1-gram, 2-gram ve 3-gram) temsilleri, tümce ögeleri 2-gram ve tümce ögeleri 3-gram öznitelikleri, kelime/tümce ögesi çiftleri, karakter n-gram (n=2) ve karakter n-gram (n=3) öznitelikleri ve bu özniteliklerin biraraya getirilmesi ile elde edilen topluluk öznitelik kümelerinin etkinlikleri değerlendirilmektedir. Öznitelik kümelerinin başarımlarının değerlendirilmesinde, altı temel makine öğrenmesi sınıflandırıcısı olan Naive Bayes algoritması, lojistik regresyon algoritması, destek vektör makineleri, C4.5 karar ağacı, k-en yakın komşu algoritması ve rastgele orman algoritması kullanılmaktadır. Deneysel analizlerde kullanılan on yedi farklı metin temsil yöntemi arasında en yüksek başarımın, sözcük tabanlı 1-gram özniteliklerin karakter tabanlı 3-gram modeli ile kullanıldığında elde edildiği görülmektedir. Deneysel analizlerde kullanılan temel sınıflandırma algoritmaları arasında en yüksek başarım rastgele orman algoritmasıyla, ikinci en yüksek başarım ise lojistik regresyon algoritmasıyla alınmaktadır. Deneysel analizler, makine öğrenmesi ve metin madenciliği tekniklerinin, salgın hastalıklara ilişkin sosyal medya gönderilerinin zaman/mekânsal analizi için uygun teknikler olduğunu göstermektedir.
Since COVID-19 was first reported, severe acute respiratory syndrome has been causing massive outbreaks and has turned into a worldwide pandemic. In many countries of the world, a significant number of real-time, interactive mobile or online geographic information systems, websites and applications have been developed for the time-spatial analysis of the COVID-19 outbreak. The advances in information and communication technologies and the data obtained from many different sources regarding the COVID-19 outbreak are of great importance in order to obtain effective and timely information on the epidemic situation. News articles shared on media and communication platforms on the Internet are an important source of data for monitoring and tracking infectious disease outbreaks. In this study, 299 news articles published in March, May and July 2020 on the COVID-19 process in England and Spain are used. In the representation of text documents, the three basic n-gram models (1-gram, 2-gram, and 3-gram), part-of-speech 2-gram and part-of-speech 3-gram features, word / part-of-speech pairs, character n-gram (for, n = 2) and character n-gram (for, n = 3) features and the efficiency of the ensemble feature sets obtained by combining these features are evaluated. Naive Bayes algorithm, logistic regression algorithm, support vector machines, C4.5 decision tree, k-nearest neighbor algorithm and random forest algorithm are used to evaluate the performance of feature sets. Among the seventeen different text representation methods used in experimental analysis, it is seen that the highest performance is achieved when word-based unigram features are used with a character-based 3-gram model. Among the basic classification algorithms used in experimental analysis, the highest performance is obtained with the random forest algorithm, and the second highest performance is obtained with the logistic regression algorithm. Experimental analysis shows that machine learning and text mining techniques are suitable techniques for the spatio-temporal analysis of social media posts regarding epidemics.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2021 |
Published in Issue | Year 2021 Issue: 26 - Ejosat Special Issue 2021 (HORA) |