Conference Paper

Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi

Number: 26 July 31, 2021
TR EN

Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi

Abstract

Bilgi teknolojilerindeki ilerlemeler ile, Web’te aralarında sosyo-ekonomik ve epidemiyolojik konuların da yer aldığı birçok konuda önemli boyutta metin belgeleri paylaşılmaktadır. Internetteki çeşitli platformlarda paylaşılan haber makaleleri, hastalık raporları ve haber bültenleri gibi metin-tabanlı paylaşımlar, ortaya çıkan bulaşıcı hastalık salgınlarının erken tespiti için de önemli bir bilgi kaynağı niteliğine sahiptir. Bu bilgi, web tabanlı biyo-gözetim sistemleri geliştirilmesi için de son derece kritik önem taşımaktadır. Webte yayınlanan haber makalelerinin sayısının sürekli olarak artması, bu kaynaklarının hastalık, salgın ve sosyo-ekonomik faktörleri önceden belirlemede kullanılmasını zorlaştırmaktadır. Bu nedenle, etkin bir web tabanlı biyogözetim sistemi geliştirilmesi için, haber metinlerini uygun konulara hızlı ve yüksek başarım ile atayan metin madenciliği ve makine öğrenmesi tabanlı sistemlere gereksinim duyulmaktadır. Bu çalışmada, hayvanlar üzerinde viral bir hastalık olan ASF ve sosyo-ekonomik konularda haber metinleri içeren bir derlem üzerinde temel makine öğrenmesi sınıflandırma algoritmalarının, sınıflandırıcı topluluğu mimarilerinin ve temel metin temsil yöntemlerinin başarımları karşılaştırmalı olarak değerlendirilmiştir. Haber metinlerinin temsil edilmesinde üç temel n-gram modeli olan (1-gram, 2-gram ve 3-gram) temsilleri, terim sıklığı, terim varlığı ve TF-IDF terim ağırlıklandırma yaklaşımları ile birarada kullanılarak toplam dokuz farklı metin temsili elde edilmiştir. Elde edilen metin temsilleri, dört temel sınıflandırma algoritması olan Naive Bayes algoritması, destek vektör makineleri, k-en yakın komşu algoritması ve lojistik regresyon algoritmaları ile değerlendirilmiştir. Bunun yanı sıra, torbalama yöntemi, yükseltme yöntemi, rastgele alt-uzay yöntemi ve çoğunluk oylaması algoritması kullanılarak, haber metinlerinden sosyo-ekonomik ve epidemiyolojik konuların saptanmasında, topluluk öğrenme yöntemlerinin etkinlikleri de analiz edilmiştir. Deneysel analizlerde kullanılan temel sınıflandırıcılar arasında en yüksek başarım Naive Bayes algoritması ile topluluk öğrenmesi mimarileri arasında en yüksek başarım ise rastgele alt-orman algoritmasının Naive Bayes ile kullanılmasıyla elde edilmiştir. Deneysel sonuçlar, metin madenciliği ve makine öğrenmesi yöntemlerinin salgın hastalıkların erken belirlenmesi için kullanılmasının uygun olduğunu göstermektedir.

Keywords

References

  1. Gajewski, K. N., Peterson, A. E., Chitale, R. A., Pavlin, J. A., Russell, K. L., & Chretien, J. P. (2014). A review of evaluations of electronic event-based biosurveillance systems. PloS one, 9(10), e111222.
  2. Walters, R. A., Harlan, P. A., Nelson, N. P., & Hartley, D. M. (2008). Data sources for biosurveillance. Wiley handbook of science and technology for Homeland Security, 1-17.
  3. Hartley, D. M., Nelson, N. P., Arthur, R. R., Barboza, P., Collier, N., Lightfoot, N., ... & Brownstein, J. S. (2013). An overview of internet biosurveillance. Clinical Microbiology and Infection, 19(11), 1006-1013.
  4. Tsai, F. J., Tseng, E., Chan, C. C., Tamashiro, H., Motamed, S., & Rougemont, A. C. (2013). Is the reporting timeliness gap for avian flu and H1N1 outbreaks in global health surveillance systems associated with country transparency?. Globalization and health, 9(1), 1-7.
  5. Hartley, D., Nelson, N., Walters, R., Arthur, R., Yangarber, R., Madoff, L., ... & Lightfoot, N. (2013). Landscape of international event-based biosurveillance. Emerg Health Threats J. 2010; 3: e3.
  6. Keller, M., Blench, M., Tolentino, H., Freifeld, C. C., Mandl, K. D., Mawudeku, A., ... & Brownstein, J. S. (2009). Use of unstructured event-based reports for global infectious disease surveillance. Emerging infectious diseases, 15(5), 689.
  7. Mykhalovskiy, E., & Weir, L. (2006). The global public health intelligence network and early warning outbreak detection. Canadian journal of public health, 97(1), 42-44.
  8. Mantero, J., Belyaeva, J., & Linge, J. P. (2011). How to maximise event-based surveillance web-systems the example of ECDC/JRC collaboration to improve the performance of MedISys. Luxembourg: Publications Office of the European Union.

Details

Primary Language

Turkish

Subjects

Engineering

Journal Section

Conference Paper

Publication Date

July 31, 2021

Submission Date

June 24, 2021

Acceptance Date

June 26, 2021

Published in Issue

Year 2021 Number: 26

APA
Onan, A. (2021). Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi. Avrupa Bilim Ve Teknoloji Dergisi, 26, 295-300. https://doi.org/10.31590/ejosat.957004
AMA
1.Onan A. Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi. EJOSAT. 2021;(26):295-300. doi:10.31590/ejosat.957004
Chicago
Onan, Aytuğ. 2021. “Haber Metinlerinden Sosyo-Ekonomik Ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi”. Avrupa Bilim Ve Teknoloji Dergisi, nos. 26: 295-300. https://doi.org/10.31590/ejosat.957004.
EndNote
Onan A (July 1, 2021) Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi. Avrupa Bilim ve Teknoloji Dergisi 26 295–300.
IEEE
[1]A. Onan, “Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi”, EJOSAT, no. 26, pp. 295–300, July 2021, doi: 10.31590/ejosat.957004.
ISNAD
Onan, Aytuğ. “Haber Metinlerinden Sosyo-Ekonomik Ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi”. Avrupa Bilim ve Teknoloji Dergisi. 26 (July 1, 2021): 295-300. https://doi.org/10.31590/ejosat.957004.
JAMA
1.Onan A. Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi. EJOSAT. 2021;:295–300.
MLA
Onan, Aytuğ. “Haber Metinlerinden Sosyo-Ekonomik Ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi”. Avrupa Bilim Ve Teknoloji Dergisi, no. 26, July 2021, pp. 295-00, doi:10.31590/ejosat.957004.
Vancouver
1.Aytuğ Onan. Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi. EJOSAT. 2021 Jul. 1;(26):295-300. doi:10.31590/ejosat.957004