Heart disease is a global public health problem that requires in-depth analysis of extensive literature to uncover specific themes and relationships. This study aimed to identify latent themes and calculate consistencies in 5,000 heart disease-related abstracts retrieved from PubMed using topic modeling techniques. The original abstracts were paraphrased using ChatGPT and NLTK(Natural Language Toolkit), followed by extensive preprocessing, including tokenization, removal of stopped words, stemming, and lemmatization. For effective feature extraction, text data was vectorized using TF-IDF (term frequency-inverse document frequency). Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA), and Non-Negative Matrix Factorization (NMF) were applied to reveal key thematic structures. Coherence scores were calculated and compared across different numbers of subjects (5 to 50) for each model and annotation method. This approach provides a valuable methodology for summarizing large amounts of information, allowing researchers to efficiently navigate the complex landscape of heart disease literature and identify critical areas of focus. The findings aim to improve understanding of heart disease and support future research in this vital area.
Heart Disease Topic Modeling Latent Dirichlet Allocation (LDA) Latent Semantic Analysis (LSA) Non-Negative Matrix Factorization (NMF) Coherence Scores Natural Language Processing(NLP)
Kalp hastalığı, belirli temaları ve ilişkileri ortaya çıkarmak için kapsamlı literatürün derinlemesine analizini gerektiren küresel bir halk sağlığı sorunudur. Bu çalışma, konu modelleme teknikleri kullanılarak PubMed'den alınan kalp hastalığı ile ilgili 5.000 özetteki gizli temaları belirlemeyi ve tutarlılıkları hesaplamayı amaçlamıştır. Orijinal özetler; ChatGPT ve NLTK (Doğal Dil Araç Seti) kullanılarak başka kelimelerle ifade edildi ve ardından tokenizasyon, durdurulan kelimelerin kaldırılması, kök ayırma ve lemmatizasyon dahil olmak üzere kapsamlı ön işleme tabi tutuldu. Etkili özellik çıkarımı için metin verileri TF-IDF (frekans-ters belge frekansı terimi) kullanılarak vektörleştirildi. Temel tematik yapıları ortaya çıkarmak için Gizli Dirichlet Tahsisi (LDA), Gizli Semantik Analiz (LSA) ve Negatif Olmayan Matris Faktorizasyon (NMF) uygulandı. Tutarlılık puanları, her model ve açıklama yöntemi için farklı sayıdaki konular (5 ila 50) arasında hesaplandı ve karşılaştırıldı. Bu yaklaşım, büyük miktarlardaki bilgilerin özetlenmesi için değerli bir metodoloji sağlayarak, araştırmacıların kalp hastalığı literatürünün karmaşık manzarasında etkili bir şekilde gezinmesine ve kritik odak alanlarını belirlemesine olanak tanır. Bulgular, kalp hastalığının anlaşılmasını geliştirmeyi ve bu hayati alanda gelecekteki araştırmaları desteklemeyi amaçlıyor.
Kalp Hastalığı Konu Modelleme Gizli Dirichlet Tahsisi (LDA) Gizli Semantik Analiz (LSA) Negatif Olmayan Matris Faktorizasyonu (NMF) Tutarlılık Puanları Doğal Dil İşleme
| Primary Language | English |
|---|---|
| Subjects | Performance Evaluation |
| Journal Section | Research Article |
| Authors | |
| Early Pub Date | May 12, 2025 |
| Publication Date | May 23, 2025 |
| Submission Date | June 19, 2024 |
| Acceptance Date | August 12, 2024 |
| Published in Issue | Year 2025 Volume: 27 Issue: 80 |