The application of next-generation sequencing (NGS) technologies has enabled the identification of both culturable and non-culturable microorganisms in blood samples, revealing their potential roles in systemic infections and immune responses. However, the complexity and high dimensionality of microbiome data present significant challenges for analysis. In this study, it was evaluated the performance of various machine learning (ML) algorithms, including logistic regression, random forest (RF), decision tree, and support vector machines (SVM), in classifying 16S rRNA gene sequencing data of blood microbiota into cultured and uncultured groups. The dataset used in this study, obtained from Kalfin and Panaiotov, consists of 16S rRNA gene sequences from a total of 18,093 OTUs and 62 observations, including control samples. After excluding the six control samples, 56 samples from target sequencing of cultured and non-cultured blood samples of healthy individuals were analyzed. Results show that the random forest (RF) algorithm exhibits the highest classification performance, successfully distinguishing between cultured and uncultured blood microbiota. In the study, the potential of ML techniques in microbiome research was evaluated and the effectiveness and accuracy of these techniques in the analysis of microbiome data were investigated.
Yeni nesil dizileme (NGS) teknolojilerinin uygulanması, kan örneklerinde hem kültürlenebilen hem de kültürlenemeyen mikroorganizmaların tanımlanmasını sağlayarak, sistemik enfeksiyonlarda ve bağışıklık tepkilerinde potansiyel rollerini ortaya koymuştur. Ancak, mikrobiyom verilerinin karmaşıklığı ve yüksek boyutluluğu, analiz için önemli zorluklar sunmaktadır. Bu çalışmada, lojistik regresyon, rastgele orman (RF), karar ağacı ve destek vektör makineleri (SVM) dahil olmak üzere çeşitli makine öğrenimi (ML) algoritmalarının, kan mikrobiyotasının 16S rRNA gen dizileme verilerini kültürlenmiş ve kültürlenmemiş gruplara sınıflandırmadaki performansı değerlendirilmiştir. Çalışmada kullanılan veri seti, Kalfin ve Panaiotov’dan elde edilen 16S rRNA gen dizileri ile oluşturulmuş olup, toplamda 18.093 OTU ve 62 gözlem içermektedir; bunlar arasında kontrol örnekleri de bulunmaktadır. Altı kontrol örneği çalışmadan çıkarıldıktan sonra, sağlıklı bireylerden alınan kültürlü ve kültürsüz kan örneklerine ait 56 örnek üzerinde analizler yapılmıştır. Bulgular, rastgele orman (RF) algoritmasının en yüksek sınıflandırma performansını sergilediğini ve kültürlenmiş ve kültürlenmemiş kan mikrobiyotası arasında başarılı bir şekilde ayrım yaptığını göstermiştir. Çalışmada, mikrobiyom araştırmalarında ML tekniklerinin potansiyeli değerlendirilmiş ve bu tekniklerin mikrobiyom verilerinin analizindeki etkinliği ve doğruluğu, araştırılmıştır.
| Birincil Dil | İngilizce |
|---|---|
| Konular | Klinik Tıp Bilimleri (Diğer) |
| Bölüm | Araştırma Makaleleri |
| Yazarlar | |
| Yayımlanma Tarihi | 29 Ağustos 2025 |
| Gönderilme Tarihi | 10 Şubat 2025 |
| Kabul Tarihi | 7 Mart 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 5 Sayı: 2 |