Hematolojik kanserler genellikle semptomlar belirginleştikten sonra teşhis edilir ve bu durum hastalığın kontrol altına alınmasını ve etkili tedavi stratejilerinin uygulanmasını zorlaştırabilir. Özellikle T hücreli lösemi gibi hematolojik kanserlerde, gen ekspresyon profillerinin incelenmesi, erken tanı ve tedavi stratejilerinin geliştirilmesinde hayati öneme sahiptir. Bu çalışma, Yetişkin T hücreli Lösemi (ATL) hücrelerinde ve sağlıklı bireylerin CD4+T hücrelerindeki tüm gen ekspresyon profilini karşılaştırarak, bu hastalığın patogenezindeki moleküler mekanizmaları farklı makine öğrenme yöntemleri ile ortaya çıkarma motivasyonu ile gerçekleştirilmiştir. Naive Bayes, K-En Yakın Komşu, Destek Vektör Makinesi, Rassal Orman, C4.5, Lojistik Regresyon, Doğrusal Diskriminant Analizi ve Yapay Sinir Ağları algoritmalarının karar performansları, GSE33615 veri seti üzerinde tabakalı örnekleme ile 5 katlı çapraz doğrulama yöntemi kullanılarak karşılaştırılmıştır. Bunlar arasında Yapay Sinir Ağı 0,98 AUC ve 0,93 F1 skoru ile öne çıkmıştır. Onu, 0.97 AUC ve 0.957 F1 skoru ile SVM takip etmiştir. Performans karşılaştırmasına ek olarak, ATL'ye neden olan genlerin tespiti için bilgi kazanç oranı, SHAPLEY metriği ve korelasyon değerleri hesaplanmıştır. Her model için en yüksek öneme sahip ilk on gen belirlenmiştir. Modeller tarafından önerilen genlerin kesişim kümesi dikkate alındığında, ZSCAN18, PLK3 ve NELL2 genlerinin ilgili hastalık için ilişkili olduğu bulunmuştur. Bu genler, hücre döngüsü düzenlenmesi, transkripsiyonel kontrol ve onkojenik sinyal iletimi üzerindeki rollerine bağlı olarak Erişkin T-hücreli Lösemi patogenezine katkıda bulunabilir. Bu genlerin moleküler rollerinin daha iyi anlaşılabilmesi için ileri araştırmalara ihtiyaç duyulmaktadır.
Yetişkin T-hücreli Lösemi (ATL) Mikroarray çalışması Makine öğrenmesi Değişken önemi
Hematologic cancers are often diagnosed after symptoms become apparent, which can make it difficult to control the disease and implement effective treatment strategies. Studying gene expression profiles is vital for early diagnosis and the development of treatment strategies for hematologic cancers such as T-cell leukemia. The motivation of this study is to reveal the molecular mechanisms in the pathogenesis of this disease by comparing the whole gene expression profile in Adult T-cell Leukemia (ATL) cells and CD4+T cells of healthy individuals. For this aim, several machine learning algorithms, Naive Bayes, K-Nearest Neighbor, Support Vector Machine, Random Forest, C4.5, Logistic Regression, Linear Discriminant Analysis and Artificial Neural Network algorithms were used. Their performance was compared on the GSE33615 dataset by using 5-fold cross validation with stratified sampling. Among these, Artificial Neural Network stood out with an AUC of 0.98 and an F1 score of 0.93. It was followed by SVM with an AUC of 0.97 and 0.957 F1 score. In addition to performance comparison, information gain ratio, SHAPLEY metric and correlation values were calculated for the detection of genes causing ATL. Among the models, the three with the highest performance (ANN, SVM, RF) were selected, and the top ten most significant genes were identified for each. Considering the intersection of these gene sets, ZSCAN18, PLK3, and NELL2 were found to be associated with the related disease. These genes may contribute to Adult T-cell Leukemia pathogenesis through their roles in cell cycle regulation, transcriptional control, and oncogenic signaling. Further investigation is needed to clarify their precise molecular mechanisms in the related disease.
Adult T-cell Leukemia (ATL) Microarray study Machine learning Variable importance
Birincil Dil | İngilizce |
---|---|
Konular | Yazılım Mühendisliği (Diğer), Protein Mühendisliği |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Eylül 2025 |
Gönderilme Tarihi | 7 Aralık 2024 |
Kabul Tarihi | 9 Eylül 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 15 Sayı: 3 |
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.