Purpose: This study aims to classify open-access colorectal cancer gene data and identify essential genes with the XGBoost method, a machine learning method.
Materials and Methods: The open-access colorectal cancer gene dataset was used in the study. The dataset included gene sequencing results of 10 mucosae from healthy controls and the colonic mucosa of 12 patients with colorectal cancer. XGboost, one of the machine learning methods, was used to classify the disease. Accuracy, balanced accuracy, sensitivity, selectivity, positive predictive value, and negative predictive value performance metrics were evaluated for model performance.
Results: According to the variable selection method, 17 genes were selected, and modeling was performed with these input variables. Accuracy, balanced accuracy, sensitivity, specificity, positive predictive value, negative predictive value, and F1 score obtained from modeling results were 95.5%, 95.8%, 91.7%, 1%, 1%, and 90.9%, and 95.7%, respectively. According to the variable impotance acquired from the XGboost technique results, the CYR61, NR4A, FOSB, and NR4A2 genes can be employed as biomarkers for colorectal cancer.
Conclusion: As a consequence of this research, genes that may be linked to colorectal cancer and genetic biomarkers for the illness were identified. In the future, the detected genes' reliability can be verified, therapeutic procedures can be established based on these genes, and their usefulness in clinical practice may be documented.
Amaç: Bu çalışma, bir makine öğrenmesi yöntemi olan XGBoost yöntemi ile açık erişimli kolorektal kanser gen verilerini sınıflandırmayı ve temel genleri tanımlamayı amaçlamaktadır.
Gereç ve Yöntem: Çalışmada açık erişimli kolorektal kanser gen veri seti kullanıldı. Veri seti, sağlıklı kontrollerden 10 mukozanın ve kolorektal kanserli 12 hastanın kolon mukozasının gen dizileme sonuçlarını içeriyordu. Hastalığı sınıflandırmak için makine öğrenmesi yöntemlerinden biri olan XGboost kullanıldı. Model performansı için doğruluk, dengelenmiş doğruluk, duyarlılık, seçicilik, pozitif tahmin değeri ve negatif tahmin değeri performans metrikleri değerlendirildi.
Bulgular: Değişken seçim yöntemine göre 17 gen seçilmiş ve bu girdi değişkenleri ile modelleme yapılmıştır. Modelleme sonuçlarından elde edilen doğruluk, dengeli doğruluk, duyarlılık, özgüllük, pozitif tahmin değeri, negatif tahmin değeri ve F1 puanı sırasıyla %95.5, %95.8, %91.7, %1, %1 ve %90.9 ve %95.7 idi. XGboost tekniği sonucundan elde edilen değişken önemliliklerine göre, CYR61, NR4A, FOSB ve NR4A2 genleri kolorektal kanser için biyolojik belirteçler olarak kullanılabilir.
Sonuç: Bu araştırma sonucunda kolorektal kanserle bağlantılı olabilecek genlerin yanı sıra hastalığa yönelik genetik biyobelirteçler de belirlendi. Gelecekte, tespit edilen genlerin güvenilirliği doğrulanabilir, bu genlere dayalı olarak terapötik prosedürler oluşturulabilir ve klinik pratikteki yararları belgelenebilir.
Primary Language | English |
---|---|
Subjects | Clinical Sciences |
Journal Section | Research |
Authors | |
Publication Date | September 30, 2022 |
Acceptance Date | July 25, 2022 |
Published in Issue | Year 2022 Volume: 47 Issue: 3 |