Amaç: Bu çalışmanın amacı büyük boyutlu genomik veri setlerinin değişken seçim yöntemleri kullanılarak daha küçük boyutlara indirgenip daha az maliyet ve zaman ile analizlerin gerçekleştirilebileceğini göstermektir.
Gereç ve Yöntem: Bu çalışmada NCBI veri tabanından Bioconductor yardımı ile R programına aktarılan GDS4906 numaralı veri seti kullanılmıştır. Veri seti 10-katlı çapraz doğrulama ile LASSO ve Elastik Net regresyon yöntemleri kullanılarak analiz edilmiştir.
Bulgular: Veri seti LASSO regresyon yöntemi ile analiz edildiğinde veri setinden 5 adet gen seçilmiş olup, sonrasında farklı iterasyonlarda seçilen değişkenler ve değişken sayılarında farklılık gözlendiğinden kararlılık seçimi yöntemi uygulanarak 2 adet gen seçilmiş ve modelin R2 değeri 0,85 olarak bulunmuştur. Aralıklı arama yöntemi kullanılarak uygulanan Elastik Net regresyon yönteminde 19 adet gen seçilmiş ve R2 değeri 0,92 olarak bulunmuştur.
Sonuç: Elde edilen sonuçlara göre LASSO ve Elastik Net regresyon yöntemlerinin genomik veri setlerinde iyi bir performans gösterdiği anlaşılmıştır.
Objective: The purpose of this study is to show that large-sized genomic datasets can be reduced to smaller sizes using variable selection methods, and that analysis can be performed with less cost and time.
Materials and methods: This study uses dataset number GDS4906, which is transferred from the NCBI database to the R program using Bioconductor. The dataset was analyzed using LASSO and Elastic Net regression methods with 10-fold cross-validation.
Results: When the dataset is analyzed using the LASSO regression method, 5 genes were selected from the dataset and 2 genes were selected and the R2 values of the model were found as 0.85 by applying the determination selection method, as the variables and variable numbers selected in different iterations were then different. In the Elastic Net regression method applied using the interval search method, 19 genes were selected and R2 were found as 0.92.
Conclusion: According to the results obtained, LASSO and Elastic Net regression methods have shown a good performance in the genomic datasets.
Birincil Dil | Türkçe |
---|---|
Konular | Sağlık Kurumları Yönetimi |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 20 Aralık 2022 |
Gönderilme Tarihi | 10 Kasım 2022 |
Yayımlandığı Sayı | Yıl 2022 |