Bu çalışmada,
denetimli temel bileşenler analizi (D-TBA) ile yeni bir yaklaşım olarak
önerilen yapay sinir ağlarıyla denetimli temel bileşenler analizi (D-YSA-TBA)
kullanılarak çok boyutlu gen ekspresyon verilerinin boyutunun indirgenmesi ve
random survival forests (RSF) analizi kullanılarak performansların
karşılaştırılması amaçlandı. Simülasyon uygulamasında çok değişkenli normal
dağılımdan 100 birim için 5000 gen ve bu gen verisi ile ilişkili yaşam süresi
verisi türetildi. Simülasyon aşaması 1000 tekrarlı olarak gerçekleştirildi.
Ayrıca yaygın B-hücreli lenfoma (DLBCL) hastası 240 bireye ilişkin gen
ekspresyon verileri kullanıldı. Önemli genlerin seçiminde Wald istatistiği
kullanılarak boyut indirgemesi yapıldı. Yöntemlerden elde edilen yeni veri
setleri RSF analizi kullanılarak analiz edildi. Simülasyon uygulamasında D-TBA
ve D-YSA-TBAyöntemlerinin açıklayıcılıkları arasında anlamlı bir fark olduğu
görülmüştür (p<0.001). DLBCL verisi ile yapılan uygulamada D-TBA yönteminin
hatasının %36.78, D-YSA-TBA yönteminin ise RSF sonucu- %43 olduğu bulunmuştur. D-TBA yönteminin önem
değeri diğer yöntemden daha büyük, hatası ise daha düşük çıkmıştır. Çok
boyutluluk problemi yaşanan gen ekspresyon verilerinin analizinde D-TBA, D-YSA-TBA’ya
göre daha iyi performans göstermiştir.
The
aim of this study is dimension reduction of multidimensional gene expression
data using supervised principal component analysis (S-PCA) and –proposed as a
new approach- supervised principal component analysis with artificial neural
networks (S-ANN-PCA) and to compare performances of these two methods by using
random survival forests (RSF). In simulation application 5000 genes were
generated according to multivariate normal distribution and then survival time
that is correlated to these gene data were generated for 100 units. Simulation
step was carried out with 1000 repetitions.
In
addition, gene expression data for 240 individuals with extensive B-cell
lymphoma (DLBCL) were used. Dimension reduction was done using Wald statistic
in selection of important genes. The new data sets obtained from the methods
were analyzed using RSF analysis.In the simulation application, it was obtained
that the explanatoriness of S-PCA was significantly different from S-ANN-PCA
(p<0.001). In the DLBCL data application, it was found that the error rate
for the S-PCA was 36.78% and 43% for the S-ANN-PCA as a result of RSF. The
importance value of S-PCA method was found to be higher and its error rate was
found to be lower than the other method.S-PCA performed better than S-ANN-PCA
in analyzing gene expression data experiencing a multidimensional problem.
Birincil Dil | İngilizce |
---|---|
Konular | Sağlık Kurumları Yönetimi |
Bölüm | ORİJİNAL MAKALELER / ORIGINAL ARTICLES |
Yazarlar | |
Yayımlanma Tarihi | 22 Şubat 2018 |
Yayımlandığı Sayı | Yıl 2018 |