Many machine learning classification problems have high dimensions, and efficient and effective feature selection algorithms are needed to determine the relatively essential features in the dataset. Gene data is often preferred in feature selection applications because it contains many features due to its structure. In addition, it is known from studies in the literature that gene selection plays a significant role in cancer detection. One of the cancer types with very high treatment success in the early period is ovarian cancer. For this purpose, it was aimed to select genes with high descriptiveness in cancer diagnosis by using the ovarian cancer dataset, which is a publicly available dataset. In this study, the feature selection method based on pairwise correlation, which is very new in the literature, was used for classification. Firstly, a feature selection application was made, and 38 genes with the highest cancer descriptors were determined. Then, the classification process was carried out using eight different classification algorithms. After the classification process, the lowest success was for the Extra Tree classification algorithm (with 96.44% accuracy), while the highest was for the Multi-Layer Perceptron, Stochastic Gradient Descent, Logistic Regression, and Support Vector Machine (with 100% accuracy). Although there are many studies on feature selection in the literature, this study is the first application of the current method. In this sense, it is thought that it will contribute to the literature.
Makine öğrenmesi sınıflandırma problemlerinin birçoğu yüksek boyuta sahip olup, veri kümesindeki özniteliklerden görece önemli olanların belirlenmesi amacıyla verimli ve etkili değişken seçim algoritmalarına ihtiyaç vardır. Gen verileri de yapısı gereği çok sayıda değişken içerdiği için değişken seçim uygulamalarında sıklıkla tercih edilir. Ayrıca gen seçimi kanser tespitinde büyük rol oynadığı literatürde yer alan çalışmalardan bilinmektedir. Erken dönemde tedavi başarısı oldukça yüksek olan kanser türlerinden birisi de yumurtalık (ovarian) kanseridir. Bu amaçla çalışmada erişime açık bir veri kümesi olan yumurtalık kanseri veri kümesi kullanılarak, kanser teşhisinde yüksek tanımlayıcılığa sahip genlerin seçilmesi amaçlanmıştır. Çalışmada, sınıflandırma için literatürde çok yeni olan ikili korelasyona (pairwise correlation) dayalı öznitelik seçim yöntemi kullanılmıştır. Uygulamada, ilk olarak değişken seçim uygulaması yapılmış ve kanser tanımlayıcılığı en yüksek olan 38 gen belirlenmiştir. Daha sonra sekiz farklı sınıflandırma algoritması kullanılarak sınıflandırma işlemi yapılmıştır. Sınıflandırma işlemi sonrası en düşük sınıflandırma başarısı %96.44 doğruluk değeri ile Ekstra Ağaç sınıflandırma algoritması için gerçekleşirken, en yüksek sınıflandırma başarısı ise %100 doğruluk değeri ile Çok Katmanlı Algılayıcı, Stokastik Gradyan İniş, Lojistik Regresyon ve Destek Vektör Makinesi sınıflandırıcıları kullanılarak elde edilmiştir. Literatürde değişken seçimi konusunda yapılan çok sayıda çalışma olmasına rağmen bu çalışma mevcut yöntemle ilgili yapılan ilk uygulama özelliği taşımaktadır. Bu anlamda literatüre katkı sağlayacağı düşünülmektedir.
Birincil Dil | İngilizce |
---|---|
Konular | İşletme |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 29 Mart 2023 |
Gönderilme Tarihi | 19 Şubat 2023 |
Yayımlandığı Sayı | Yıl 2023 |