Makine öğrenimi, veriler içerisindeki yararlı bilgileri çıkarmak ve veriler arasındaki ilişkilere dayalı algoritmalar tasarlamak için kullanılan istatistiksel bir modelleme konusudur. Makine öğrenimi kullanmanın en büyük avantajı, algoritmanın verilerle ne yapacağını öğrendiğinde gerekli işlemleri otomatik olarak yapmasıdır. Veri madenciliği konuları arasında sıklıkla kullanılan yöntem, sınıflandırmadır. Sınıflandırma yöntemi, pek çok algoritmaya kıyasla pratik ve hızlı çözümler sunan alternatif bir yöntemdir. Sınıflandırma yönteminde veriler içerisindeki bilgiler, bağıntılar, desenler ve benzerliklerden yola çıkılarak çeşitli algoritmalar yardımıyla model oluşturulur. Bu model üzerinden yeni gözlemler için sınıf tahmini yapılır. Bu çalışmada, farklı karar ağacı algoritmaları ile hastalık teşhisi için (hasta-hasta değil) sınıflandırma analizi yapılmıştır. Çalışmada asıl amaç; gözlemin hasta-hasta değil şeklinde sınıflandırılmasından ziyade, bu ayrım yapılırken kullanılan değişkenlerin neler olduğunun belirlemesi ve literatür ile kıyaslanmasıdır. Eğitim ve test aşamasında veriler, çapraz doğrulama ile karşılaştırılmıştır. En başarılı yöntem tespit edilirken doğruluk, kesinlik, duyarlılık, F-ölçütü, MCC, ROC Area, PRC Area ve Kappa değerleri göz önüne alınmıştır.
Karar ağaçları sınıflandırma makine öğrenmesi hastalık teşhisi
Machine learning is a statistical modeling topic used to extract useful information from data and design algorithms based on relationships between data. The biggest advantage of using machine learning is that when the algorithm learns what to do with the data, it automatically takes the necessary actions. The most frequently used method among data mining topics is classification. The classification method is an alternative method that offers practical and fast solutions compared to many algorithms. In the classification method, a model is created with the help of various algorithms based on the information, relations, patterns and similarities in the data. Class estimation is made for new observations over this model. In this study, classification analysis was performed for disease diagnosis (patient-not patient) with different decision tree algorithms. The main purpose of the study; rather than classifying the observation as patient-not patient, it is to determine what the variables used in making this distinction are and to compare them with the literature. During the training and testing phase, the data were compared by cross validation. While determining the most successful method, accuracy, precision, sensitivity, F-measure, MCC, ROC Area, PRC Area and Kappa values were taken into consideration.
decision trees classification machine learning disease diagnosis.
Birincil Dil | Türkçe |
---|---|
Konular | İstatistiksel Veri Bilimi, Uygulamalı İstatistik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2023 |
Gönderilme Tarihi | 11 Ekim 2023 |
Kabul Tarihi | 28 Aralık 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 5 Sayı: 2 |