Talasemi, insan vücudunda az miktarda hemoglobin ve kırmızı kan hücresine neden olan kalıtsal bir hastalıktır. Bu hastalık tedavi edilemediği gibi bazı hastalarda ömür boyu kan nakli gerektirmektedir. Hastalığın erken teşhis edilmesi büyük önem taşımaktadır. Çalışmanın amacı makine öğrenmesi sınıflandırma yöntemleri kullanarak talasemi hastalığı tahmini yapmaktır. Çalışmada kullanılan veriler Erzurum Atatürk Üniversitesi Araştırma Hastanesine gelen hastalardan oluşmaktadır. Çalışma, python dili ile Jupyter Notebook ortamında sınıflandırma yöntemleri kullanılarak gerçekleştirilmiştir. Çalışmada, Naive Bayes (NB), K-En Yakın Komşu (KNN), Destek Vektör Makineleri (SVM), Lojistik Regresyon (LR), Rastgele Orman (RF) ve Karar Ağaçları (DT) gibi farklı sınıflandırma yöntemlerin karşılaştırılması yapılmıştır. Bu sınıflandırma yöntemleri kullanılarak en iyi tahmin sonucuna ulaşmaya çalışılmıştır. Veri seti %70 eğitim ve %30 test aşamasında kullanmak için ayrılmıştır. Bu aşamalarda oluşan sapmaların önüne geçmek için k kat çapraz doğrulama (k fold cross validation) yöntemi uygulanmıştır. Sınıflandırma yöntemlerinin performans değerlendirmesinde kesinlik (precision), duyarlılık (recall), f1-skoru (f1 score), doğruluk (accuracy), işlem karakteristik eğrisi (ROC-AUC), log loss (logaritmik kayıp) gibi performans metriklerine bakılmıştır. Çalışma sonucunda, yöntem uygulanmadan kurulan modeller içerisinde KNN yöntemi ile en başarılı doğruluk değeri %94,14 olarak, k katlı çapraz doğrulama yöntemi kullanıldıktan sonra kurulan modeller içerisinde ise RF yöntemi ile en başarılı doğruluk değeri %93,92 olarak elde edilmiştir.
Makine Öğrenmesi Sınıflandırma Talasemi K Katlı Çapraz Doğrulama
Thalassemia is an inherited disease that causes a low amount of hemoglobin and red blood cells in the human body. This disease cannot be treated and some patients require lifelong blood transfusions. Early diagnosis of the disease is of great importance. The aim of this study is to predict thalassemia disease using machine learning classification methods. The data used in this study consists of patients coming to Erzurum Atatürk University Research Hospital. This study was carried out using classification methods in the Jupyter Notebook environment with the Python language. In this study, different classification methods such as Naive Bayes (NB), K-Nearest Neighbor (KNN), Support Vector Machines (SVM), Logistic Regression (LR), Random Forest (RF) and Decision Trees (DT) were compared. Using these classification methods, the best estimation result was tried to be achieved. The dataset was divided into 70% for training and 30% for testing. To prevent deviations in these stages, k fold cross validation (k fold cross validation) method was applied. In the performance evaluation of classification methods, performance metrics such as precision (precision), recall (recall), f1 score (f1 score), accuracy (accuracy), operating characteristic curve (ROC-AUC), log loss (logarithmic loss) were examined. As a result of this study, the most successful accuracy value was obtained as 94.14% with the KNN method among the models established without applying any method, and the most successful accuracy value was obtained as 93.92% with the RF method among the models established after using the k-fold cross-validation method.
Machine Learning Artificial Intelligence Classification Thalassemia K Fold Cross Validation
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı, Yazılım Mühendisliği (Diğer) |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Aralık 2024 |
Gönderilme Tarihi | 8 Temmuz 2024 |
Kabul Tarihi | 9 Eylül 2024 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 14 Sayı: 4 |
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.