The Organization for Economic Co-operation and Development (OECD) is an international organization that works to create better policies for better lives. For this aim, OECD collects data on countries in many indicators. In order to make more accurate analyses, these data must be complete. But there are deficiencies in the information collected from different national and international sources. These deficiencies are especially problematic for researchers who want to work using statistical analysis and machine learning methods. For such analysis, data sets must first be cleared of missing data. In general, incomplete data has a negative effect on statistical analysis. There are traditional and modern methods to solve this problem. The data can be missing completely at random (MCAR), missing at random (MAR), and not missing at random (MNAR). For this reason, each data must be handled separately. In the data set titled industrial production in the Main Economic Indicators database, there are 4046 values, 113 missing data and 3933 complete data belonging to 34 countries. In order to divide the data set into different groups, the study used a machine learning algorithm called K-Nearest Neighbor(kNN). Because the kNN algorithm is simple to use, it is widely used. The nearest neighborhood value of the algorithm used in the study was determined as k=15. There was an 86.8% success rate in estimating the missing data.
Ekonomik İşbirliği ve Kalkınma Örgütü (OECD), daha iyi yaşamlar oluşturmak için çalışan uluslararası bir organizasyondur. Bu amaç doğrultusunda OECD ülkeler hakkında birçok göstergede veri toplamaktadır. Daha doğru analizler yapabilmek için bu verilerin eksiksiz olması gerekmektedir. Fakat ulusal ve uluslararası farklı kaynaklardan toplanan bilgilerde eksiklikler olmaktadır. Bu eksiklikler özellikle istatiksel analiz ve makine öğrenmesi yöntemleri kullanarak çalışmak isteyen araştırmacılara problem çıkartmaktadır. Bu tür analizler için veri setlerinin öncelikle eksik verilerden temizlenmesi gerekmektedir. Genel olarak eksik veriler istatistiksel analizleri üzerinde olumsuz bir etkiye sahiptir. Bu sorunu çözmek için geleneksel ve modern yöntemler vardır. Değişkenler tamamen rastgele eksik (MCAR), rastgele eksik (MAR) ve rastgele eksik değil (MNAR) olabilir. Bu neden ile her değişken ayrı ayrı ele alınmalıdır. Temel Ekonomik Göstergeler veri tabanı içerisindeki endüstriyel üretim başlıklı veriler setinde 34 ülkeye ait 113 eksik veri ve 3933 tam veri olmak üzere 4046 değer bulunmaktadır. Veri setini farklı gruplara ayırmak için çalışmada k-en yakın komşu (kNN) adı verilen makine öğrenimi algoritmasını kullanılmış. kNN algoritması kullanımının basit olduğundan yaygın olarak kullanılmaktadır. Çalışmada kullanılan algoritmaya ait en yakın komşuluk değeri k=15 olarak belirlenmiştir. Eksik verileri tahmin etmede %86,8’lik bir başarı elde edilmiştir.
Birincil Dil | Türkçe |
---|---|
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 31 Ağustos 2021 |
Kabul Tarihi | 14 Nisan 2021 |
Yayımlandığı Sayı | Yıl 2021 |
Anemon Muş Alparslan Üniversitesi Sosyal Bilimler Dergisi Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı (CC BY NC) ile lisanslanmıştır.