Statistical classifications have a great place and importance in the statistical systems of countries. The way to use statistical classification is code assignment. Code assignment consists of matching the textual definition with the definition in the standard classification dictionary and using the code in the dictionary corresponding to this definition. In questionnaires, textual definitions are often used to classify variables in right groups. The correct classification of the variables will ensure that the results of the studies to be conducted with these variables are correct. As the number of records increases, manual methods will not be sufficient to check that variables are classified in the correct groups. Therefore, there is a need for an automated system that can perform this process. This study introduces a system that can automatically check whether the variables using classification are classified in the correct group. The effectiveness of the system was tested using the 2017 Household Budget Survey (HBS) micro data set made by Turkey Statistical Institute (TURKSTAT). This data set is the main source of consumption expenditure statistics in our country. Classification of Individual Consumption by Purpose (COICOP) is used in the classification of consumption expenditures. The code assignment made by the interviewer was checked with the developed system and the results were examined. The developed system differs from systems using supervised machine learning methods by not needing a training data set. Starting from the zero point, the system can start working and continues its learning by increasing its learning in each additional record. This system can also contribute to the correct learning of systems using this method by controlling whether the classification of records in the education data set has been made correctly or not.
İstatistiksel sınıflamaların, ülkelerin istatistik sistemlerinde çok büyük bir yeri ve önemi bulunmaktadır. İstatistiksel sınıflama kullanabilmenin yolu kod atamadan geçmektedir. Kod atama, elimizdeki metinsel tanım ile standart sınıflama sözlüğünde yer alan tanımı eşleştirme ve bu tanıma karşılık gelen sözlükteki kodu kullanma işleminden oluşmaktadır. Anketlerde, değişkenleri doğru gruplarda sınıflayabilmek için metinsel tanımlar sıklıkla kullanılmaktadır. Değişkenlerin sınıflamasının doğru olarak yapılmış olması bu değişkenler ile yapılacak araştırmaların sonuçlarının doğru olmasını sağlayacaktır. Kayıt sayısı arttıkça, değişkenlerin doğru gruplarda sınıflandığını kontrol etmek için manuel yöntemler yeterli olmayacaktır. Bu yüzden bu işlemi yapabilecek otomatik bir sisteme ihtiyaç duyulmaktadır. Bu çalışmada, sınıflama kullanan değişkenlerin doğru grupta sınıflanıp sınıflanmadığını otomatik şekilde kontrol edebilen sistem tanıtılmaktadır. Sistemin etkinliği, Türkiye İstatistik Kurumu’nun (TÜİK) yapmış olduğu Hanehalkı Bütçe Araştırması (HBA) 2017 yılı veri seti kullanılarak değerlendirilmiştir. Bu veri seti, ülkemizdeki tüketim harcamaları istatistiklerinin ana kaynağıdır. Tüketim harcamalarının sınıflamasında Uluslararası Bireysel Tüketimin Amaca Göre Sınıflaması (COICOP) kullanılmaktadır. Anketör tarafından kod ataması yapılmış kayıtlar, geliştirilen sistem ile kontrol edilerek sonuçları incelenmiştir. Geliştirilen sistem, denetimli makine öğrenmesi yöntemlerini kullanan sistemlerden eğitim veri kümesine ihtiyaç duymaması ile ayrılmaktadır. Sıfır noktasından itibaren sistem çalışmaya başlayabilir ve her bir ilave kayıtta kendi öğrenmesini artırarak devam etmektedir. Bu sistem, eğitim veri kümesindeki kayıtların sınıflamasının doğru olarak yapılıp yapılmadığını kontrol ederek denetimli makine öğrenmesi yöntemini kullanan sistemlerin doğru şekilde öğrenmelerine de katkı sağlayabilmektedir.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2020 |
Submission Date | July 7, 2019 |
Published in Issue | Year 2020 |