In this study, two different methods were introduced in Code Assignment System (KASIS), which was developed to make a more consistent, reliable and systematic coding to unencoded records or to analyse the accuracy of the records coded by the interviewer. The code assignment process consists of converting the textual definition into the most appropriate code in the classification dictionary, which is created as a standard. Turkey Statistical Institute (TURKSTAT) is implementing Household Budget Survey (HBS) annually. The accuracy of the codes assigned by the interviewer by manual methods was checked by the system using the HBS consumption expenditure data set made in 2016-2018.Code assignment was re-assigned to the records classified as inadequate and suspicious by two different methods through the system. The first of these methods; to make code assignment for the records with insufficient coding and suspect using the narrowed list in the classification dictionary. Latter; code assignment using the large list directly in the classification dictionary. Fuzzy matching techniques were used in both methods. Fuzzy matching techniques use algorithms developed to measure the similarity of the two texts. In this study, the effectiveness of the two methods along with the accuracy of the interviewer coding were evaluated. As a result, it was concluded that the first method applied to the narrowed list gives better results compared to the other and coding with automatic methods gives effective results.
Statistical Classification COICOP HBS Automatic Coding Fuzzy Matching
Bu çalışmada, kodlaması yapılmamış kayıtlara daha tutarlı, güvenilir ve sistematik bir kodlama yapabilmek veya anketör tarafından kodlaması yapılan kayıtların doğruluğunu analiz etmek için geliştirilen Kod Atama Sistemi’nde (KASİS) kullanılan iki farklı kod atama yöntemi tanıtılmıştır. Kod atama süreci, elimizdeki metinsel tanımı standart olarak oluşturulmuş sınıflama sözlüğünde yer alan en uygun koda dönüştürme işleminden oluşmaktadır. Türkiye İstatistik Kurumu (TÜİK), Hanehalkı Bütçe Araştırması’nı (HBA) yıllık olarak uygulamaktadır. Öncelikle, manuel yöntemlerle anketör tarafından atanan kodların doğruluğu 2016-2018 yıllarında yapılmış HBA tüketim harcaması veri seti kullanılarak sistem tarafından kontrol edilmiştir. Daha sonra, kod ataması, yetersiz ve şüpheli olarak sınıflanan kayıtlara sistem aracılığıyla iki farklı yöntemle tekrar kod ataması gerçekleştirilmiştir. Bu yöntemlerden birincisi; kodlaması yetersiz ve şüpheli olan kayıtlar için sınıflama sözlüğündeki daraltılmış liste kullanılarak kod ataması gerçekleştirmektir. İkincisi; direkt olarak sınıflama sözlüğündeki geniş liste kullanılarak kod ataması gerçekleştirmektir. Her iki yöntemde de bulanık eşleştirme teknikleri kullanılmıştır. Bulanık eşleştirme teknikleri, iki metnin benzerliğini ölçebilmek amacıyla geliştirilen algoritmaları kullanmaktadır. Çalışmada, anketör kodlamasının doğruluğu ile birlikte iki yöntemin etkinliği de değerlendirilmiştir. Sonuç olarak, daraltılmış listeye uygulanan ilk yöntemin diğerine kıyasla daha iyi sonuç verdiği ve kodlamanın otomatik yöntemler ile yapılmasının etkili sonuçlar vereceği sonucuna ulaşılmıştır.
İstatistiksel sınıflama COICOP HBA Otomatik kodlama Bulanık eşleştirme
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı, Mühendislik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 22 Haziran 2020 |
Gönderilme Tarihi | 10 Mayıs 2020 |
Kabul Tarihi | 21 Haziran 2020 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 2 Sayı: 1 |
Bilgi ve İletişim Teknolojileri Dergisi (BİTED)
Journal of Information and Communication Technologies