Companies and their supply chains have expanded significantly, especially with the Covid-19 pandemic, as people's shopping preferences shift to more digital environments. This expansion brings with it an increase in the number of invoices. By law, it has become mandatory to digitize and store physical invoices. With this necessity, automatic classification of digitalized invoices and automatic extraction of the requested information when necessary has become a very important need. Various studies involving different learning algorithms have been carried out, especially for the automatic analysis of invoices in English and other languages. However, there does not appear to be enough studies and publicly available datasets to automatically analyze and classify Turkish-language invoices. Based on this motivation, in this study, we aimed to analyze the performance of different feature selection methods on the problem of classification of Turkish language invoices with ensemble learning models. We performed 2 datasets of 15k and 50k sizes, in which we created our experiments. We observed the performance effects of Information Gain, Chi Square, Gain Ratio, Back-Feed feature selection methods on K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Naive Bayes (NB), Random Forest (RO), Adaboost ensemble learning classification algorithms and Sprinkling technique on these datasets. According to the experimental results, the highest classification success was obtained by using the Back-Feed feature selection method and Adaboost ensemble learning algorithm together. As far as we know, this study is the first study on the solution of the problem of classification of Turkish invoices using the Sprinkling technique with ensemble learning algorithms. Therefore, in order to contribute to the literature in the field of Turkish invoice classification, the datasets and improved algorithms used in this study have been made available to other researchers.
Financial Analysis Ensemble Learning Algorithms Feature Selection Methods Sprinkling technique machine learning.
Özellikle Covid-19 pandemisiyle birlikte insanların alışveriş tercihlerinin daha çok dijital ortamlara geçmesiyle birlikte şirketler ve tedarik zincirleri de ciddi manada genişledi. Bu genişleme beraberinde fatura sayılarında da artışı getiriyor. Kanunen fiziki faturaların dijitalleştirilmesi ve saklanması zorunlu hale geldi. Bu zorunlulukla beraber dijitalleşmiş faturaların otomatik olarak sınıflandırılması ve gerekli durumlarda istenilen bilgilerin otomatik olarak çıkartılması çok önemli bir ihtiyaç haline gelmiştir. Özellikle İngilizce dilindeki ve diğer dillerdeki faturaların otomatik yöntemlerle analiz edilmesi için farklı öğrenme algoritmaları içeren çeşitli çalışmalar yapılmıştır. Ancak Türkçe dilindeki faturaların otomatik olarak analiz edilmesi ve sınıflandırılması için yeterli miktarda çalışma ve kamuya açık veri kümesi olmadığı görülmektedir. Bu motivasyonla yola çıkarak bu çalışmada, farklı özellik seçimi yöntemlerinin Türkçe dilindeki faturaların topluluk öğrenme modelleri ile sınıflandırılması problemi üzerindeki performansını analiz etmeyi amaçladık. Deneylerimizi oluşturduğumuz 15k ve 50k boyutlarındaki 2 adet veri kümesi üzerinde gerçekleştirdik. Bu veri kümeleri üzerinde Bilgi Kazancı, Chi Kare, Kazanç Oranı, Geriye Beslemeli özellik seçimi yöntemlerinin K-En Yakın Komşu (KNN), Destek Vektör Makineleri (DVM), Naif Bayes (NB), Rassal Orman (RO), Adaboost topluluk öğrenme sınıflandırma algoritmalarının ve Serpme (Sprinkling) tekniğinin performans etkilerini gözlemledik. Deneysel sonuçlara göre en yüksek sınıflandırma başarısı Geriye Beslemeli özellik seçimi yöntemi ve Adaboost topluluk öğrenme algoritmasının birlikte kullanılması ile elde edilmiştir. Bildiğimiz kadarıyla bu çalışma Serpme (Sprinkling) tekniğinin topluluk öğrenme algoritmalarıyla beraber Türkçe faturaların sınıflandırılması probleminin çözümü üzerine ve bu kapsamda yapılmış ilk çalışma olma özelliğini taşımaktadır. Türkçe fatura analizi ile ilgili kaynakların yetersiz olmasından ötürü Türkçe fatura analizi üzerine yapılan çalışmalar da oldukça kısıtlı sayıdadır. Dolayısıyla, Türkçe fatura sınıflandırması alanında literatüre katkıda bulunabilmek için bu çalışmada kullanılan veri kümeleri ve geliştirilmiş algoritmalar diğer araştırmacıların erişimine açık hale getirilmiştir.
Finansal Analiz Topluluk Öğrenme Algoritmaları Özellik Seçimi Yöntemleri Serpme tekniği Makine öğrenmesi.
Birincil Dil | Türkçe |
---|---|
Konular | Elektronik Belge Yönetim Sistemleri, Bilgi Sistemleri (Diğer), Makine Öğrenme (Diğer), Veri Madenciliği ve Bilgi Keşfi |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 28 Aralık 2023 |
Yayımlanma Tarihi | 15 Aralık 2023 |
Yayımlandığı Sayı | Yıl 2023 Sayı: 52 |