Makine öğrenimi, derin öğrenme algoritmaları kullanarak insan zekâsını taklit eden bir teknolojidir. Öğrenme algoritmaları yalnızca sayısal veri kümeleri üzerinde çalışır. Kategorik veri kümeleri nitel veya nicel verilerden oluşur. Nitel veri setlerinin öğrenme algoritmalarında kullanılabilmesi için veri setinin sayısallaştırılması gerekmektedir. Sayısallaştırma için etiket kodlama, sıralı kodlama, toplam kodlama, ikili kodlama ve sıcak kodlama gibi birçok kodlama tekniği vardır ancak bu kodlama teknikleri performans, maliyet ve kullanım açısından bazı güçlükler ve yetersizlikleri barındırmaktadır. Diğer taraftan bir kodlama tekniği ile elde edilen eğitim çıktısının orijinalinin bilinmesine ihtiyaç duyulabilmektedir. Bu çalışma, kategorik verilerin sayısallaştırılmasında kodlama tekniklerinin kullanılmasından kaynaklanan yetersizliklere çözüm olabilecek, daha özgün ve daha iyi performansa sahip bir altyapı oluşturma arayışının bir sonucu olarak ortaya çıkmıştır. Geliştirilen yöntem uluslararası bir lojistik firmada 7 farklı kategoride toplam 46 kategorik özellik ve 80.154.139 adet veri üzerinden uygulanmıştır. Testlerin sonucuna göre veri setleri bazında %23.07 ile %300.13 arasında toplamda %153.62 performans kazancı elde edilmiştir. Bu sonuçlar, geliştirilen yöntemin daha başarılı ve uygulanabilir olduğunu göstermektedir. Çalışma, yüksek performans kazancı ve özgün yapısı ile benzer alanlarda kolaylıkla kullanılabilecek bir yapıya sahiptir. Makine öğrenmesinde kodlama tekniklerinin kullanımına alternatif bir çözüm sunmuştur.
Machine learning is a technology that mimics human intelligence using deep learning algorithms. Learning algorithms only work on numerical datasets. Categorical datasets consist of qualitative or quantitative data. In order for qualitative data sets to be used in learning algorithms, the data set must be digitized. There are many coding techniques for digitization, such as label coding, sequential coding, total coding, binary coding and hot coding, but these coding techniques have some difficulties and inadequacies in terms of performance, cost and use. On the other hand, it may be necessary to know the original of the training output obtained with a coding technique. This study has emerged as a result of the search for a more original and better performing infrastructure that can be a solution to the inadequacies arising from the use of coding techniques in the digitization of categorical data. The developed method was applied on a total of 46 categorical features and 80.154.139 pieces of data in 7 different categories in an international logistics company. According to the results of the tests, a total of 153.62% performance gain was obtained between 23.07% and 300.13% on the basis of data sets. The study has a structure that can be used easily in similar areas with its high performance gain and original structure. It offered an alternative solution to the use of coding techniques in machine learning.
Primary Language | Turkish |
---|---|
Subjects | Artificial Intelligence, Computer Software |
Journal Section | Research Articles |
Authors | |
Early Pub Date | December 27, 2022 |
Publication Date | March 15, 2023 |
Submission Date | July 4, 2022 |
Published in Issue | Year 2023 Volume: 6 Issue: 1 |
Journal
of Intelligent Systems: Theory and Applications