Machine learning algorithms are widely used in product sorting processes in the food industry. The
attributes of the products are used in the classification process. Attributes vary for each product. In this
study, using the k nearest neighbor (KNN) algorithm, the classification of the wheat groups of Kama,
Rosa and Canada was performed. The Seeds dataset provided in UCI (University of California, Irvine)
machine learning open source data storage was used. There are 70 examples of each wheat class in the
data set. In addition, the classification estimation success of distance metrics and the number of training
data was measured. Each of the wheat samples was randomly selected and a soft X-ray technique was
used to visualize the inner core structure of the wheat in the experimental environment with high
quality. According to the training rates ranging from 50% to 90% of the data set, the classification
success of the KNN algorithm was tested. In the KNN algorithm, the neighborhood values 1, 3 and 5
were selected to affect the classification success. The successes of the Euclidean, Chebyshev,
Manhattan and Mahalanobis distance metric methods of the KNN algorithm were tested according to
each k neighborhood value. According to the results obtained, with the Mahalanobis metric method, a
classification success rate of 0.9924 accuracy was obtained according to the AUC (Area Under the Curve)
success metric by using the neighborhood value of k = 3. In the literature, there is no study comparing
the KNN algorithm, neighborhood values and distance vectors together on food data sets using varying
training and test data. Therefore, it is thought that the study will make an important contribution to
the literature.
Machine learning Classification Seeds dataset Distance metric methods Random sampling KNN algorithm
Makine öğrenmesi algoritmaları, gıda sektöründe ürün sınıflandırma işlemlerinde yaygın olarak
kullanılmaktadır. Sınıflandırma işleminde ürünlerin öznitelikleri kullanılmaktadır. Öznitelikler her ürüne
göre değişiklik göstermektedir. Bu çalışmada, k en yakın komşu (KNN) algoritması kullanılarak, Kama,
Rosa ve Kanada buğday gruplarının sınıflandırması gerçekleştirilmiştir. UCI (University of California,
Irvine) makine öğrenme açık kaynak veri depolama alanında temin edilen Seeds veri seti kullanılmıştır.
Veri setinde her buğday sınıfına ait 70 örnek mevcuttur. Ayrıca uzaklık metriklerinin ve eğitim veri
sayısının sınıflandırma tahmin başarısı ölçülmüştür. Her bir buğday örneği rastgele seçilerek, deney
ortamında buğdayların iç çekirdek yapısının yüksek kalitede görselleştirilmesi için yumuşak bir X-ışını
tekniği kullanılmıştır. Veri setinin %50 ile %90 arasında değişen eğitim oranlarına göre KNN
algoritmasının sınıflandırma başarısı test edilmiştir. KNN algoritmasında sınıflandırma başarısını etkilen
k komşuluk değeri 1, 3 ve 5 seçilmiştir. Her k komşuluk değerine göre KNN algoritmasının Euclidean,
Chebyshev, Manhattan ve Mahalanobis uzaklık metrik yöntemlerinin başarıları test edilmiştir. Elde
edilen sonuçlara göre Mahalanobis metrik yöntemiyle, k=3 komşuluk değeri kullanılarak,
AUC(Area Under the Curve: Eğri Altındaki Alan) başarı metriğine göre, 0.992 doğrulukta sınıflandırma
başarısı elde edilmiştir. Literatürde, değişen eğitim ve test verileri kullanılarak gıda veri setleri üzerinde,
KNN algoritmasının, komşuluk değerlerinin ve uzaklık vektörlerinin birlikte kıyaslandığı bir çalışmaya
rastlanmamıştır. Bundan dolayı yapılan çalışmanın, literatüre önemli katkı sağlayacağı düşünülmektedir.
Makine öğrenmesi Sınıflandırma Seeds veri seti KNN algoritması Uzaklık metrik yöntemleri Rastgele örnekleme
Primary Language | English |
---|---|
Subjects | Artificial Intelligence |
Journal Section | Articles |
Authors | |
Early Pub Date | October 27, 2023 |
Publication Date | October 30, 2023 |
Submission Date | March 12, 2023 |
Published in Issue | Year 2023 Volume: 23 Issue: 5 |
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.