The aim of the study is to select the appropriate method to solve the missing data problems affecting the data quality in wine production and to create a guide for wine producing businesses to refer to in the face of missing data problems. For this purpose, an incomplete data problem was created on the data set used in classifying the wines in terms of quality, in a way that disrupts the integrity, and the necessary steps for the solution of the problem were analyzed. In the study, the use of Wasserstein Generative Adversial Networks (WGAIN), an improved version of the Generator Adversial Networks (GAN) algorithm, is proposed for the missing data completion task. This new architecture was created with the idea of changing the cost function developed against the problems common in GANs and generalized so that it can cope with the unique features of the assignment problem. In the experiment performed with the real world dataset, it was determined that the values of the Root Mean Square Error (RMSE) obtained for WGAIN performed significantly better than the other imputation techniques.
Data quality missing data wine quality Wasserstein Generative Adversial Imputation Networks
Araştırmanın amacı şarap üretiminde veri kalitesini etkileyen eksik veri problemlerini çözmek için uygun yöntemin seçilmesi ve şarap üreten işletmeler için eksik veri problemleri karşısında başvurabilecekleri bir rehber oluşturmaktır. Bu amaç doğrultusunda şarapların kalite bakımından sınıflandırmasında kullanılan veri seti üzerinde bütünlüğü bozacak şekilde eksik veri problemi yaratılmış ve problemin çözümü için gerekli aşamalar analiz edilmiştir. Çalışmada eksik veri tamamlama görevi için üretici modeller sınıfına giren Üretici Çekişmeli Ağlar (GAN-Generative Adversial Networks) algoritmasının geliştirilmiş versiyonu Wasserstein Üretici Çekişmeli Atama Ağları (WGAIN-Wasserstein Generative Adversial Imputation Networks) kullanımı önerilmiştir. Bu yeni mimari, GAN’larda sıklıkla görülen problemlere karşı geliştirilmiş maliyet fonksiyonunun değiştirilmesi fikriyle oluşturulmuş ve atama probleminin benzersiz özellikleri ile başa çıkabileceği şekilde genelleştirilmiştir. Gerçek dünya veri kümesiyle yapılan deneyde, WGAIN için elde edilen hata karelerinin kök ortalaması (RMSE-Root Mean Square Error) değerleri ile diğer atama tekniklerinden önemli ölçüde daha iyi performans gösterdiği tespit edilmiştir.
Veri Kalitesi Eksik Veri Üretici Wasserstein Üretici Çekişmeli Atama Ağları Şarap Kalitesi.
Birincil Dil | Türkçe |
---|---|
Konular | Turizm (Diğer) |
Bölüm | Özgün Bilimsel Makale |
Yazarlar | |
Yayımlanma Tarihi | 21 Haziran 2021 |
Gönderilme Tarihi | 28 Mayıs 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 5 Sayı: 1 |