Machine learning is a powerful decision support system used in analyzing and evaluating real-life data. This system aims to create new solutions and improve performance. Therefore, it is related to the field of data science. There are data on the basis of this relationship The effectiveness of drawing meaningful insights from data depends on the quality of the model's training. To improve this performance, the variety of combinations among the data and the total number of data in the dataset should be increased. But in this topic, insufficient data access, legal regulations, ethical rules, confidentiality procedures, privacy, data sharing restrictions and cost parameters are obstacles. Synthetic data generation is a basic step in the field of data science in order to solve all these problems, improve functionality and provide powerful machine-learning inferences. Therefore, a new synthetic data generation approach consisting of 3 basic stages is proposed in this study. In the first stage, synthetic data production similar to the distribution of the original data was carried out with the modified ABC (Artificial Bee Colony) optimization algorithm. In the second stage, the category information of the independent variables was determined by the statistical evaluation analyzed with regression methods among the artificial data produced. In the third stage, the efficiency and applicability of the artificial data produced were evaluated with supervised machine learning classifiers. As a result of the evaluation, it has been proven that the proposed synthetic data generation approach improves the performance of machine learning classifiers in proportion to the increasing number of data. The decision tree algorithm that showed maximum performance produced success rates of 100%, 92.5%, 100%, 85%, and 66% on 5 separate enriched datasets, respectively.
Synthetic data generation Modified ABC optimization algorithm R-squared coefficient Polynomial regression Decision tree classifier
Makine öğrenmesi, gerçek yaşam verilerini analiz etmede ve değerlendirmede kullanılan güçlü bir karar destek sistemidir. Bu sistem, yeni çözümler üretmeyi ve performansı iyileştirmeyi amaçlamaktadır. Bu nedenle, veri bilimi alanıyla ilişkilidir. Bu ilişki temelinde veriler vardır. Verilerden anlamlı içgörüler çıkarma etkinliği, model eğitiminin kalitesine bağlıdır. Bu performansı iyileştirmek için, veriler arasındaki kombinasyonların çeşitliliği ve veri kümesindeki toplam veri sayısı artırılmalıdır. Ancak bu konuda, yetersiz veri erişimi, yasal düzenlemeler, etik kurallar, gizlilik prosedürleri, gizlilik, veri paylaşımı kısıtlamaları ve maliyet parametreleri engellerdir. Tüm bu sorunları çözmek, işlevselliği iyileştirmek ve güçlü makine öğrenimi çıkarımları sağlamak için sentetik veri üretimi, veri bilimi alanında temel bir adımdır. Bu nedenle, bu çalışmada 3 temel aşamadan oluşan yeni bir sentetik veri üretimi yaklaşımı önerilmiştir. İlk aşamada, orijinal verilerin dağılımına benzer şekilde sentetik veri üretimi, modifiye edilmiş ABC (Yapay Arı Kolonisi) optimizasyon algoritması ile gerçekleştirilmiştir. İkinci aşamada, üretilen yapay veriler arasında regresyon yöntemleriyle analiz edilen istatistiksel değerlendirme ile bağımsız değişkenlerin kategori bilgileri belirlenmiştir. Üçüncü aşamada, üretilen yapay verilerin etkinliği ve uygulanabilirliği, makine öğrenimi sınıflandırıcıları ile değerlendirilmiştir. Değerlendirme sonucunda, önerilen sentetik veri üretim yönteminin, veri sayısının artışı ile orantılı olarak makine öğrenmesi sınıflandırıcılarının performansını artırdığı kanıtlanmıştır Maksimum performans gösteren karar ağacı algoritması, zenginleştirilmiş 5 ayrı veri kümesi üzerinde sırasıyla %100, %92.5, %100, %85, %66 başarı oranları üretmiştir.
Sentetik veri üretimi Değiştirilmiş ABC optimizasyon algoritması R-kare katsayısı Polinom regresyonu Karar ağacı sınıflandırıcısı
Birincil Dil | İngilizce |
---|---|
Konular | Yazılım Mühendisliği (Diğer) |
Bölüm | Bilgisayar Mühendisliği / Computer Engineering |
Yazarlar | |
Yayımlanma Tarihi | 1 Aralık 2024 |
Gönderilme Tarihi | 4 Haziran 2024 |
Kabul Tarihi | 12 Eylül 2024 |
Yayımlandığı Sayı | Yıl 2024 |