Artificial intelligence-based studies have a great interest in creating decision support systems in business sectors, producing effective outputs, increasing system efficiency and providing cost-effective solutions. Especially in the development of the innovation process, the acceleration of the innovation process and its evolution into the target area, innovations are provided with artificial intelligence-based studies. In the realization of these innovations, data has a critical meaning for artificial intelligence-based studies. It plays an important role in the functionalization of models trained through algorithms by computers or special machines. However, insufficient data access, legal regulations, ethical rules, confidentiality procedures, privacy, data sharing limitations and cost; are major obstacles to revealing the potential of data. To overcome these obstacles, the synthetic data generation approach is preferred. But, since there is no standard framework for the synthetic data generation approach, research on the development of new and current approaches continues. In this study, a new synthetic data generation approach based on a genetic algorithm is proposed. In this direction, data diversity has been increased and a new generation has been obtained by using the crossover and mutation genetic operators adapted to the target dataset to produce artificial data in the dynamics of the original dataset. Then, the category definition of the artificial samples in this generation was done using the cost function component of the genetic algorithm. In the last stage, 6 different machine learning classifiers were used to measure the success of the similarity of the artificial data produced to the original data. The maximum sensitivity criterion was obtained as 100% with the Support Vector Machine classifier on the enriched dataset. This indicates that educational success tends to be in the positive direction in proportion to the increasing number of data.
Synthetic data generation genetic algorithm machine learning classifiers
Yapay zeka tabanlı çalışmalar, iş sektörlerinde karar destek sistemi oluşturmak, etkili çıktılar üretmek, sistem verimliliğini arttırmak ve maliyet etkin çözümler sunmak için büyük bir ilgi odağına sahiptir. Özellikle inovasyon sürecinin gelişmesinde, hızlanmasında ve hedef alana evrilmesinde yapay zeka tabanlı çalışmalar ile yenilikler sağlanmaktadır. Bu yeniliklerin gerçekleşmesinde veri, kritik bir anlama sahiptir. Algoritmalar vasıtasıyla eğitilen modellerin bilgisayarlar ya da özel makineler tarafından işlevselleştirilmesinde önemli bir rol oynamaktadır. Bununla birlikte yetersiz veri erişimi, yasal düzenlemeler, etik kurallar, gizlilik prosedürleri, mahremiyet, veri paylaşım kısıtı ve maliyet; verilerin sahip olduğu potansiyelin açığa çıkarılmasının önündeki engellerdir. Bu engelleri aşmak için sentetik veri üretme yaklaşımı tercih edilmektedir. Fakat sentetik veri üretme yaklaşımına ilişkin standart bir çerçeve olmadığı için yeni ve güncel yaklaşımların geliştirilmesine yönelik araştırmalar devam etmektedir. Bu çalışmada genetik algoritma temelli yeni bir sentetik veri üretme yaklaşımı önerilmiştir. Bu doğrultuda orijinal veri kümesinin dinamiğinde yapay veriler üretmek için hedef veri kümesine uyarlanan çaprazlama ve mutasyon genetik operatörleri kullanılarak veri çeşitliliği arttırılmıştır ve yeni bir nesil elde edilmiştir. Ardından üretilen bu nesildeki yapay örneklerin kategori tanımlaması, genetik algoritmanın maliyet fonksiyon bileşeni kullanılarak belirlenmiştir. Son aşamada üretilen yapay verilerin orijinal verilere benzerliğinin başarısını ölçmek için 6 farklı makine öğrenmesi sınıflandırıcısı kullanılmıştır. Zenginleştirilen veri kümesi üzerinde Destek Vektör Makinesi sınıflandırıcısı ile maksimum duyarlılık ölçütü, %100 olarak elde edilmiştir. Bu durum artan veri sayısı ile orantılı olarak eğitim başarısının pozitif yönde eğilim gösterdiğini ifade etmektedir.
Sentetik veri üretimi genetik algoritma makine öğrenmesi sınıflandırıcıları
Birincil Dil | Türkçe |
---|---|
Konular | Makine Öğrenme (Diğer) |
Bölüm | MBD |
Yazarlar | |
Yayımlanma Tarihi | 1 Eylül 2023 |
Gönderilme Tarihi | 26 Temmuz 2023 |
Yayımlandığı Sayı | Yıl 2023 |