Imbalanced or unbalanced datasets are defined as the highly skewed distribution of target variable in the field of machine learning. Imbalanced datasets have greatly caught the attention of researchers due to their negative effect on machine learning models in the last decade. Researchers develop various solutions to the problems of imbalanced datasets and contribute to the literature.
The increasing number of articles makes it difficult to follow the literature. Review articles contribute to the solution of this problem. The goal of this study is to conduct a bibliometric analysis to find solutions for classification with imbalanced datasets. Bibliometric analysis is a quantitative technique based on extracting statistics from databases. This work is the first bibliometric analysis to address the problem of imbalanced datasets.
In this study, data on imbalanced datasets were obtained from the Scopus database with the R Bibliometrix package version 3.1.4, and recent studies and new approaches were summarized. Data on 16255 publications between 1957-2021 were collected by using selected keywords. This collection mainly comprises 8871 articles, 6987 conference papers, and 175 reviews with 1, 66 average citations per year per document. Among the most cited countries, the United States has 106139 total citations followed by China with 13839 citations and Germany has 9524 citations.
Imbalanced learning classification sampling methods cost-sensitive learning evaluation metrics bibliometric
Dengesiz veri kümeleri, makine öğrenimi alanında hedef değişkenin oldukça çarpık dağılımı olarak tanımlanmaktadır. Dengesiz veri kümeleri, makine öğrenimi modelleri üzerindeki olumsuz etkilerinden dolayı son on yılda araştırmacıların dikkatini büyük ölçüde çekmiştir. Araştırmacılar dengesiz veri kümeleri sorunlarına çeşitli çözümler geliştirip literatürde paylaşmaktadır.
Artan makale sayısı literatürü takip etmeyi zorlaştırmaktadır. Derleme makaleleri bu sorunun çözümüne katkıda bulunur. Bu çalışmada, dengesiz veri kümeleriyle sınıflandırmadaki çözüm önerilerini bulmak için bibliyometrik bir analiz yapılması amaçlanmaktadır. Bibliyometrik analiz, veri tabanlarından istatistik çıkarmaya dayalı nicel bir tekniktir. Bu çalışma, dengesiz veri kümeleri problemini ele alan ilk bibliyometrik analizi olma niteliğindedir.
Bu çalışmada, Scopus veri tabanından, dengesiz veri kümeleriyle ilgili veri, R Bibliometrix package version 3.1.4 ile elde edilerek son çalışmalar ve yeni yaklaşımlar özetlendi. Seçilen anahtar kelimeler ile 1957-2021 yılları arasında 16255 yayına ilişkin veriler toplandı. Bu koleksiyon temel olarak 8871 makale, 6987 konferans bildirisi ve 175 derlemeden oluşmaktadır ve belge başına atıf sayısı yılda ortalama 1,66’dır. En çok atıf yapılan ülkeler arasında 106139 toplam atıf ile Amerika Birleşik Devletleri'ni, 13839 atıf ile Çin ve 9524 atıf ile Almanya takip etmektedir.
dengesiz öğrenim sınıflandırma örnekleme yöntemleri maliyet duyarlı çözüm değerlendirme metrikleri bibliyometrik
Primary Language | English |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2022 |
Submission Date | November 4, 2021 |
Published in Issue | Year 2022 |