There are many association rules mining studies that focus on datasets with binary or discrete values. However, the data in real-world applications are generally composed of quantitative values. In association rules discovered within quantitative data, it is very hard to determine which attributes will be included in the rules to be discovered and which ones will be on the left of the rule and which ones on the right; to automatically adjust of most relevant ranges for numerical attributes; to rapidly discover the reduced high-quality rules directly without generating the frequent itemsets; to ensure the rules to be comprehensible, surprising, interesting, accurate, confidential, and etc.; to adjust all of these processes without the need for the metrics to be pre-determined for each dataset. Recently, some researchers have considered quantitative association rule mining as a multi-objective problem that best meets different criteria at the same time. In this paper, the parameter analysis of non-dominated sorting genetic algorithm-II based QAR-CIP-NSGA-II, which aims to maximize comprehensibility, interestingness, and performance for quantitative association rule mining problem, has been performed. For this purpose, to the best of our knowledge the effects of the parameters of QAR-CIP-NSGA-II such as the number of evaluations, population number, mutation probability, amplitude and threshold value to the number of rules obtained, average support, confidence, lift, certainty factor, netconf, and the number of records covered in five real-world data whose attributes consist of quantitative values have been carried out for the first time in this study. Detailed sensitivity analysis results are presented and interpreted in comparative tables.
quantitative association rules mining multi-objective optimization non-dominated sorting genetic algorithm-II
İkili ya da kesikli değerlere sahip veri kümelerine odaklanan birçok birliktelik kural madenciliği çalışması vardır. Ancak, gerçek dünya uygulamalarındaki veriler genellikle nicel değerlerden oluşmaktadır. Nicel veriler için keşfedilecek kurallarda hangi niteliklerin olacağı ve hangilerinin kuralın solunda hangilerinin sağında olacağının belirlenmesi, ilgili nicel aralıkların en uygun şekilde otomatik ayarlanması; kuralların yoğun nesne kümeleri üretilmeden tek aşamada anlaşılabilir, doğru, güvenilir, ilginç, sürpriz vb. özelliklere sahip olacak şekilde bulunması ve tüm bu işlemlerin her veri tabanı için önceden belirlenmesi gereken metriklere ihtiyaç duyulmadan ayarlanması zor bir problemdir. Yakın zamanda bazı araştırmacılar, nicel birliktelik kural madenciliğini, farklı kriterleri aynı anda en iyi şekilde karşılayacak şekilde, çok amaçlı bir problem olarak düşünmüşlerdir. Bu makalede nicel birliktelik kural madenciliği problemi için anlaşılabilirlik, ilginçlik ve performansı en üst düzeye çıkarmayı amaçlayan çok amaçlı evrimsel algoritmalardan baskın olmayan sıralama genetik algoritma-II temelli QAR-CIP-NSGA-II’nin parametre analizi yapılmıştır. Bu amaçla; nitelikleri nicel değerler alan beş gerçek dünya verisinde QAR-CIP-NSGA-II’nin değerlendirme sayısı, popülasyon sayısı, mutasyon olasılığı, genlik ve eşik değeri gibi parametrelerinin; elde edilen kural sayısı, ortalama destek, güven, lift, kesinlik faktörü, netconf ve kapsanan kayıt sayısını nasıl değiştirdiği kapsamlı bir şekilde bildiğimiz kadarıyla ilk kez bu çalışmada gerçekleştirilmiştir. Detaylı analiz sonuçları karşılaştırmalı tablolar ile sunulmuştur ve yorumlanmıştır.
nicel birliktelik kural madenciliği çok amaçlı optimizasyon baskın olmayan sıralama genetik algoritma-II
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ocak 2020 |
Gönderilme Tarihi | 26 Aralık 2018 |
Yayımlandığı Sayı | Yıl 2020 |