The increasing complexity of financial fraud necessitates the early and accurate detection of suspicious behaviors in credit card transactions for robust financial security systems. In this study, a hybrid model integrating K-medoids-based unsupervised clustering with various supervised classification algorithms is proposed. The model partitions the dataset into subgroups to enable classifiers to learn from more homogeneous patterns, thereby enhancing the overall classification performance. The experimental setup utilizes a publicly available credit card dataset comprising 284,807 anonymized transactions collected from Europe, where feature anonymization is achieved through Principal Component Analysis (PCA). The impact of different training-to-test splits (30%, 40%, and 80%) on model performance is systematically evaluated. On the clustered data, a diverse set of classification models is applied, including Logistic Regression, Support Vector Machines, Artificial Neural Networks, Random Forest, XGBoost, Gradient Boosting, Hard and Soft Voting Ensembles, as well as BERT-based transformer models (BERT, XML-RoBERTa, DistilBERT, Electra). In addition, three supervised filter-based feature selection methods—Information Gain, Fisher Score, and Chi-Squared—are employed to assess their effects on classification performance. The experimental results indicate that the Gradient Boosting algorithm achieves the highest F1 score, reaching up to 98.26%, especially when combined with Fisher Score-based feature selection. Both Information Gain and Fisher Score techniques significantly enhance the classification performance by capturing inter-class discriminative power. However, the Chi-Squared method exhibits comparatively lower effectiveness due to its incompatibility with the transformed and continuous nature of the dataset. Overall, the findings demonstrate that clustering-assisted hybrid classification architectures provide superior accuracy and generalizability in high-dimensional, imbalanced datasets and offer a promising framework for developing intelligent fraud detection systems.
Machine Learning Fraud Detection Classification Algorithms Suspicious Behavior Detection Data Analysis
Finansal dolandırıcılıkların giderek artan karmaşıklığı karşısında, kredi kartı işlemlerinde şüpheli davranışların erken ve doğru şekilde tespiti, güvenlik sistemleri açısından kritik bir gereksinim haline gelmiştir. Bu çalışmada, K-medoids tabanlı kümeleme ile denetimli sınıflandırma algoritmalarının entegrasyonundan oluşan hibrit bir model önerilmiştir. Model, veri kümesini alt gruplara ayırarak sınıflandırıcıların daha homojen örüntüler üzerinde eğitilmesini sağlamakta ve genel sınıflandırma başarımını artırmayı hedeflemektedir. Çalışma kapsamında, Avrupa'da gerçekleşmiş 284.807 işlemden oluşan, PCA dönüşümleriyle anonimleştirilmiş bir kredi kartı veri seti kullanılmıştır. Eğitim verisi oranları %30, %40 ve %80 olarak belirlenmiş ve bu oranların model başarımı üzerindeki etkisi sistematik olarak incelenmiştir. K-medoids kümelenmiş veri üzerinde Lojistik Regresyon, Destek Vektör Makineleri, Yapay Sinir Ağları, Rastgele Orman, XGBoost, Gradyan Artırma, Hard/Soft Voting Ensemble ve BERT tabanlı modeller (BERT, XML-RoBERTa, DistilBERT, Electra) çalıştırılmıştır. Ayrıca, filtre tabanlı Bilgi Kazancı, Fisher Skor ve Ki-kare özellik seçimi tekniklerinin algoritma performansları üzerindeki etkisi detaylı şekilde analiz edilmiştir. Deneysel sonuçlar, özellikle Gradyan Artırma algoritmasının %98.26 F1 skoruna ulaşarak en yüksek başarıyı elde ettiğini göstermiştir. Bilgi Kazancı ve Fisher Skor yöntemleri sınıflar arası ayrımı daha etkili biçimde modelleyerek sınıflandırma performansını artırırken, Ki-kare yöntemi, veri setinin sürekli ve dönüşümlü doğası nedeniyle daha düşük doğruluk oranlarına ulaşmıştır. Elde edilen bulgular, kümeleme destekli hibrit sınıflandırma yaklaşımlarının, dengesiz dağılımlı yüksek boyutlu veri setleri üzerinde yüksek doğruluk ve genellenebilirlik sunduğunu ortaya koymakta ve sahtekarlık tespitine yönelik karar destek sistemlerinin geliştirilmesinde etkin bir çerçeve sunmaktadır.
Şüpheli Davranış Tespiti Dolandırıcılık Tespiti Boosting BERT k-medoids Kümeleme
| Birincil Dil | Türkçe |
|---|---|
| Konular | Nöral Ağlar, Takviyeli Öğrenme |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Erken Görünüm Tarihi | 30 Haziran 2025 |
| Yayımlanma Tarihi | 30 Haziran 2025 |
| Gönderilme Tarihi | 20 Şubat 2025 |
| Kabul Tarihi | 24 Nisan 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 16 Sayı: 2 |