With the developments in informatics and the increasing volume and diversity of data, the concept of big data has entered our lives and brought many challenges with it. The usefulness of data has gained great importance and the performance of some commonly used data processing methods have begun to be insufficient. These problems have been tried to be solved by using artificial intelligence and machine learning techniques that find more effective solutions. The aim of this study is to run well-known and frequently used machine learning algorithms on a public dataset, to compare their performance results comparatively, and present the best performant ones. A public data on diamonds is preprocessed, descriptive analysis is performed, and various regression models to predict the corresponding prices are run, both in their primitive and optimized forms, GBM models (especially Light GBM) and random forest algorithm have the lowest RMSE values and highest r2 values compared to other models.
Regression models Machine learning Price prediction Linear regression Non-linear regression
Bilişim dünyasındaki gelişmeler ile artan veri hacmi ve çeşitliliği ile birlikte, hayatımıza büyük veri kavramı girmiş ve beraberinde birçok zorluğu da peşinde getirmiştir. Verinin işlenebilirliği büyük bir önem kazanmış ve güncel kullanılan bazı veri işleme yöntemlerinin performansı yetersiz gelmeye başlamıştır. Büyük veri analizinde yapay zekâ ve makine öğrenmesi teknikleri kullanılarak bu sorunlar çözülmeye çalışılmakta ve gün geçtikçe daha etkin çözümler bulan algoritmalar önerilmeye devam edilmektedir. Bu çalışmanın amacı, iyi bilinen ve sıklıkla kullanılan regresyon algoritmalarını bir veri kümesi üzerinde çalıştırmak, performans sonuçlarını karşılaştırarak en iyi sonuç verenleri sunmaktır. Makalede pırlantaların kesimi, rengi, berraklığı ve fiyatı gibi özellikleri barındıran açık bir veri kümesi kullanılmıştır. Verilerin ön işlemesi yapılmış, tanımlayıcı analiz gerçekleştirilmiş ve fiyatlarının tahmini için farklı regresyon modelleri hem ilkel hem de optimize edilmiş halleriyle çalıştırılmıştır. Regresyon modelleri içinden diğerlerine kıyasla daha düşük RMSE ve daha yüksek r2 değerleri GBM modelleri (özellikle Light GBM) ve rassal orman algoritmasında alınmıştır.
Regresyon Modelleri Makine Öğrenmesi Fiyat Tahmini Doğrusal Regresyon Doğrusal Olmayan Regresyon
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Bilgisayar Mühendisliği |
Yazarlar | |
Yayımlanma Tarihi | 14 Ekim 2022 |
Gönderilme Tarihi | 16 Mart 2022 |
Kabul Tarihi | 18 Temmuz 2022 |
Yayımlandığı Sayı | Yıl 2022 |