DEĞİŞKENLER ARASI FARKLI İLİŞKİ TİPLERİNDE M5-PRIME VE DOĞRUSAL REGRESYON YÖNTEMLERİNİN KARŞILAŞTIRMASI
Yıl 2021,
Cilt: 22 Sayı: 1, 744 - 771, 30.04.2021
Hüseyin Yıldız
,
Alperen Yandı
Öz
Bu çalışmada sosyal bilimlerde karşılaşılabilecek değişkenler arası ilişkilerin farklı tiplerinde M5-Prime ve doğrusal regresyon yöntemlerinin karşılaştırılması amaçlanmıştır. Bu doğrultuda farklı ilişki tipine sahip dört farklı veri seti üretilmiştir. Her bir veri seti türü için 3000 replikasyon yapılmıştır. Veri setlerinin üretiminde R programlama dili kullanılmıştır. Üretilen dört veri setinden ilkinde değişkenler arası ilişkinin yönü ve gücü sabit şekildedir. Diğer veri setlerinde ise bağımsız değişkenin farklı düzeylerinde, değişkenler arası ilişkiler de farklılaşmaktadır. İki farklı yöntemle yapılan analizlerde elde edilen korelasyon katsayısı (R), açıklanan varyans oranı (R2), ortalama mutlak hata, RMSE, göreceli mutlak hata değerleri incelenmiştir. Analizlerin tümü R programlama dilinin RWeka paketi kullanılmıştır. Analiz sonuçlarına göre dört farklı tipteki veri setinden ilkinde M5-Prime ve doğrusal regresyon yöntemleri eş değer sonuçlar vermiştir. İlişkinin yön ve gücünün değişkenlik göstermediği bu veri seti doğrusal regresyon içi en uygun yapıda olan veri setidir. Diğer üç tip veri seti için elde edilen sonuçlara göre ise ilişkinin açıklanması sürecinde M5-Prime yönteminin daha uygun sonuçlar verdiğine ulaşılmıştır. Bu bağlamda araştırmacıların değişkenler arası ilişkilerin çeşitlendiği durumlarda M5-Prime algoritmasını kullanması önerilebilir.
Teşekkür
Dergi ekibine teşekkür eder, sağlıklı günler dileriz.
Kaynakça
- Anscombe, F. J. (1973). Graphs in Statistical Analysis. The American Statistician 27, 17–21.
- Breiman, L. & Friedman, J.H. (1985). Estimating Optimal Transformations for Multiple Regression and Correlation. Journal of the American Statistical Association 80, 580–598
- Breiman, L., Friedman, J., Stone, C. J. & Olshen, R. A. (1984). Classification and regression trees. CRC press.
- Byrne, B. M. (1998). Structural Equation Modeling with LISREL, PRELIS and SIMPLIS: Basic Concepts, Applications and Programming. Mahwah, New Jersey: Lawrence Erlbaum Associates.
- Chatterjee, S. & Simonoff J. S. (2013). Handbook of Regression Analysis. Canada: John & Sons, Inc., Hoboken.
- Cox, D. R. (1981). Statistical Analysis of Time Series: Some Recent Developments. Scandinavian Journal of Statistics 8, 93–115.
- Díaz, I., Mazza, S. M., Álvarez, E. F. C., Giménez, L. I. & Gaiad, J. E. (2017). Machine learning applied to the prediction of citrus production. Spanish journal of agricultural research, 15(2), 7.
- Dumludag, D., Gokdemir, O. & Giray, S. (2016). Income comparison, collectivism and life satisfaction in Turkey. Quality & Quantity, 50(3), 955-980.
- Eugene, Y. K. & Johnston, R. G. (1996). The Ineffectiveness of the Correlation Coefficient for Image Comparisons, Technical Report LAUR-96-2474.
- González Sánchez, A., Frausto Solís, J. & Ojeda Bustamante, W. (2014). Predictive ability of machine learning methods for massive crop yield prediction. Spanish Journal of Agricultural Research, 12(2), 313-328. doi: http://dx.doi.org/10.5424/sjar/2014122-4439
- Güvercin, D. (2018) Terörizmin, Eğitimde Cinsiyet Eşitsizliği Üzerine Etkisi: Türkiye Üzerine İl Bazında Uygulamalı Çalışma. Journal of Yaşar University, 13(51), 281-292.
- Harma, M. (2008). The impact of parental control and marital conflict on adolescents’ self-regulation and adjustment. Unpublished master's thesis). Middle East Technical University, Ankara.
- Hornik, K., Buchta, C. & Zeileis, A. (2009). “Open-Source Machine Learning: R Meets Weka.” Computational Statistics, 24(2), 225-232. doi: 10.1007/s00180-008-0119-7.
- King, B. E., Rice, J. & Vaughan, J. (2018). Using Machine Learning to Predict National Hockey League Average Home Game Attendance. Journal of Prediction Markets, 12(1), 85-98. doi: https://doi.org/10.5750/jpm.v12i2.1608
- Lee, J. (1992). A Coutionary Note on the Use of the Correlation-Coefficient. British Journal of Industrial Medicine 49, 526–527
- Leech, N.L., Barrett, K. C. & Morgan, G.A. (2005). Spss for Intermediate Statistics: Use and Interpretation. London: Lawrence Erkbaum Associates Inc.
- Nguyen, H. V., Muller, E., Vreeken, J., Keller, F. & Bohm, F. (2013). CMI: An Information-Theoretic Contrast Measure for Enhancing Subspace Cluster and Outlier Detection. In Proceedings of the 2013 SIAM International Conference on Data Mining, Austin, TX, May 2–4, 198–206.
- Onwuegbuzie, A. J. & Daniel, L. G. (2002). Uses and Misuses of the Correlation Coefficient. Research in the Schools, 9, 73–90.
- Quinlan, J. R. (1992). Learning with continuous classes. In 5th Australian joint conference on artificial intelligence, 92, 343-348.
- Rodgers, J. L. & Nicewander. W. A. (1988). Thirteen Ways to Look At the Correlation Coefficient. The American Statistician, 42, 59–66.
- Shafiullah, G. M., Simson, S., Thompson, A., Wolfs, P. J. & Ali, A. B. M. S. (2008). Forecasting vertical acceleration railway wagons-A comparative study. In: 4th International Conference on Data Mining (DMIN'08), 14 - 17 July 2008, Las Vegas, NV.
- Tabachnick, B.G. & Fidell L.S. (2007). Using Multivariate Statistics. (Fifth Editition). ABD: Pearson Education.
- Wang, Y. & Witten, I. H. (1996). Induction of model trees for predicting continuous classes. (Working paper 96/23). Hamilton, New Zealand: University of Waikato, Department of Computer Science.