BÜYÜK VERİ ARAÇLARI VE R KULLANARAK AMERİKAN HAVAYOLU FİRMALARININ SORUNLARININ KEŞFEDİLMESİ
Yıl 2018,
Cilt: 2 Sayı: 2, 1 - 19, 31.12.2018
Mustafa Vahit Keskin
,
Doğan Yıldız
Öz
Büyük veri sistemleri
günümüzün büyük ölçekli veri analitiği ihtiyaçlarını çözmektedir. Bununla
birlikte R yazılımının istatistiksel hesaplama ve veri görselleştirme gücü ile
büyük veri araçlarının büyük ölçekli uygulamalar gerçekleştirebilme yetenekleri
birleştiğinde ortaya başarılı analiz sistemleri çıkmaktadır. Çalışma kapsamında
büyük veri araçları Apache Hadoop ve Apache Spark’a değinilmiş, disk bazlı
çalışan MapReduce programlama modeli ile bellek içi çalışan Apache Spark’ın
içyapısı arasındaki farklılıklara dikkat çekilmiştir. Makine öğrenmesi
yaklaşımları ele alınmış ve denetimli öğrenme ile denetimsiz öğrenme metotlar
arasındaki farklılıklar ifade edilmiştir. Teorik olarak denetimsiz öğrenme
yöntemlerinden kümeleme yöntemlerine, denetimli öğrenme yöntemlerinden karar
ağaçlarına değinilmiştir. Bu analiz yöntemleri Amerika Birleşik Devletleri
havayolu firmaları 1987-2008 yılları verisine uygulanmıştır. Havayolu
şirketlerinin uçtukları mesafeler ve uçuş gecikme performanslarına yönelik
kümeleme analizi yapılmıştır. Spesifik olarak bir havayolu şirketinin gecikme sürelerine
ilişkin çıkarımlar karar ağacı kullanılarak yapılmıştır. Ana akım havayolu
firmaları, analiz sonuçlarından hareketle en sorunlu kümeyi oluşturmuştur. Bu
sorunların özellikle kalkıştaki gecikme ve mesafeden kaynaklandığı gerçeği,
kümeleme analizi ve karar ağaçları sonuçlarından ortaya çıkmıştır.
Kaynakça
- De Mauro, A., Greco, M., & Grimaldi, M. (2015, February). What is big data? A consensual definition and a review of key research topics. In AIP conference proceedings (Vol. 1644, No. 1, pp. 97-104). AIP.
- Yengi, Y ., (2016). Büyük Veride Duygu Analizine Dayalı Öneri Sistemleri, Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli.
- What is big data (SAS). (20 Kasım 2015). Retrieved from http://www.sas.com/en_us/insights/big-data/what-is- big-data.html.
- Büyük Veri Analitiği Türleri(IBM), (03 Şubat 2018). Retrieved from http://www-01.ibm.com/comm Retrieved from on/ssi/cgibin/ssialias?infotype=SA%26subtype=WH%26htmlfid=TIW14162USEN.
- Salur, M.U., (2016). Büyük Veri Araçlarından Hadoop Kullanarak Veri Madenciliği, Yüksek Lisans Tezi, Pamukkale Üniversitesi Fen Bilimleri Enstitüsü, Denizli.
- Hadoop Offical Web Site, Apache Hadoop. (08 Şubat 2018). Retrieved from http://hadoop.apache.org.
- Apache Spark Offical Web Site, Apache Spark. (08 Şubat 2018). Retrieved from http://spark.apache.org.
- Apache Spark Official Page, SparkR. (08 Şubat 2018). Retrieved from https://spark.apache.org/docs/latest/sparkr.html.
- Alpaydin, E. (2004). Introduction to Machine Learning, Massachusetts.
- Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge university press.
- Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2012). Foundations of machine learning. MIT press.
- The Comprehensive R Archive Network. (2018). Retrieved from https://cran.r-project.org/
- Zaharia, M. (2016). An architecture for fast and general data processing on large clusters. Morgan & Claypool.
- Özdeş, M., (2017). Büyük Veri Araçları Kullanarak Duygu Analizi Gerçekleştirimi, Yüksek Lisans Tezi, Pamukkale Üniversitesi Fen Bilimleri Enstitüsü, Denizli.
- Stackoverflow.com, MapReduce Word Count Proccess Figure. (08 Şubat 2018). Retrieved from https://stackoverflow.com/questions/20317152/how-shuffling-is-done-in- mapreduce.
- Gonzalez, J. (2012). Parallel and Distributed Systems for Probabilistic Reasoning (No. CMU-ML-12-111). CARNEGIE-MELLON UNIV PITTSBURGH PA MACHINE LEARNING DEPT.
- Akgün, B., (2016). Apache Spark Tabanlı Destek Vektör Makineleri ile Akan Büyük Veri Sınıflandırma, Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
- rstudio.com, sparklyr. (08 Şubat 2018). Retrieved from http://spark.rstudio.com.
- Çetinkaya, S., (2016). Hadoop/MapReduce Teknolojisi Kullanılarak Hızlı Tüketim Sektöründe Büyük Veri Analizi, Yüksek Lisans Tezi, İstanbul Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
- Hallaç, İ.R., (2014). Büyük Veri Analizinde Dağıtık Makine Öğrenmesi Algoritmalarının Kullanılması, Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ.
- Decision tree. (2014). Retrieved from http://www.webcitation.org/query?url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FDecision_tree&date=2014-06-02.
- Decision tree learning.(2014). Retrieved from http://www.webcitation.org/query url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FDecision_tree_learning&date=2014-05-28.
- Karar Teorisi, Karar Ağacı ve Tıpta Uygulamaları.(2014). Retrieved from http://www.webcitation.org/query?url=http%3A%2F%2Fwww.saglikekonomisi.com%2Fsed%2Findex.php%2Fdergiarsivi%2Fsay-2%2F62-karar-teorisi-karar-agaci-vetipta uygulamalar+&date=2014-05-28.
- Moctezuma, L. E. G., Lobov, A., & Lastra, J. L. M. (2012, November). Decision making by using tree-like structures on industrial controllers. In ICT and Knowledge Engineering (ICT & Knowledge Engineering), 2012 10th International Conference on (pp. 77-83). IEEE.
- Anderberg, M. R. (1973). Cluster analysis for applications (No. OAS-TR-73-9). Office of the Assistant for Study Support Kirtland AFB N MEX.
- Bryan F.J., (1994). Multivariate Statistical Methods, Second Edition, Chapman - Hall, Londra.
- Alpar, Reha., (2013). Uygulamalı Çok Değişkenli İstatistiksel Yöntemler, Syf:318-319.
- Alpar, Reha., (2013). Uygulamalı Çok Değişkenli İstatistiksel Yöntemler.
- Çokluk, Ö., Şekercioğlu G., Büyüköztürk, Ş., (2010). Sosyal Bilimler için Çok Değişkenli İstatistik Spss ve Lisrel Uygulamaları, Pegem Akademi, Ankara.
- Data, G. O., Han, I., & Kamber, M. (2010). Data Mining: Concepts and Techniques. Morgan Kaufinann (2006).
- MacQueen, J. (1967, June). Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol. 1, No. 14, pp. 281-297).
- Xu, R., & Wunsch, D. (2005). Survey of clustering algorithms. IEEE Transactions on neural networks, 16(3), 645-678.
- Tan, P. N. (2006). Introduction to data mining. Pearson Education India.
Yıl 2018,
Cilt: 2 Sayı: 2, 1 - 19, 31.12.2018
Mustafa Vahit Keskin
,
Doğan Yıldız
Kaynakça
- De Mauro, A., Greco, M., & Grimaldi, M. (2015, February). What is big data? A consensual definition and a review of key research topics. In AIP conference proceedings (Vol. 1644, No. 1, pp. 97-104). AIP.
- Yengi, Y ., (2016). Büyük Veride Duygu Analizine Dayalı Öneri Sistemleri, Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli.
- What is big data (SAS). (20 Kasım 2015). Retrieved from http://www.sas.com/en_us/insights/big-data/what-is- big-data.html.
- Büyük Veri Analitiği Türleri(IBM), (03 Şubat 2018). Retrieved from http://www-01.ibm.com/comm Retrieved from on/ssi/cgibin/ssialias?infotype=SA%26subtype=WH%26htmlfid=TIW14162USEN.
- Salur, M.U., (2016). Büyük Veri Araçlarından Hadoop Kullanarak Veri Madenciliği, Yüksek Lisans Tezi, Pamukkale Üniversitesi Fen Bilimleri Enstitüsü, Denizli.
- Hadoop Offical Web Site, Apache Hadoop. (08 Şubat 2018). Retrieved from http://hadoop.apache.org.
- Apache Spark Offical Web Site, Apache Spark. (08 Şubat 2018). Retrieved from http://spark.apache.org.
- Apache Spark Official Page, SparkR. (08 Şubat 2018). Retrieved from https://spark.apache.org/docs/latest/sparkr.html.
- Alpaydin, E. (2004). Introduction to Machine Learning, Massachusetts.
- Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge university press.
- Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2012). Foundations of machine learning. MIT press.
- The Comprehensive R Archive Network. (2018). Retrieved from https://cran.r-project.org/
- Zaharia, M. (2016). An architecture for fast and general data processing on large clusters. Morgan & Claypool.
- Özdeş, M., (2017). Büyük Veri Araçları Kullanarak Duygu Analizi Gerçekleştirimi, Yüksek Lisans Tezi, Pamukkale Üniversitesi Fen Bilimleri Enstitüsü, Denizli.
- Stackoverflow.com, MapReduce Word Count Proccess Figure. (08 Şubat 2018). Retrieved from https://stackoverflow.com/questions/20317152/how-shuffling-is-done-in- mapreduce.
- Gonzalez, J. (2012). Parallel and Distributed Systems for Probabilistic Reasoning (No. CMU-ML-12-111). CARNEGIE-MELLON UNIV PITTSBURGH PA MACHINE LEARNING DEPT.
- Akgün, B., (2016). Apache Spark Tabanlı Destek Vektör Makineleri ile Akan Büyük Veri Sınıflandırma, Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
- rstudio.com, sparklyr. (08 Şubat 2018). Retrieved from http://spark.rstudio.com.
- Çetinkaya, S., (2016). Hadoop/MapReduce Teknolojisi Kullanılarak Hızlı Tüketim Sektöründe Büyük Veri Analizi, Yüksek Lisans Tezi, İstanbul Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
- Hallaç, İ.R., (2014). Büyük Veri Analizinde Dağıtık Makine Öğrenmesi Algoritmalarının Kullanılması, Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ.
- Decision tree. (2014). Retrieved from http://www.webcitation.org/query?url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FDecision_tree&date=2014-06-02.
- Decision tree learning.(2014). Retrieved from http://www.webcitation.org/query url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FDecision_tree_learning&date=2014-05-28.
- Karar Teorisi, Karar Ağacı ve Tıpta Uygulamaları.(2014). Retrieved from http://www.webcitation.org/query?url=http%3A%2F%2Fwww.saglikekonomisi.com%2Fsed%2Findex.php%2Fdergiarsivi%2Fsay-2%2F62-karar-teorisi-karar-agaci-vetipta uygulamalar+&date=2014-05-28.
- Moctezuma, L. E. G., Lobov, A., & Lastra, J. L. M. (2012, November). Decision making by using tree-like structures on industrial controllers. In ICT and Knowledge Engineering (ICT & Knowledge Engineering), 2012 10th International Conference on (pp. 77-83). IEEE.
- Anderberg, M. R. (1973). Cluster analysis for applications (No. OAS-TR-73-9). Office of the Assistant for Study Support Kirtland AFB N MEX.
- Bryan F.J., (1994). Multivariate Statistical Methods, Second Edition, Chapman - Hall, Londra.
- Alpar, Reha., (2013). Uygulamalı Çok Değişkenli İstatistiksel Yöntemler, Syf:318-319.
- Alpar, Reha., (2013). Uygulamalı Çok Değişkenli İstatistiksel Yöntemler.
- Çokluk, Ö., Şekercioğlu G., Büyüköztürk, Ş., (2010). Sosyal Bilimler için Çok Değişkenli İstatistik Spss ve Lisrel Uygulamaları, Pegem Akademi, Ankara.
- Data, G. O., Han, I., & Kamber, M. (2010). Data Mining: Concepts and Techniques. Morgan Kaufinann (2006).
- MacQueen, J. (1967, June). Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol. 1, No. 14, pp. 281-297).
- Xu, R., & Wunsch, D. (2005). Survey of clustering algorithms. IEEE Transactions on neural networks, 16(3), 645-678.
- Tan, P. N. (2006). Introduction to data mining. Pearson Education India.