TY - JOUR T1 - Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi TT - Evaluation of Performance of Machine Learning Algorithms Using Orange Data Analysis Tool in Protein Function Estimation Process AU - Akman Yaman, Ceren AU - Altuntaş, Volkan PY - 2024 DA - July DO - 10.29130/dubited.1162917 JF - Duzce University Journal of Science and Technology JO - DÜBİTED PB - Duzce University WT - DergiPark SN - 2148-2446 SP - 1334 EP - 1345 VL - 12 IS - 3 LA - tr AB - İnsan vücudu ilk günden bugüne kadar olan bütün süreçlerde işleyiş açısından merak uyandıran bir mekanizma olmuştur. İçerisinde barındırdığı hücrelerle bu hücrelerin kendi içlerinde barındırdıkları moleküllerle ve işleyişlerle yaşamsal döngü devam etmiştir ve devam etmektedir. Bu yaşamsal döngünün devam etmesi için moleküllerin işleyiş şekillerinin anlaşılmasının yaşamsal faaliyetlerin çözümlenmesinde önemli etkisi olduğu kanısına varılmıştır. Bu çalışma kapsamında yapılan çalışmalar incelendiğinde insan vücudu için karmaşık bir yapıya sahip olan moleküllerin işleyişinin büyük bir öneme sahip olduğu kararına varılmıştır. Böylelikle bu çalışma da büyük bir öneme sahip olan karmaşık yapılı protein molekülü ele alınarak biyoloji tarafından bakıldığında biyolojik süreç, moleküler işlev ve hücresel bileşen açısından fonksiyon tahmin işleminin gerçekleştirilebilmesi ve bunun için k- en yakın komşuluk, sinir ağı ve rastgele orman yöntemlerinin veri görselleştirme ve veri analiz aşamasında kullanılabilen Orange editörü vasıtasıyla modellerin geliştirilmesi sağlanmış olup performans değerlendirilmesi yapılmıştır. Yapılan değerlendirmeler sonucunda k-en yakın komşuluk modelinin kullanılan veri setleri üzerinde en az %88 üzerinde başarı sağladığı tespit edilmiştir. KW - Biyoinformatik KW - Protein Fonksiyonu KW - Sinir Ağı KW - Rastgele Orman KW - K-En Yakın Komşuluk N2 - The human body has been an intriguing mechanism in terms of functioning in all processes from the first day to the present. The vital cycle has continued and continues with the cells it contains and the molecules and processes that these cells contain. It has been concluded that understanding the functioning of molecules has an important effect on the analysis of vital activities in order to continue this vital cycle. When the studies carried out within the scope of this study were examined, it was concluded that the functioning of molecules, which have a complex structure for the human body, is of great importance. Thus, by considering the complex protein molecule, which is of great importance in this study, it is possible to perform the function estimation process in terms of biological process, molecular function and cellular component, and for this, data visualization and data visualization of k-nearest neighbor, neural network and random forest methods. The development of the models was provided by the Orange editor, which can be used in the analysis phase, and the performance evaluation was made. As a result of the evaluations, it was determined that the k-nearest neighbor model achieved at least 88% success on the data sets used. CR - [1] https://tr.wikipedia.org/wiki/Protein (Erişim Tarihi: 30.04.2022) CR - [2] Y. Cai, J. Wang, ve L. Deng, “Sdn2go: An İntegrated Deep Learning Model For Protein Function Prediction”, Front. Bioeng. Biotechnol., c. 8, Sayı April, Ss. 1–11, 2020 CR - [3] J. R. Hoffman Ve M. J. Falvo, “Protein- Which İs Best?”, J. Sport. Sci. Med., c. 3, Sayı 3, Ss. 118–130, 2004. CR - [4] İ. Alakuş, Talha Burak; Türkoğlu, "İnsana Ait Protein Fonksiyonlarının Protein Haritalama Teknikleri ve Derin Öğrenme Modeli ile Tahmin Edilmesi Prediction Of Human Protein Functions W”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal Of Engineering Sciences c. 28, Sayı X, Ss. 1–12, 2021 CR - [5] K. Hakala vd., “Neural Network And Random Forest Models İn Protein Function Prediction”, IEEE/Acm Transactions On Computational Biology And Bioinformatics. 2020 CR - [6] S. Pitre Vd., “Pıpe: A Protein-Protein İnteraction Prediction Engine Based On The Re-Occurring Short Polypeptide Sequences Between Known İnteracting Protein Pairs”, Bmc Bioinformatics, c. 7, Ss. 1–15, 2006 CR - [7] N. Fukuhara ve T. Kawabata, “Homcos: A Server To Predict İnteracting Protein Pairs And İnteracting Sites By Homology Modeling Of Complex Structures.”, Nucleic Acids Res., c. 36, Sayı Web Server İssue, Ss. 185–189, 2008 CR - [8] J. Shen Vd., “Predicting Protein-Protein İnteractions Based Only On Sequences Information”, Proc. Natl. Acad. Sci. U. S. A., c. 104, Sayı 11, Ss. 4337–4341, 2007 CR - [9] L. Cai, Z. Pei, S. Qin, ve X. Zhao, “Prediction Of Protein-Protein İnteractions İn Saccharomyces Cerevisiae Based On Protein Secondary Structure”, Proc. - 2012 Int. Conf. Biomed. Eng. Biotechnol. İcbeb 2012, Ss. 413–416, 2012 CR - [10] M. Yeni, B. Bilim, M. Polat, ve A. G. Karahan, “Multidisipliner Yeni Bir Bilim Dalı: Biyoinformatik Ve Tıpta Uygulamaları”, Sdü Tıp Fakültesi Dergisi., c. 16, Sayı 3, Ss. 41–50, 2009. CR - [11] İ. Kösesoy, “Konak-Patojen Protein Etkileşiminin Hesaplamalı Yöntemler İle Tahmini”, 2018. CR - [12] “Biyoinformatikte Makine Öğrenmesi ve Teknikleri – Pharmaino Science”. https://Pharmaino.Com/Biyoinformatikte-Makine-Ogrenmesi-Ve-Teknikleri/ (Erişim May. 20, 2022). CR - [13] M. Kulmanov ve R. Hoehndorf, “Deepgoplus: Improved Protein Function Prediction From Sequence”, Bioinformatics, c. 36, Sayı 2, Ss. 422–429, 2020 CR - [14] B. A. Sokhansanj ve G. L. Rosen, “Mapping Data To Deep Understanding: Making The Most Of The Deluge Of Sars-Cov-2 Genome Sequences”, Msystems, Sayı February, 2022 CR - [15] S. Gelman, S. A. Fahlberg, P. Heinzelman, P. A. Romero, ve A. Gitter, “Neural Networks To Learn Protein Sequence-Function Relationships From Deep Mutational Scanning Data”, Proc. Natl. Acad. Sci. U. S. A., c. 118, Sayı 48, 2021 CR - [16] E.Atar, “Yapay Sinir Ağları ile Proteinlerin İkincil Yapılarının Kestirimi̇”, Yüksek Lisans Tezi, Elektronik ve Haberleşme Mühendisliği, Yıldız Teknik Üniversitesi, İstanbul, Türkiye 2005. CR - [17] https://en.wikipedia.org/wiki/Neural_network (Erişim Tarihi: 10.05.2022) CR - [18] L. Breıman, “Random Forest”, Lect. Notes Comput. Sci. (Including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), c. 12343 Lncs, Ss. 503–515, 2020 CR - [19] C. M. Yeşilkanat, “Spatio-Temporal Estimation Of The Daily Cases Of Covıd-19 In Worldwide Using Random Forest Machine Learning Algorithm”, Chaos, Solitons And Fractals, c. 140, 2020 CR - [20] C. Nguyen, Y. Wang, ve H. N. Nguyen, “Random Forest Classifier Combined With Feature Selection For Breast Cancer Diagnosis And Prognostic”, c. 2013, Sayı May, Ss. 551–560, 2013. CR - [21] K. Özdemir, “K-En Yakın Komşu Algoritması (K-Nearest Neighbor Algorithm) https://Medium.Com/Batech/K-En-Yakın-Komşu-Algoritması-K-Nearest-Neighbors-Algorithm-16e5ab69af2e. (Erişim Tarihi: 10.05.2022) CR - [22] S. A. Dudani, “The Distance-Weighted K-Nearest-Neighbor Rule”, Ss. 325–327. CR - [23] M. A. Pala, M. E. Çimen, Ö. F. Boyraz, M. Z. Yildiz, ve A. F. Boz, “Meme Kanserinin Teşhis Edilmesinde Karar Ağacı Ve Knn Algoritmalarının Karşılaştırmalı Başarım Analizi”, Acad. Perspect. Procedia, c. 2, Sayı 3, Ss. 544–552, 2019 CR - [24] M. Muja Ve D. G. Lowe, “Fast Approximate Nearest Neighbors With Automatic Algorithm Configuration”, Vısapp 2009- Proc. 4th Int. Conf. Comput. Vis. Theory Appl., c. 1, Ss. 331–340, 2009, CR - [25] https://en.wikipedia.org/wiki/Orange_(software) (Erişim Tarihi: 01.06.2022) CR - [26] M. Kaya Keleş ve S. Özel, “Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması”, Akad. Bilişim’14 - Xvı. Akad. Bilişim Konf. Bildir., Ss. 47–53, 2014. CR - [27] https://orangedatamining.com/ (Erişim Tarihi: 01.06.2022) CR - [28] Çakmak E, Selvi İ. "Derin Öğrenme (CNN, RNN, LSTM, GRU) Kullanarak Protein İkincil Yapı Tahmini". Acta Infologica 2022;0:0–0 CR - [29] Aydin Z, Kaynar O, Görmez Y, Işik YE. "Comparison of machine learning classifiers for protein secondary structure prediction". 26th IEEE Signal Process Commun Appl Conf SIU 2018 2018:1–4. CR - [30] Li YH, Xu JY, Tao L, Li XF, Li S, Zeng X, vd. SVM-prot 2016: "A web-server for machine learning prediction of protein functional families from sequence irrespective of similarity". PLoS One 2016;11:1–14. CR - [31] Bonetta R, Valentino G. "Machine learning techniques for protein function prediction". Proteins Struct Funct Bioinforma 2020;88:397–413 CR - [32] Sureyya Rifaioglu A, Doğan T, Jesus Martin M, Cetin-Atalay R, Atalay V. DEEPred: "Automated Protein Function Prediction with Multi-task Feed-forward Deep Neural Networks". Sci Rep 2019;9:1–16. UR - https://doi.org/10.29130/dubited.1162917 L1 - https://dergipark.org.tr/en/download/article-file/2599851 ER -