Research Article
BibTex RIS Cite

Evaluation of Performance of Machine Learning Algorithms Using Orange Data Analysis Tool in Protein Function Estimation Process

Year 2024, Volume: 12 Issue: 3, 1334 - 1345, 31.07.2024
https://doi.org/10.29130/dubited.1162917

Abstract

The human body has been an intriguing mechanism in terms of functioning in all processes from the first day to the present. The vital cycle has continued and continues with the cells it contains and the molecules and processes that these cells contain. It has been concluded that understanding the functioning of molecules has an important effect on the analysis of vital activities in order to continue this vital cycle. When the studies carried out within the scope of this study were examined, it was concluded that the functioning of molecules, which have a complex structure for the human body, is of great importance. Thus, by considering the complex protein molecule, which is of great importance in this study, it is possible to perform the function estimation process in terms of biological process, molecular function and cellular component, and for this, data visualization and data visualization of k-nearest neighbor, neural network and random forest methods. The development of the models was provided by the Orange editor, which can be used in the analysis phase, and the performance evaluation was made. As a result of the evaluations, it was determined that the k-nearest neighbor model achieved at least 88% success on the data sets used.

References

  • [1] https://tr.wikipedia.org/wiki/Protein (Erişim Tarihi: 30.04.2022)
  • [2] Y. Cai, J. Wang, ve L. Deng, “Sdn2go: An İntegrated Deep Learning Model For Protein Function Prediction”, Front. Bioeng. Biotechnol., c. 8, Sayı April, Ss. 1–11, 2020
  • [3] J. R. Hoffman Ve M. J. Falvo, “Protein- Which İs Best?”, J. Sport. Sci. Med., c. 3, Sayı 3, Ss. 118–130, 2004.
  • [4] İ. Alakuş, Talha Burak; Türkoğlu, "İnsana Ait Protein Fonksiyonlarının Protein Haritalama Teknikleri ve Derin Öğrenme Modeli ile Tahmin Edilmesi Prediction Of Human Protein Functions W”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal Of Engineering Sciences c. 28, Sayı X, Ss. 1–12, 2021
  • [5] K. Hakala vd., “Neural Network And Random Forest Models İn Protein Function Prediction”, IEEE/Acm Transactions On Computational Biology And Bioinformatics. 2020
  • [6] S. Pitre Vd., “Pıpe: A Protein-Protein İnteraction Prediction Engine Based On The Re-Occurring Short Polypeptide Sequences Between Known İnteracting Protein Pairs”, Bmc Bioinformatics, c. 7, Ss. 1–15, 2006
  • [7] N. Fukuhara ve T. Kawabata, “Homcos: A Server To Predict İnteracting Protein Pairs And İnteracting Sites By Homology Modeling Of Complex Structures.”, Nucleic Acids Res., c. 36, Sayı Web Server İssue, Ss. 185–189, 2008
  • [8] J. Shen Vd., “Predicting Protein-Protein İnteractions Based Only On Sequences Information”, Proc. Natl. Acad. Sci. U. S. A., c. 104, Sayı 11, Ss. 4337–4341, 2007
  • [9] L. Cai, Z. Pei, S. Qin, ve X. Zhao, “Prediction Of Protein-Protein İnteractions İn Saccharomyces Cerevisiae Based On Protein Secondary Structure”, Proc. - 2012 Int. Conf. Biomed. Eng. Biotechnol. İcbeb 2012, Ss. 413–416, 2012
  • [10] M. Yeni, B. Bilim, M. Polat, ve A. G. Karahan, “Multidisipliner Yeni Bir Bilim Dalı: Biyoinformatik Ve Tıpta Uygulamaları”, Sdü Tıp Fakültesi Dergisi., c. 16, Sayı 3, Ss. 41–50, 2009.
  • [11] İ. Kösesoy, “Konak-Patojen Protein Etkileşiminin Hesaplamalı Yöntemler İle Tahmini”, 2018.
  • [12] “Biyoinformatikte Makine Öğrenmesi ve Teknikleri – Pharmaino Science”. https://Pharmaino.Com/Biyoinformatikte-Makine-Ogrenmesi-Ve-Teknikleri/ (Erişim May. 20, 2022).
  • [13] M. Kulmanov ve R. Hoehndorf, “Deepgoplus: Improved Protein Function Prediction From Sequence”, Bioinformatics, c. 36, Sayı 2, Ss. 422–429, 2020
  • [14] B. A. Sokhansanj ve G. L. Rosen, “Mapping Data To Deep Understanding: Making The Most Of The Deluge Of Sars-Cov-2 Genome Sequences”, Msystems, Sayı February, 2022
  • [15] S. Gelman, S. A. Fahlberg, P. Heinzelman, P. A. Romero, ve A. Gitter, “Neural Networks To Learn Protein Sequence-Function Relationships From Deep Mutational Scanning Data”, Proc. Natl. Acad. Sci. U. S. A., c. 118, Sayı 48, 2021
  • [16] E.Atar, “Yapay Sinir Ağları ile Proteinlerin İkincil Yapılarının Kestirimi̇”, Yüksek Lisans Tezi, Elektronik ve Haberleşme Mühendisliği, Yıldız Teknik Üniversitesi, İstanbul, Türkiye 2005.
  • [17] https://en.wikipedia.org/wiki/Neural_network (Erişim Tarihi: 10.05.2022)
  • [18] L. Breıman, “Random Forest”, Lect. Notes Comput. Sci. (Including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), c. 12343 Lncs, Ss. 503–515, 2020
  • [19] C. M. Yeşilkanat, “Spatio-Temporal Estimation Of The Daily Cases Of Covıd-19 In Worldwide Using Random Forest Machine Learning Algorithm”, Chaos, Solitons And Fractals, c. 140, 2020
  • [20] C. Nguyen, Y. Wang, ve H. N. Nguyen, “Random Forest Classifier Combined With Feature Selection For Breast Cancer Diagnosis And Prognostic”, c. 2013, Sayı May, Ss. 551–560, 2013.
  • [21] K. Özdemir, “K-En Yakın Komşu Algoritması (K-Nearest Neighbor Algorithm) https://Medium.Com/Batech/K-En-Yakın-Komşu-Algoritması-K-Nearest-Neighbors-Algorithm-16e5ab69af2e. (Erişim Tarihi: 10.05.2022)
  • [22] S. A. Dudani, “The Distance-Weighted K-Nearest-Neighbor Rule”, Ss. 325–327.
  • [23] M. A. Pala, M. E. Çimen, Ö. F. Boyraz, M. Z. Yildiz, ve A. F. Boz, “Meme Kanserinin Teşhis Edilmesinde Karar Ağacı Ve Knn Algoritmalarının Karşılaştırmalı Başarım Analizi”, Acad. Perspect. Procedia, c. 2, Sayı 3, Ss. 544–552, 2019
  • [24] M. Muja Ve D. G. Lowe, “Fast Approximate Nearest Neighbors With Automatic Algorithm Configuration”, Vısapp 2009- Proc. 4th Int. Conf. Comput. Vis. Theory Appl., c. 1, Ss. 331–340, 2009,
  • [25] https://en.wikipedia.org/wiki/Orange_(software) (Erişim Tarihi: 01.06.2022)
  • [26] M. Kaya Keleş ve S. Özel, “Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması”, Akad. Bilişim’14 - Xvı. Akad. Bilişim Konf. Bildir., Ss. 47–53, 2014.
  • [27] https://orangedatamining.com/ (Erişim Tarihi: 01.06.2022)
  • [28] Çakmak E, Selvi İ. "Derin Öğrenme (CNN, RNN, LSTM, GRU) Kullanarak Protein İkincil Yapı Tahmini". Acta Infologica 2022;0:0–0
  • [29] Aydin Z, Kaynar O, Görmez Y, Işik YE. "Comparison of machine learning classifiers for protein secondary structure prediction". 26th IEEE Signal Process Commun Appl Conf SIU 2018 2018:1–4.
  • [30] Li YH, Xu JY, Tao L, Li XF, Li S, Zeng X, vd. SVM-prot 2016: "A web-server for machine learning prediction of protein functional families from sequence irrespective of similarity". PLoS One 2016;11:1–14.
  • [31] Bonetta R, Valentino G. "Machine learning techniques for protein function prediction". Proteins Struct Funct Bioinforma 2020;88:397–413
  • [32] Sureyya Rifaioglu A, Doğan T, Jesus Martin M, Cetin-Atalay R, Atalay V. DEEPred: "Automated Protein Function Prediction with Multi-task Feed-forward Deep Neural Networks". Sci Rep 2019;9:1–16.

Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi

Year 2024, Volume: 12 Issue: 3, 1334 - 1345, 31.07.2024
https://doi.org/10.29130/dubited.1162917

Abstract

İnsan vücudu ilk günden bugüne kadar olan bütün süreçlerde işleyiş açısından merak uyandıran bir mekanizma olmuştur. İçerisinde barındırdığı hücrelerle bu hücrelerin kendi içlerinde barındırdıkları moleküllerle ve işleyişlerle yaşamsal döngü devam etmiştir ve devam etmektedir. Bu yaşamsal döngünün devam etmesi için moleküllerin işleyiş şekillerinin anlaşılmasının yaşamsal faaliyetlerin çözümlenmesinde önemli etkisi olduğu kanısına varılmıştır. Bu çalışma kapsamında yapılan çalışmalar incelendiğinde insan vücudu için karmaşık bir yapıya sahip olan moleküllerin işleyişinin büyük bir öneme sahip olduğu kararına varılmıştır. Böylelikle bu çalışma da büyük bir öneme sahip olan karmaşık yapılı protein molekülü ele alınarak biyoloji tarafından bakıldığında biyolojik süreç, moleküler işlev ve hücresel bileşen açısından fonksiyon tahmin işleminin gerçekleştirilebilmesi ve bunun için k- en yakın komşuluk, sinir ağı ve rastgele orman yöntemlerinin veri görselleştirme ve veri analiz aşamasında kullanılabilen Orange editörü vasıtasıyla modellerin geliştirilmesi sağlanmış olup performans değerlendirilmesi yapılmıştır. Yapılan değerlendirmeler sonucunda k-en yakın komşuluk modelinin kullanılan veri setleri üzerinde en az %88 üzerinde başarı sağladığı tespit edilmiştir.

References

  • [1] https://tr.wikipedia.org/wiki/Protein (Erişim Tarihi: 30.04.2022)
  • [2] Y. Cai, J. Wang, ve L. Deng, “Sdn2go: An İntegrated Deep Learning Model For Protein Function Prediction”, Front. Bioeng. Biotechnol., c. 8, Sayı April, Ss. 1–11, 2020
  • [3] J. R. Hoffman Ve M. J. Falvo, “Protein- Which İs Best?”, J. Sport. Sci. Med., c. 3, Sayı 3, Ss. 118–130, 2004.
  • [4] İ. Alakuş, Talha Burak; Türkoğlu, "İnsana Ait Protein Fonksiyonlarının Protein Haritalama Teknikleri ve Derin Öğrenme Modeli ile Tahmin Edilmesi Prediction Of Human Protein Functions W”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal Of Engineering Sciences c. 28, Sayı X, Ss. 1–12, 2021
  • [5] K. Hakala vd., “Neural Network And Random Forest Models İn Protein Function Prediction”, IEEE/Acm Transactions On Computational Biology And Bioinformatics. 2020
  • [6] S. Pitre Vd., “Pıpe: A Protein-Protein İnteraction Prediction Engine Based On The Re-Occurring Short Polypeptide Sequences Between Known İnteracting Protein Pairs”, Bmc Bioinformatics, c. 7, Ss. 1–15, 2006
  • [7] N. Fukuhara ve T. Kawabata, “Homcos: A Server To Predict İnteracting Protein Pairs And İnteracting Sites By Homology Modeling Of Complex Structures.”, Nucleic Acids Res., c. 36, Sayı Web Server İssue, Ss. 185–189, 2008
  • [8] J. Shen Vd., “Predicting Protein-Protein İnteractions Based Only On Sequences Information”, Proc. Natl. Acad. Sci. U. S. A., c. 104, Sayı 11, Ss. 4337–4341, 2007
  • [9] L. Cai, Z. Pei, S. Qin, ve X. Zhao, “Prediction Of Protein-Protein İnteractions İn Saccharomyces Cerevisiae Based On Protein Secondary Structure”, Proc. - 2012 Int. Conf. Biomed. Eng. Biotechnol. İcbeb 2012, Ss. 413–416, 2012
  • [10] M. Yeni, B. Bilim, M. Polat, ve A. G. Karahan, “Multidisipliner Yeni Bir Bilim Dalı: Biyoinformatik Ve Tıpta Uygulamaları”, Sdü Tıp Fakültesi Dergisi., c. 16, Sayı 3, Ss. 41–50, 2009.
  • [11] İ. Kösesoy, “Konak-Patojen Protein Etkileşiminin Hesaplamalı Yöntemler İle Tahmini”, 2018.
  • [12] “Biyoinformatikte Makine Öğrenmesi ve Teknikleri – Pharmaino Science”. https://Pharmaino.Com/Biyoinformatikte-Makine-Ogrenmesi-Ve-Teknikleri/ (Erişim May. 20, 2022).
  • [13] M. Kulmanov ve R. Hoehndorf, “Deepgoplus: Improved Protein Function Prediction From Sequence”, Bioinformatics, c. 36, Sayı 2, Ss. 422–429, 2020
  • [14] B. A. Sokhansanj ve G. L. Rosen, “Mapping Data To Deep Understanding: Making The Most Of The Deluge Of Sars-Cov-2 Genome Sequences”, Msystems, Sayı February, 2022
  • [15] S. Gelman, S. A. Fahlberg, P. Heinzelman, P. A. Romero, ve A. Gitter, “Neural Networks To Learn Protein Sequence-Function Relationships From Deep Mutational Scanning Data”, Proc. Natl. Acad. Sci. U. S. A., c. 118, Sayı 48, 2021
  • [16] E.Atar, “Yapay Sinir Ağları ile Proteinlerin İkincil Yapılarının Kestirimi̇”, Yüksek Lisans Tezi, Elektronik ve Haberleşme Mühendisliği, Yıldız Teknik Üniversitesi, İstanbul, Türkiye 2005.
  • [17] https://en.wikipedia.org/wiki/Neural_network (Erişim Tarihi: 10.05.2022)
  • [18] L. Breıman, “Random Forest”, Lect. Notes Comput. Sci. (Including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), c. 12343 Lncs, Ss. 503–515, 2020
  • [19] C. M. Yeşilkanat, “Spatio-Temporal Estimation Of The Daily Cases Of Covıd-19 In Worldwide Using Random Forest Machine Learning Algorithm”, Chaos, Solitons And Fractals, c. 140, 2020
  • [20] C. Nguyen, Y. Wang, ve H. N. Nguyen, “Random Forest Classifier Combined With Feature Selection For Breast Cancer Diagnosis And Prognostic”, c. 2013, Sayı May, Ss. 551–560, 2013.
  • [21] K. Özdemir, “K-En Yakın Komşu Algoritması (K-Nearest Neighbor Algorithm) https://Medium.Com/Batech/K-En-Yakın-Komşu-Algoritması-K-Nearest-Neighbors-Algorithm-16e5ab69af2e. (Erişim Tarihi: 10.05.2022)
  • [22] S. A. Dudani, “The Distance-Weighted K-Nearest-Neighbor Rule”, Ss. 325–327.
  • [23] M. A. Pala, M. E. Çimen, Ö. F. Boyraz, M. Z. Yildiz, ve A. F. Boz, “Meme Kanserinin Teşhis Edilmesinde Karar Ağacı Ve Knn Algoritmalarının Karşılaştırmalı Başarım Analizi”, Acad. Perspect. Procedia, c. 2, Sayı 3, Ss. 544–552, 2019
  • [24] M. Muja Ve D. G. Lowe, “Fast Approximate Nearest Neighbors With Automatic Algorithm Configuration”, Vısapp 2009- Proc. 4th Int. Conf. Comput. Vis. Theory Appl., c. 1, Ss. 331–340, 2009,
  • [25] https://en.wikipedia.org/wiki/Orange_(software) (Erişim Tarihi: 01.06.2022)
  • [26] M. Kaya Keleş ve S. Özel, “Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması”, Akad. Bilişim’14 - Xvı. Akad. Bilişim Konf. Bildir., Ss. 47–53, 2014.
  • [27] https://orangedatamining.com/ (Erişim Tarihi: 01.06.2022)
  • [28] Çakmak E, Selvi İ. "Derin Öğrenme (CNN, RNN, LSTM, GRU) Kullanarak Protein İkincil Yapı Tahmini". Acta Infologica 2022;0:0–0
  • [29] Aydin Z, Kaynar O, Görmez Y, Işik YE. "Comparison of machine learning classifiers for protein secondary structure prediction". 26th IEEE Signal Process Commun Appl Conf SIU 2018 2018:1–4.
  • [30] Li YH, Xu JY, Tao L, Li XF, Li S, Zeng X, vd. SVM-prot 2016: "A web-server for machine learning prediction of protein functional families from sequence irrespective of similarity". PLoS One 2016;11:1–14.
  • [31] Bonetta R, Valentino G. "Machine learning techniques for protein function prediction". Proteins Struct Funct Bioinforma 2020;88:397–413
  • [32] Sureyya Rifaioglu A, Doğan T, Jesus Martin M, Cetin-Atalay R, Atalay V. DEEPred: "Automated Protein Function Prediction with Multi-task Feed-forward Deep Neural Networks". Sci Rep 2019;9:1–16.
There are 32 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Ceren Akman Yaman 0000-0002-1769-5545

Volkan Altuntaş 0000-0003-3144-8724

Publication Date July 31, 2024
Published in Issue Year 2024 Volume: 12 Issue: 3

Cite

APA Akman Yaman, C., & Altuntaş, V. (2024). Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi. Duzce University Journal of Science and Technology, 12(3), 1334-1345. https://doi.org/10.29130/dubited.1162917
AMA Akman Yaman C, Altuntaş V. Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi. DUBİTED. July 2024;12(3):1334-1345. doi:10.29130/dubited.1162917
Chicago Akman Yaman, Ceren, and Volkan Altuntaş. “Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi”. Duzce University Journal of Science and Technology 12, no. 3 (July 2024): 1334-45. https://doi.org/10.29130/dubited.1162917.
EndNote Akman Yaman C, Altuntaş V (July 1, 2024) Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi. Duzce University Journal of Science and Technology 12 3 1334–1345.
IEEE C. Akman Yaman and V. Altuntaş, “Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi”, DUBİTED, vol. 12, no. 3, pp. 1334–1345, 2024, doi: 10.29130/dubited.1162917.
ISNAD Akman Yaman, Ceren - Altuntaş, Volkan. “Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi”. Duzce University Journal of Science and Technology 12/3 (July 2024), 1334-1345. https://doi.org/10.29130/dubited.1162917.
JAMA Akman Yaman C, Altuntaş V. Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi. DUBİTED. 2024;12:1334–1345.
MLA Akman Yaman, Ceren and Volkan Altuntaş. “Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi”. Duzce University Journal of Science and Technology, vol. 12, no. 3, 2024, pp. 1334-45, doi:10.29130/dubited.1162917.
Vancouver Akman Yaman C, Altuntaş V. Biyolojik Protein Fonksiyon Tahmin İşleminde Orange Veri Analizi Aracının Kullanımıyla Makine Öğrenmesi Algoritmalarının Performanslarının Değerlendirilmesi. DUBİTED. 2024;12(3):1334-45.