Biyolojik veri tabanları, genomik ve proteomik çalışmalar nedeniyle büyük miktarda veri içermektedir. Verilerin analizi, organizmadaki metabolik bozuklukların anlaşılmasına ve ilaç keşif çalışmalarının artırılmasına büyük katkı sağlamaktadır. Zaman ve maliyet tasarrufu nedeniyle makine öğrenmesi ve veri analizi yöntemleri bu amaçla sıkça kullanılmaktadır. Yöntemlerin etkinliği, uygun parametre seçimine ve protein dizilerinin kodlanış tipine de bağlıdır. Bu amaçla amino asitlere ait fizikokimyasal özelliklerin dâhil edilmesi kullanılan algoritmanın performansını arttırmaktadır. Filogenetik analiz, türler arasındaki ilişkiyi görselleştirmek için kullanılan en iyi yöntemlerden biridir. Çalışmada, dijital sinyal analizinde kullanılan dalgacık dönüşümü yönteminin, protein dizilerine uyarlanması tasarlanmıştır. Dalgacık dönüşümü kullanılarak 15 türe ait SOD1 protein dizileri arasındaki genetik yakınlık Ağırlıklı Çift Grup Aritmetik Ortalamalar Yöntemi (WPGMA) yöntemiyle belirlenmiştir. Ayrıca, proteinler arası genetik uzaklıkları temel alan Jukes-Cantor (JC) uzaklığı kullanılarak elde edilen filogenetik ağaç ile elde edilen sonuçlar karşılaştırılmış, dalgacık analizi yönteminin türlere ait moleküler boyuttaki ilişkinin ortaya koyulmasında etkinliği ortaya çıkartılmıştır. Türlere ait filogenetik ağaç oluşturma süreleri Dalgacık dönüşümü ile 2.0711178 sn., Jukes-Cantor ile 2.20329 sn. olarak elde edilmiştir. Böylelikle, dalgacık dönüşümü kullanarak tanımlanan filogenetik ağaç oluşturma işlem süresinin mevcut JC yöntemine göre daha kısa olmasının büyük veri analizlerinde avantaj sağlaması beklenmektedir.
Dalgacık Dönüşümü Protein Dizileri Filogenetik Sınıflandırma
Deokuz Eylül Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimi
2019.KB.FEN.001
Bu çalışma 2019.KB.FEN.001 numaralı proje kapsamında yapılmış olup Dokuz Eylül Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimi tarafından desteklenmiştir.
Biological databases contain large amounts of data due to genomics and proteomics studies. The analysis of the data makes a great contribution to the understanding of metabolic disorders in the organisms and to improve drug discovery studies. Machine learning and data analysis methods are frequently used for this purpose due to the time and cost savings. The effectiveness of the methods also depends on the appropriate parameter selection and the type of coding of the protein sequences. Therefore, the inclusion of physicochemical properties of amino acids increases the performance of the algorithm used. Phylogenetic analysis is one of the best methods used to visualize the relationship between species. In the study, the wavelet transform used in digital signal analysis was designed to be adapted to protein sequences. Using wavelet analysis, genetic similarity between SOD1 protein sequences of 15 species was determined by Weighted Pair Group Arithmetic Mean Method (WPGMA). In addition, the results obtained with the phylogenetic tree obtained by using the Jukes-Cantor (JC) distance based on the genetic distances between the proteins were compared, and the effectiveness of the wavelet analysis method in revealing the molecular dimension of the species was revealed. The phylogenetic tree construction times of the species were obtained as 2.0711178 sec. with the Wavelet transform and 2.20329 sec. with the Jukes-Cantor. Thus, it is expected that the phylogenetic tree construction process defined by using wavelet transform is shorter than the current JC method, which will provide an advantage in big data analysis.
Wavelet Transform Protein Sequences Phylogenetic Classification
2019.KB.FEN.001
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Proje Numarası | 2019.KB.FEN.001 |
Erken Görünüm Tarihi | 23 Haziran 2023 |
Yayımlanma Tarihi | 30 Haziran 2023 |
Yayımlandığı Sayı | Yıl 2023 |