Hücresel olaylar, proteinlerin eylemleri sonucunda gerçekleşir. Amino asitlerin farklı dizilimleri farklı protein yapılarının oluşmasına neden olur. Yapılarına göre hücresel olaylardaki aktiviteleri de değişiklik gösterir. Bu nedenle protein dizilerinin yapısal veya işlevsel olarak sınıflandırılması hücresel olaylardaki rolleri hakkında bilgi edinmek için oldukça değerlidir. Büyüme faktörleri; hücreler üzerinde çoğalma, farklılaşma, onarım ve bakım gibi birçok süreçte yer alan proteinlerdir. Büyüme faktörlerinin in vivo çalışmaları kısa yarı ömre, zayıf bir dayanıklılığa yol açar. Biyoenformatik alanı temelinde literatürde NGF ve BDNF’nin sınıflandırılmasıyla ilgili herhangi bir çalışma bulunmamaktadır Büyüme faktörlerinin biyoenformatik alanında incelenmesi düşük maliyetle, daha hızlı sonuçlara ulaşılmasını sağlayabilir. Nörotrofinler; sinir hücrelerinin büyümesi, çoğalması, farklılaşması ve fonksiyonları üzerinde etkili olan büyüme faktörü ailelerinden biridir. Çalışmalar, her ne kadar nörotrofin ailesinin üyeleri olan NGF ve BDNF’ye dair bilgiler sunsa da hücresel ve moleküler işlevlerinin hala iyi anlaşılmadığını da göstermektedir. Biyoenformatik alanında yaygın olarak kullanılan k-En Yakın Komşuluk (KNN) algoritmasının performansı önemli ölçüde kullanılan mesafeye bağlıdır. Bulanık KNN (FKNN) algoritması için de mesafe ölçümleri, bulanıklık derecesini hesaplamak için önemlidir. Çalışmamızda, ortak bir atadan gelen ve çok benzer yüksek dereceli protein yapısına sahip olan NGF ve BDNF’nin, ayrıca NT-3’ün bulanık sınıflandırılması yapılmaktadır. Ayrıca çalışmada, FKNN algoritmasında test verisi ile eğitim verileri arasındaki mesafeyi ölçmek için protein sekanslarının Lempel-Ziv karmaşıklık değerlerine dayalı mesafe ölçümünün kullanılması önerilmektedir. Uniprot veri tabanından alınan verilerle birlikte FKNN algoritmasında Lempel-Ziv uzaklığı kullanıldığında K komşu sayısının 12 olması karşılığında, sınıflandırma performansı %83 olarak elde edilmiştir. Öklid Uzaklığı kullanıldığında elde edilen en yüksek sınıflandırma performansı ise %75’tir. Maksimum doğruluk oranını elde ettiğimiz noktada Öklid uzaklığını kullandığımızda algoritmamızın çalışma süresi 0.0054 ms iken Lempel-Ziv uzaklığı kullandığımızda 0.0038 ms’dir. Literatürde NGF ve BDNF’nin sınıflandırılmasıyla ilgili herhangi bir çalışma bulunmaması sebebiyle, elde edilen bulgular, makine öğrenmesi tekniklerinin nörotrofinlerin sınıflandırılmasında ilk kez uygulanması açısından bir yenilik sunmaktadır.
Bulanık k-en yakın komşu algoritması büyüme faktörü Lempel-Ziv karmaşıklığı nörotrofinler protein sekansı.
Cellular events occur as a result of the actions of proteins. Different sequences of amino acids cause different protein structures. Their activities in cellular events also vary according to their structures. Therefore, structural or functional classification of protein sequences is very valuable for obtaining information about their role in cellular events. Growth factors that are proteins involved in many processes such as proliferation, differentiation, repair and maintenance on cells. In vivo studies of growth factors lead to short half-life, poor stability. Examination of growth factors in the field of bioinformatics can provide faster results at low cost. Neurotrophins are the one of the growth factor families that affect the growth, proliferation, differentiation and functions of nerve cells. Although studies provide information about NGF and BDNF, members of the neurotrophin family, they also show that their cellular and molecular functions are still not well understood. The performance of the k-nearest neighbor (KNN) algorithm, which is widely used in the field of bioinformatics, is significantly dependent on the distance used. For the fuzzy KNN algorithm (FKNN), distance measurements are important for calculating the degree of turbidity. In our study, fuzzy classification of NGF and BDNF, which comes from a common ancestor and has very similar high-grade protein structure, as well as NT-3 is made. In addition, in the study, it is recommended to use distance measurement based on Lempel-Ziv complexity values of protein sequences to measure the distance between test data and training data in FKNN algorithm. When the Lempel-Ziv distance was used in the FKNN algorithm with data from the Uniprot database, the classification performance was obtained as 83%, given that the number of K neighbors was 12. The highest classification performance achieved when Euclidean Distance is used is 75%. At the point where we obtain the maximum accuracy rate, the running time of our algorithm is 0.0054 ms when we use the Euclidean distance, while it is 0.0038 ms when we use the Lempel-Ziv distance. Since there is no study on the classification of NGF and BDNF in the literature, the findings provide an innovation in terms of the first application of machine learning techniques in the classification of neurotrophins.
: Fuzzy K-nearest Neighbor Algorithm Growth Factor Lempel-Ziv Complexity Neurotrophin Protein Sequence
Birincil Dil | Türkçe |
---|---|
Konular | Yazılım Mühendisliği (Diğer) |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 21 Aralık 2024 |
Gönderilme Tarihi | 25 Ekim 2024 |
Kabul Tarihi | 25 Kasım 2024 |
Yayımlandığı Sayı | Yıl 2024 |