One of the major challenges in bioinformatics is the classification and identification of protein structure and function. Large amounts of RNA data cannot be managed using traditional laboratory methods. For this, proteins should be separated according to their structure and families. Therefore, proteins need to be classified to define their biological families and functions. In traditional machine learning approaches, various feature extraction algorithms are used to classify proteins. In manual feature extraction, the selected features directly affect performance. Therefore, in the proposed method of this study, protein sequences were digitized by amino acid composition technique. The digitized protein sequences were converted to spectrograms, and automatic feature extraction was performed using 2D CNN models (VGG19, ResNet). The extracted features were classified with SVM and kNN. As a result, the accuracy with 95.03% was achieved in the classification of protein sequences using ResNet.
Protein Classification Bioinformatics Convolutional Neural Network Machine Learning
Biyoinformatikteki en büyük zorluklardan biri, protein yapısının ve fonksiyonunun öngörülmesi ve sınıflandırılmasıdır. Çok miktarda RNA verisi geleneksel laboratuvar yolu kullanılarak yönetilemez. Bunun için proteinler yapılarına ve ailelerine göre ayrılmalıdır. Bu nedenle proteinlerin biyolojik ailelerini ve fonksiyonlarını tanımlamak için sınıflandırılması gerekmektedir. Geleneksel makine öğrenme yaklaşımlarında, proteinler sınıflandırılırken çeşitli özellik çıkarım algoritmaları kullanılmaktadır. Elle özellik çıkarımında, seçilen özellikler, başarımı doğrudan etkilemektedir. Bu nedenle, bu çalışmada önerilen yaklaşımda ise protein sekanslarını amino acid composition yöntemi ile sayısallaştırılmıştır. Sayısallaştırılan protein dizilimleri spektrograma dönüştürülmüş ve 2 boyutlu ESA modelleri (VGG19, ResNet) kullanılarak otomatik özellik çıkarımı gerçekleştirilmiştir. Çıkarılan özellikler DVM ve kNN ile sınıflandırılmıştır. Sonuç olarak, ResNet kullanılarak gerçekleştirilen protein sekanslarının sınıflandırma işleminde % 95.03’lük bir doğruluğa ulaşılmıştır.
Protein Sınıflama Biyoinformatik Evrişimsel Sinir Ağları Makine Öğrenmesi
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 25 Aralık 2020 |
Gönderilme Tarihi | 21 Aralık 2019 |
Kabul Tarihi | 9 Nisan 2020 |
Yayımlandığı Sayı | Yıl 2020 |