In recent years, advancements in high-throughput technologies have uncovered numerous concealed layers known as non-coding Ribonucleic Acids (ncRNAs), shifting the protein-centric view of genomes. NcRNAs, previously considered insignificant segments of the genome, are now recognized as essential functional components in prokaryotic and eukaryotic organisms. Long non-coding RNAs (lncRNAs) are a unique category of ncRNAs with 200 nucleotides length, which are instrumental in key biological functions, including cellular differentiation, regulatory mechanisms, and epigenetic modifications. Despite the similarities between lncRNAs and messenger RNAs (mRNAs), there is a fundamental difference: mRNAs encode proteins, whereas lncRNAs do not. This study aims to distinguish these two RNA classes from each other by designing a robust machine learning (ML) pipeline employing Recursive Feature Elimination (RFE) for dimensionality reduction of dataset and XGBoost (XGB) classification model. Whereas previous studies trained and tested machine learning models using the complete set of dataset features, we employ the RFE technique to reduce the number of features, thereby we achieve a more optimal dataset with relevant features. To evaluate the predictive performance of our pipeline, we used error rate, accuracy, precision, recall, and F1-score. Compared to three existing lncRNA identification tools in the literature, our pipeline demonstrated superior prediction accuracy and precision at 93.42% and 94.19% respectively.
No ethics committee approval was required for this study because only publicly available data was used in the research.
in this research we did not access help from any organization
I thank Doç. Dr. Volkan ALTUNTAŞ, my instructor for helping me in writing this research article
Son yıllarda, yüksek verimli teknolojilerdeki ilerlemeler, kodlamayan Ribonükleik Asitler (ncRNA'lar) olarak bilinen çok sayıda gizli katmanı ortaya çıkararak genomların protein merkezli görüşünü değiştirdi. Daha önce genomun önemsiz bölümleri olarak kabul edilen NcRNA'lar, artık prokaryotik ve ökaryotik organizmalarda temel işlevsel bileşenler olarak kabul ediliyor. Uzun kodlamayan RNA'lar (lncRNA'lar), hücresel farklılaşma, düzenleyici mekanizmalar ve epigenetik modifikasyonlar dahil olmak üzere temel biyolojik işlevlerde etkili olan 200 nükleotid uzunluğundaki benzersiz bir ncRNA kategorisidir. LncRNA'lar ve haberci RNA'lar (mRNA'lar) arasındaki benzerliklere rağmen, temel bir fark vardır: mRNA'lar protein kodlar, oysa lncRNA'lar kodlamaz. Bu çalışma, veri kümesinin boyutsallığını azaltmak için Tekrarlayan Özellik Eliminasyonu (RFE) ve XGBoost (XGB) sınıflandırma modelini kullanan sağlam bir makine öğrenimi (ML) boru hattı tasarlayarak bu iki RNA sınıfını birbirinden ayırmayı amaçlamaktadır. Önceki çalışmalar, veri kümesi özelliklerinin tamamını kullanarak makine öğrenimi modellerini eğitmiş ve test etmişken, biz özellik sayısını azaltmak için RFE tekniğini kullanıyoruz, böylece ilgili özelliklere sahip daha optimum bir veri kümesi elde ediyoruz. Boru hattımızın tahmin performansını değerlendirmek için hata oranı, doğruluk, kesinlik, geri çağırma ve F1 puanını kullandık. Literatürdeki üç mevcut lncRNA tanımlama aracıyla karşılaştırıldığında, boru hattımız sırasıyla %93,42 ve %94,19'da üstün tahmin doğruluğu ve kesinlik gösterdi.
Primary Language | English |
---|---|
Subjects | Machine Learning (Other) |
Journal Section | Research Article |
Authors | |
Early Pub Date | May 22, 2025 |
Publication Date | |
Submission Date | January 27, 2025 |
Acceptance Date | May 18, 2025 |
Published in Issue | Year 2025 EARLY VIEW |
This work is licensed under Creative Commons Attribution-ShareAlike 4.0 International.