DNA dizilerinin benzerlik analizi, evrimsel ilişkilerin anlaşılması ve genetik mutasyonların belirlenmesi açısından kritik bir konudur. Geleneksel hizalama tabanlı yöntemler yüksek hesaplama maliyetine sahip olduğundan, bu çalışmada hizalamadan bağımsız DNA benzerlik analizi için transfer öğrenme modellerinin uygulanabilirliği incelenmiştir. DNA dizileri, Frequency Chaos Game Representation (fCGR) yöntemiyle görselleştirilmiş ve ResNet50, EfficientNetB0, MobileNet modelleriyle özellik çıkarımı yapılmıştır. Cosine similarity, Euclidean distance ve correlation gibi üç benzerlik metriği ve dört farklı hiyerarşik kümeleme yöntemi karşılaştırılmıştır. Sonuçlar, cosine similarity metriğinin genetik benzerlikleri daha iyi yansıttığını göstermektedir. MobileNet, hafif yapısı ve verimli özellik çıkarımıyla en yüksek doğruluk oranını sunmuştur. PCA ile görselleştirilen özellik vektörleri güçlü kümelenme eğilimleri sergilemiş ve referans filogenetik ağaçlarla uyum göstermiştir. Çalışma, transfer öğrenmenin genetik analizlerde uygulanabilirliğini ortaya koyarak ölçeklenebilir ve biyolojik olarak anlamlı analizler yapılabileceğini göstermektedir.
Similarity analysis of DNA sequences is a critical issue for understanding evolutionary relationships and identifying genetic mutations. Since traditional alignment-based methods have high computational costs, this study investigated the applicability of transfer learning models for alignment-independent DNA similarity analysis. DNA sequences were visualized with the Frequency Chaos Game Representation (fCGR) method and feature extraction was performed with ResNet50, EfficientNetB0, and MobileNet models. Three similarity metrics such as cosine similarity, Euclidean distance, and correlation and four different hierarchical clustering methods were compared. The results show that cosine similarity metric reflects genetic similarities better. MobileNet provided the highest accuracy rate with its lightweight structure and efficient feature extraction. Feature vectors visualized with PCA exhibited strong clustering tendencies and were in agreement with reference phylogenetic trees. The study demonstrates the applicability of transfer learning in genetic analyses and shows that scalable and biologically meaningful analyses can be performed.
Primary Language | English |
---|---|
Subjects | Deep Learning, Data Engineering and Data Science |
Journal Section | Articles |
Authors | |
Early Pub Date | March 17, 2025 |
Publication Date | |
Submission Date | October 29, 2024 |
Acceptance Date | February 5, 2025 |
Published in Issue | Year 2025 Volume: 14 Issue: 2 |