DNA dizilerinin benzerlik analizi, evrimsel ilişkilerin anlaşılması ve genetik mutasyonların belirlenmesi açısından kritik bir konudur. Geleneksel hizalama tabanlı yöntemler yüksek hesaplama maliyetine sahip olduğundan, bu çalışmada hizalamadan bağımsız DNA benzerlik analizi için transfer öğrenme modellerinin uygulanabilirliği incelenmiştir. DNA dizileri, Frequency Chaos Game Representation (fCGR) yöntemiyle görselleştirilmiş ve ResNet50, EfficientNetB0, MobileNet modelleriyle özellik çıkarımı yapılmıştır. Cosine similarity, Euclidean distance ve correlation gibi üç benzerlik metriği ve dört farklı hiyerarşik kümeleme yöntemi karşılaştırılmıştır. Sonuçlar, cosine similarity metriğinin genetik benzerlikleri daha iyi yansıttığını göstermektedir. MobileNet, hafif yapısı ve verimli özellik çıkarımıyla en yüksek doğruluk oranını sunmuştur. PCA ile görselleştirilen özellik vektörleri güçlü kümelenme eğilimleri sergilemiş ve referans filogenetik ağaçlarla uyum göstermiştir. Çalışma, transfer öğrenmenin genetik analizlerde uygulanabilirliğini ortaya koyarak ölçeklenebilir ve biyolojik olarak anlamlı analizler yapılabileceğini göstermektedir.
DNA dizi benzerliği Transfer öğrenme Otomatik özellik çıkarımı fCGR
Similarity analysis of DNA sequences is a critical issue for understanding evolutionary relationships and identifying genetic mutations. Since traditional alignment-based methods have high computational costs, this study investigated the applicability of transfer learning models for alignment-independent DNA similarity analysis. DNA sequences were visualized with the Frequency Chaos Game Representation (fCGR) method and feature extraction was performed with ResNet50, EfficientNetB0, and MobileNet models. Three similarity metrics such as cosine similarity, Euclidean distance, and correlation and four different hierarchical clustering methods were compared. The results show that cosine similarity metric reflects genetic similarities better. MobileNet provided the highest accuracy rate with its lightweight structure and efficient feature extraction. Feature vectors visualized with PCA exhibited strong clustering tendencies and were in agreement with reference phylogenetic trees. The study demonstrates the applicability of transfer learning in genetic analyses and shows that scalable and biologically meaningful analyses can be performed.
DNA sequence similarity Transfer learning Automatic feature extraction fCGR
Birincil Dil | İngilizce |
---|---|
Konular | Derin Öğrenme, Veri Mühendisliği ve Veri Bilimi |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 17 Mart 2025 |
Yayımlanma Tarihi | |
Gönderilme Tarihi | 29 Ekim 2024 |
Kabul Tarihi | 5 Şubat 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 14 Sayı: 2 |