Long-read sequencing technologies such as Oxford Nanopore Technologies (ONT) enabled researchers to sequence long reads fast and cost-effectively. ONT sequencing uses nanopores integrated into semiconductor surfaces and sequences the genomic materials using changes in current across the surface as each nucleotide passes through the nanopore. The default output of ONT sequencers is in FAST5 format. The first and one of the most important steps of ONT data analysis is the conversion of FAST5 files to FASTQ files using “base caller” tools. Generally, base caller tools pre-trained deep learning models to transform electrical signals into reads. Guppy, the most commonly used base caller, uses 2 main model types, fast and high accuracy. Since the computation duration is significantly different between these two models, the effect of models on the variant calling process has not been fully understood. This study aims to evaluate the effect of different models on performance on variant calling.
In this study, 15 low-coverage long-read sequencing results coming from different flow cells of NA12878 (gold standard data) were used to compare the variant calling results of Guppy.
Obtained results indicated that the number of output FASTQ files, read counts and average read lengths between fast and high accuracy models are not statistically significant while pass/fail ratios of the base called datasets are significantly higher in high accuracy models. Results also indicated that the difference in pass/fail ratios arises in a significant difference in the number of called Single Nucleotide Polymorphisms (SNPs), insertions and deletions (InDels). Interestingly the true positive rates of SNPs are not significantly different. These results show that using fast models for SNP calling does not affect the true positive rates statistically. The primary observation in this study, using fast models does not decrease the true positive rate but decreases the called variants that arise due to altered pass/fail ratios. Also, it is not advised to use fast models for InDel calling while both the number of InDels and true positive rates are significantly lower in fast models.
This study, to the best of our knowledge, is the first study that evaluates the effect of different base calling models of Guppy, one of the most common and ONT-supported base callers, on variant calling.
Oxford Nanopore Sequencing Variant Calling Long-Read Sequencing base-calling
TUBITAK
20AG005
We also thank Dr. Pınar Pir for advises on statistical testing.
Oxford Nanopore Technologies (ONT) gibi uzun-okuma dizileme teknolojileri, araştırmacılara uzun genetic materyallerin hızlı ve hesaplı şekilde dizilenmesi imkanı sunmuştur. ONT dizileme teknolojileri; yarı iletken bir yüzeye entegre edilmiş bir nano por yapısı kullanmakta ve portan geçen genetik materyalin geçişinden dolayı oluşan akım değişikliklerini kullanarak dizileme yapar. ONT dizileme platformlarının çıktı dosyası varsayılan olaran FAST5 formatındadır. Dizileme sonuçlarının biyoinformatik analizinde ilk ve en önemli adım bu dosyaların, “baz çağırıcı” adı verilen algoritmalar ile FASTQ formatına dönüştürülmesidir. Genel olarak, baz çağırma algoritmaları ön-eğitimli derin öğrenme modelleri kullanarak elektrik sinyallerini okumalara dönüştürür. Guppy, bu araçlar arasında en bilinenlerinden birisi olup ONT tarafından da geliştirilme süreçlerini desteklenen bir araçtır. Guppy aracı bünyesinde farklı ONT dizileme protokollerine özel modeller bulunmakta ve her protokol için iki ayrı model türü bulunmaktadır. Bu modeller “hızlı” ve “yüksek doğruluklu” olarak bilinmektedir. Bu iki model türünün hesaplama süresi arasında çok büyük farklılıklar bulunmaktadır ancak varyant çağırma aşamsında genetik varyantların doğrulukları üzerine detaylı bir akademik çalışma bulunmamaktadır. Çalışmamız, bu iki model türünün varyant çağırma üzerine etkilerine değerlendirmeyi amaçlamaktadır.
Bu çalışmada, genomik çalışmaları için altın standart olan NA12878’e ait 15 adet düşük kapsamlı Tüm Genom Dizileme (WGS) çalışması kullanılarak varyant çağırma sonuçları karşılaştırılmıştır. Sonuçların gösterdiği üzere iki model türü arasında, çıktı FASTQ dosyası sayıları, okuma sayıları ve ortalama okuma uzunlukları açısından istatistiksel olarak bir fark bulunmamaktadır ancak baz çağırma sonuçlarında başarılı/başarısız oranı yüksek doğruluk modellerde daha fazladır. Sonuçlar bunların yanında oluşan farkın Tek Nokta Polimorfizmi (SNP), delesyon ve insersiyon (InDel) sayılarında anlamlı bir farka sebep olduğunu göstermiştir. İlginç bir şekilde, bu farklara ragmen modeller arasında doğru pozitif SNP sayıları ve iki model arasında ortak olan SNP’lere ait kalite skorları istatistiksel olarak farklı olmamaktadır. Bu sonuçlar, hızlı modellerin doğru pozitif oranını etkilememekte ancak başarılı/başarısız oranından doğan bir varyant sayısı kaybı bulunmaktadır. Ayrıca, InDel perspektifinden bakıldığında hem sayısal hem doğruluk olarak farklı görülmekte bu nedenle InDel çağırma aşamasında hızlı modellerin performansı istatiksel olarak düşürdüğü görülmektedir.
Çalışmamız, bilgimiz dahilinde, en yaygın baz çağırma araçlarından birisi olan Guppy aracının farklı modellerini istatistiksel olarak değerlendiren ilk çalışmadır.
Oxford Nanopore Dizileme Varyant Analizi Uzun Okuma Dizileme Baz Çağırma
20AG005
Birincil Dil | İngilizce |
---|---|
Konular | Yapısal Biyoloji , Mühendislik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Proje Numarası | 20AG005 |
Erken Görünüm Tarihi | 1 Aralık 2023 |
Yayımlanma Tarihi | 20 Aralık 2023 |
Yayımlandığı Sayı | Yıl 2023 |