DNA genom dizilimi üzerinde dijital sinyal işleme teknikleri kullanılarak elde edilen ekson ve intron bölgelerinin EfficientNetB7 mimarisi ile sınıflandırılması
Yıl 2022,
, 1355 - 1372, 28.02.2022
Fatma Akalın
,
Nejat Yumuşak
Öz
Organizmayı inşa etmek ve canlılığını sürdürmek için devasa bilgi barındıran DNA, önemli bir biyobelirteçtir. A,T,G ve C harflerinden oluşan sembolik bir dizilime sahip olan DNA genom parçası, protein üreten(ekson) ve protein üretmeyen(intron) kısımlardan meydana gelmektedir. Bu bölgelerin tanımlanması; kanserin gelişme durumunun incelenmesi, ilgili gen bölgelerinde mutasyonun gerçekleşip gerçekleşmediğinin izlenmesi ya da organizmanın büyüme ve gelişme durumlarının düzenlenmesi gibi farklı konuların aydınlatılmasında önemli bir role sahiptir. Bu kapsamda bilgisayar destekli sistemler ile ekson ve intron bölgelerinin doğru bir şekilde ayırt edilmesi hedeflenmiştir. Çalışmanın ilk aşamasında, farklı sayısal haritalama teknikleri ile sayısallaştırılan sembolik DNA dizilimleri üzerinde en başarılı sayısal haritalama tekniğine performans ölçütleri vasıtasıyla karar verilmiştir. Ardından ilk kısımda seçilen haritalama tekniği kullanılarak sayısallaştırılan DNA dizilimlerinin spektogram olarak ifade edilmesi sağlanmıştır. Zamanla değişen bir sinyalin frekans spektrumunun görsel bir temsili olan spektogramlar exon ve intron bölgeleri olarak etiketlendikten sonra öğrenme aktarımı olan EfficientNetB7 mimarisi ile sınıflandırılmıştır. Sınıflandırma sürecinin sonunda başarı oranı ve AUC değeri %100 olarak elde edilmiştir.
Kaynakça
- [1] Barman S., Saha S., Mandal A., and Roy M., Prediction of protein coding regions of a DNA sequence through spectral analysis, 2012 International Conference on Informatics, Electronics and Vision, pp. 12–16, 2012, doi: 10.1109/ICIEV.2012.6317389.
- [2] Yu N., Li Z. and Yu Z., Survey on encoding schemes for genomic data representation and feature learning-from signal processing to machine learning, Big Data Mining and Analytics, 1(3), 191–210, 2018, doi:10.26599/BDMA.2018.9020018.
- [3] Hota M. K. and Srivastava V. K., Performance analysis of different DNA to numerical mapping techniques for identification of protein coding regions using tapered window based short-time discrete Fourier transform , ICPCES 2010 - International Conference on Power, Control and Embedded Systems, pp. 0–3, 2010, doi: 10.1109/ICPCES.2010.5698675.
- [4] Das B. and Türkoglu I., Sayisal haritalama teknikleri ve Fourier dönüsümü kullanilarak DNA dizilimlerinin siniflandirilmasi, Journal of the Faculty of Engineering and Architecture of Gazi University, 31(4), 921–932, 2016, doi: 10.17341/gazimmfd.278447.
- [5] Das L., Das J. K. and Nanda S., Detection of exon location in eukaryotic DNA using a fuzzy adaptive Gabor wavelet transform, Genomics, 112(6), 4406–4416, 2020, doi: 10.1016/j.ygeno.2020.07.020.
- [6] Hsieh S. J., Lin C. Y., Chung Y. S. and Tang C. Y., Comparative exon prediction based on heuristic coding region alignment, Proceeding of the International Symposium on Parallel Architectures, Algorithms and Networks, 14–19, 2005, doi: 10.1109/ISPAN.2005.29.
- [7] Abo-Zahhai M., Ahmed S. M. and Abd-Elrahman S. A., K11. A new numerical mapping technique for recognition of exons and introns in DNA sequences, National Radio Science Conference NRSC, Proceedings, 573–580, 2013, doi: 10.1109/NRSC.2013.6587955.
- [8] Das B. and Turkoglu I., A novel numerical mapping method based on entropy for digitizing DNA sequences, Neural Computing and Applications, 29(8), 207–215, 2018, doi: 10.1007/s00521-017-2871-5.
- [9] Gupta R., Mittal A., Singh K., Bajpai P. and Prakash S., A Time Series Approach for Identification of Exons and Introns, 91–93, 2008, doi: 10.1109/icit.2007.54.
- [10] Roy M. and Barman S., Spectral analysis of coding and non-coding regions of a DNA sequence by Parametric method, Proceeding of the 2010 Annual IEEE India Conference: Green Energy, Computing and Communication. 7–10, 2010, doi: 10.1109/INDCON.2010.5712676.
- [11] Marhon S. A. and Kremer S. C., Protein coding region prediction based on the adaptive representation method, Canadian Conference on Electrical and Computre Engineering, 000415–000418, 2011, doi: 10.1109/CCECE.2011.6030484.
- [12] Li J. et al., Integrated entropy-based approach for analyzing exons and introns in DNA sequences, BMC Bioinformatics, 20(Suppl 8), 11–13, 2019, doi: 10.1186/s12859-019-2772-y.
- [13] Dessouky A. M., et al., Non-parametric spectral estimation techniques for DNA sequence analysis and exon region prediction, Computer and Electrical Engineering, 73, 334–348, 2019, doi: 10.1016/j.compeleceng.2018.12.001.
- [14] Singh A. K. and Srivastava V. K., The three base periodicity of protein coding sequences and its application in exon prediction, 2020 7th International. Conference Signal Processing and Integrated Networks, SPIN 2020, 64, 1089–1094, 2020, doi: 10.1109/SPIN48934.2020.9071068.
- [15] Anastassiou D., Dimitris Anastassiou, IEEE Signal Processing Magazine., 8–20, 2001.
- [16] Liu D. W. et al., Automated detection of cancerous genomic sequences using genomic signal processing and machine learning, Future Generation Computer Systems, 98, 233–237, 2019, doi: 10.1016/j.future.2018.12.041.
- [17] Abo-Zahhad M., Ahmed S. M. and Abd-Elrahman S. A., Genomic Analysis and Classification of Exon and Intron Sequences Using DNA Numerical Mapping Techniques, International Journal of Information Technology and Computer Science, 4(8), 22–36, 2012, doi: 10.5815/ijitcs.2012.08.03.
- [18] Duran K., Yüksek Lisans Tezi, İTÜ, Fen Bilimleri Enstitüsü, İstanbul, 2013.
[19] Aygün O., Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2006.
- [20] Avci K. and O. Coskun, Spectral performance analysis of cosh window based new two parameter hybrid windows, 26th IEEE Signal Processing and Communications Applications Conference SIU, 1–4, 2018, doi: 10.1109/SIU.2018.8404812.
- [21] Hashimoto D. A., Ward T. M. and Meireles O. R., The Role of Artificial Intelligence in Surgery, Advances in Surgery, 54, 89–101, 2020, doi: 10.1016/j.yasu.2020.05.010.
- [22] Atila Ü., Uçar M., Akyol K., and Uçar E., Plant leaf disease classification using EfficientNet deep learning model, Ecological Informatics, 61, 2021, doi: 10.1016/j.ecoinf.2020.101182.
- [23] Z. Muftuoglu, M. A. Kizrak, and T. Yildlnm, Differential Privacy Practice on Diagnosis of COVID-19 Radiology Imaging Using EfficientNet, International Conference on Innovations in Intelligent Systems and Application Proceedings, 2020, doi: 10.1109/INISTA49547.2020.9194651.
- [24] Bahadır E., Kalender B., ROC Analizi ile Zung Depresyon Ölçeği Kesme Noktalarının Belirlenmesi,Adnan Menderes Üniversitesi, Sosyal Bilimler Enstitüsü Dergisi, 5(2), 137–147.