Araştırma Makalesi
BibTex RIS Kaynak Göster

A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms

Yıl 2018, Cilt: 23 Sayı: 3, 91 - 102, 26.10.2018
https://doi.org/10.17482/uumfd.425094

Öz

 In
this study, we present a new web interface for major bioinformatics algorithms and
introduce a novel approximate string matching algorithm. Our web interface executes
major algorithms on the field for the use of computational biologists, students
or any other interested researchers. In the web interface, algorithms come
under three sections: Sequence alignment, pattern matching and motif finding. In
each section, we introduce algorithms in order to find best fitting one for
specific dataset and problem. The interface introduces execution time, memory
usage and context specific results of algorithms such as alignment score. The
interface utilizes emerging open source languages and tools. In order to
develop light and user-friendly interface, all parts of the interface coded
with Python language. On the other hand, Django is used for web interface. Second
contribution of the study is novel A-BOM algorithm, which is designed for
approximate pattern matching problem. The algorithm is approximate matching variation
of Backward Oracle Matching. We compare our algorithm with popular approximate
string matching algorithms. Results denote that A-BOM introduces %30 to %80 short
runtime improvement when compared to current approximate pattern matching algorithms
on long patterns.

Kaynakça

  • Alluzen, C., Crochemore, M. and Raffinot, M. (1999) Factor Oracle: A New Structure for Pattern Matching, SOFSEM’99: Theory and Practice of Informatics, Lecture Notes in Computer Science, Berlin, 291-306. doi: 10.1007/3-540-47849-3_18
  • Bishop, C. M. (2006) Machine learning and pattern recognition. Information Science and Statistics. Springer, Heidelberg.
  • Boyer, R.S., Moore, J.S and Pratt, W.R. (1977) A Fast String Searching Algorithm, Journal of Molecular Biology, Communications of the ACM, New York, 762-772. doi: 10.1145/359842.359859
  • Burrows, W. and Wheeler, D. J. (1994) A block-sorting lossless data compression algorithm, Technical Report 124, Digital Equipment Corporation, Digital Equipment Corporation, California.
  • D'haeseleer, P. (2006) How does DNA sequence motif discovery work?. Nature biotechnology, 24(8), 959-961
  • Durbin, R., Eddy, S. R., Krogh, A. and Mitchison, G. (1998) Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge University Press, Cambridge.
  • Ji, H. and Shendure, J. (2008) Next-generation DNA sequencing, Nature biotechnology volume 26, Nature Publishing Group, London, 1135-1145. doi: 10.1038/nbt1486
  • Knuth, D.E., Morris, J.H and Pratt, W.R. (1977) Fast Pattern Matching in Strings, Journal of Molecular Biology, SIAM Journal on Computing, Philadelphia, 323-350. doi: 10.1137/0206024
  • Langmead, B., and Salzberg, S. L. (2012) Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4), 357.
  • Navarro, R. and Raffinot, M. (2002) Flexible Pattern Matching in String, The press Syndicate of The University of Cambridge, Cambridge.
  • Needleman, S.B. and Wunsch, C.D. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins, Journal of Molecular Biology, Academic Press Incorporated, London, 443-453. doi: 10.1016/0022-2836(70)90057-4
  • Özcan, G. (2016) Detection of P53 Consensus Sequence: A Novel String Matching With Classes Algorithm, Uludag University Journal of The Faculty of Engineering 21 (2), Bursa, 269-282.
  • Özcan, G., and Ünsal, O. S. (2015). Fast bitwise pattern-matching algorithm for DNA sequences on modern hardware. Turkish Journal of Electrical Engineering & Computer Sciences, 23(5), 1405-1417.
  • Pevsner, J. (2015) Bioinformatics and functional genomics, John Wiley & Sons, UK
  • Smith, T.F. and Waterman, M.S. (1981) Identification of common molecular subsequences, Journal of Molecular Biology, Academic Press Incorporated, London, 40-48. doi: 10.1016/0022-2836(81)90087-5

BAŞLICA BİYOİNFORMATİK ALGORİTMALARI İÇİN WEB ARA YÜZÜ VE YENİ OTOMAT TABANLI YAKLAŞIK DESEN EŞLEŞTİRME YAKLAŞIMI

Yıl 2018, Cilt: 23 Sayı: 3, 91 - 102, 26.10.2018
https://doi.org/10.17482/uumfd.425094

Öz

Bu çalışmada temel biyoinformatik algoritmaları
için yeni bir web ara yüzü ve özgün bir yaklaşık desen eşleştirme algoritması
sunmaktayız. Web ara yüzümüz biyologlar, öğrenciler ve ilgili araştırmacılar
için bu alandaki temel algoritmaları çalıştırmaktadır. Web ara yüzünde
algoritmalar üç bölüm altında toplanmaktadır: Dizilim hizalama, desen eşleştirme
ve motif bulma. Her bir bölümde, özgül veri seti ve problemlere en iyi uyan
algoritmanın bulunabilmesi için sonuçlarını karşılaştırabilecekleri algoritmalar
sunulmaktadır. Web ara yüzü çalışma süreleri, hafıza kullanımı ve hizalama
skoru gibi konuya özel sonuçları sunmaktadır. Ara yüz yeni geliştirilen açık
kaynak kodlu dilleri ve araçları kullanmaktadır. Hafif ve kullanıcı dostu bir
ara yüz olması amacıyla ara yüzün tüm kısımları Python dili ile kodlanmıştır.
Diğer yandan web ara yüzü için Django kullanılmıştır. Çalışmanın ikinci
katkısı, yaklaşık desen eşleştirme için tasarlanmış yeni A-BOM algoritmasıdır.
Bu algoritma Backwards Oracle Matching algoritmasının yaklaşık varyasyonudur.
Algoritmamızı popüler yaklaşık desen eşleştirme algoritmaları ile kıyasladık. Sonuçlar,
A-BOM algoritmasını güncel yaklaşık desen eşleştirme algoritmaları ile uzun
desenler üzerinde karşılaştırdığımızda, çalışma süresinde %30 ile %80 arasında kısalma
gelişimi olduğunu göstermektedir. 

Kaynakça

  • Alluzen, C., Crochemore, M. and Raffinot, M. (1999) Factor Oracle: A New Structure for Pattern Matching, SOFSEM’99: Theory and Practice of Informatics, Lecture Notes in Computer Science, Berlin, 291-306. doi: 10.1007/3-540-47849-3_18
  • Bishop, C. M. (2006) Machine learning and pattern recognition. Information Science and Statistics. Springer, Heidelberg.
  • Boyer, R.S., Moore, J.S and Pratt, W.R. (1977) A Fast String Searching Algorithm, Journal of Molecular Biology, Communications of the ACM, New York, 762-772. doi: 10.1145/359842.359859
  • Burrows, W. and Wheeler, D. J. (1994) A block-sorting lossless data compression algorithm, Technical Report 124, Digital Equipment Corporation, Digital Equipment Corporation, California.
  • D'haeseleer, P. (2006) How does DNA sequence motif discovery work?. Nature biotechnology, 24(8), 959-961
  • Durbin, R., Eddy, S. R., Krogh, A. and Mitchison, G. (1998) Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge University Press, Cambridge.
  • Ji, H. and Shendure, J. (2008) Next-generation DNA sequencing, Nature biotechnology volume 26, Nature Publishing Group, London, 1135-1145. doi: 10.1038/nbt1486
  • Knuth, D.E., Morris, J.H and Pratt, W.R. (1977) Fast Pattern Matching in Strings, Journal of Molecular Biology, SIAM Journal on Computing, Philadelphia, 323-350. doi: 10.1137/0206024
  • Langmead, B., and Salzberg, S. L. (2012) Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4), 357.
  • Navarro, R. and Raffinot, M. (2002) Flexible Pattern Matching in String, The press Syndicate of The University of Cambridge, Cambridge.
  • Needleman, S.B. and Wunsch, C.D. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins, Journal of Molecular Biology, Academic Press Incorporated, London, 443-453. doi: 10.1016/0022-2836(70)90057-4
  • Özcan, G. (2016) Detection of P53 Consensus Sequence: A Novel String Matching With Classes Algorithm, Uludag University Journal of The Faculty of Engineering 21 (2), Bursa, 269-282.
  • Özcan, G., and Ünsal, O. S. (2015). Fast bitwise pattern-matching algorithm for DNA sequences on modern hardware. Turkish Journal of Electrical Engineering & Computer Sciences, 23(5), 1405-1417.
  • Pevsner, J. (2015) Bioinformatics and functional genomics, John Wiley & Sons, UK
  • Smith, T.F. and Waterman, M.S. (1981) Identification of common molecular subsequences, Journal of Molecular Biology, Academic Press Incorporated, London, 40-48. doi: 10.1016/0022-2836(81)90087-5
Toplam 15 adet kaynakça vardır.

Ayrıntılar

Birincil Dil İngilizce
Konular Mühendislik
Bölüm Araştırma Makaleleri
Yazarlar

Burak Koca Bu kişi benim

Gıyasettin Özcan 0000-0002-1166-5919

Yayımlanma Tarihi 26 Ekim 2018
Gönderilme Tarihi 22 Mayıs 2018
Kabul Tarihi 16 Ekim 2018
Yayımlandığı Sayı Yıl 2018 Cilt: 23 Sayı: 3

Kaynak Göster

APA Koca, B., & Özcan, G. (2018). A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 23(3), 91-102. https://doi.org/10.17482/uumfd.425094
AMA Koca B, Özcan G. A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms. UUJFE. Aralık 2018;23(3):91-102. doi:10.17482/uumfd.425094
Chicago Koca, Burak, ve Gıyasettin Özcan. “A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms”. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi 23, sy. 3 (Aralık 2018): 91-102. https://doi.org/10.17482/uumfd.425094.
EndNote Koca B, Özcan G (01 Aralık 2018) A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi 23 3 91–102.
IEEE B. Koca ve G. Özcan, “A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms”, UUJFE, c. 23, sy. 3, ss. 91–102, 2018, doi: 10.17482/uumfd.425094.
ISNAD Koca, Burak - Özcan, Gıyasettin. “A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms”. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi 23/3 (Aralık 2018), 91-102. https://doi.org/10.17482/uumfd.425094.
JAMA Koca B, Özcan G. A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms. UUJFE. 2018;23:91–102.
MLA Koca, Burak ve Gıyasettin Özcan. “A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms”. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, c. 23, sy. 3, 2018, ss. 91-102, doi:10.17482/uumfd.425094.
Vancouver Koca B, Özcan G. A New Automata Based Approximate String Matching Approach and Web Interface for Bioinformatics Algorithms. UUJFE. 2018;23(3):91-102.

DUYURU:

30.03.2021- Nisan 2021 (26/1) sayımızdan itibaren TR-Dizin yeni kuralları gereği, dergimizde basılacak makalelerde, ilk gönderim aşamasında Telif Hakkı Formu yanısıra, Çıkar Çatışması Bildirim Formu ve Yazar Katkısı Bildirim Formu da tüm yazarlarca imzalanarak gönderilmelidir. Yayınlanacak makalelerde de makale metni içinde "Çıkar Çatışması" ve "Yazar Katkısı" bölümleri yer alacaktır. İlk gönderim aşamasında doldurulması gereken yeni formlara "Yazım Kuralları" ve "Makale Gönderim Süreci" sayfalarımızdan ulaşılabilir. (Değerlendirme süreci bu tarihten önce tamamlanıp basımı bekleyen makalelerin yanısıra değerlendirme süreci devam eden makaleler için, yazarlar tarafından ilgili formlar doldurularak sisteme yüklenmelidir).  Makale şablonları da, bu değişiklik doğrultusunda güncellenmiştir. Tüm yazarlarımıza önemle duyurulur.

Bursa Uludağ Üniversitesi, Mühendislik Fakültesi Dekanlığı, Görükle Kampüsü, Nilüfer, 16059 Bursa. Tel: (224) 294 1907, Faks: (224) 294 1903, e-posta: mmfd@uludag.edu.tr