Relational databases are
currently being used effectively in many hospitals and clinics to store patient
records and assay results. With the rapid development of sequencing
technologies, sequencing costs have declined considerably. In addition, the
number of personalized medicine practices is increasing day by day, and
accordingly the size of the personal genetic data that needs to be stored and
questioned is also increasing. Although relational databases are appropriate
for storing patient records and assay results, additional designs and solutions
are needed to efficiently store personal genetic data. In this study, a novel
solution is proposed for the integration of variation-based personal genetic
data into relational database. Within the scope of this solution, formats for
both non-structural and structural variation types have been developed and
compression algorithms have been used. The proposed method was tested with real
data of 2504 people, published by 1000 Genome Project. As a result of the
analyzes made, it was seen that the proposed method requires much less space
than the space required to store the raw sequence data.
İlişkisel veritabanları
halihazırda birçok hastanede ve klinikte hasta kayıtlarını ve tahlil
sonuçlarını depolamak için etkin bir şekilde kullanılmaya devam etmektedir.
Sekanslama teknolojilerinin gelişmesiyle birlikte sekanslama maliyetleri önemli
bir ölçüde düşmüştür. Bunun yanında, kişiselleştirilmiş tıp uygulamalarının sayısı
her geçen gün artmaktadır ve buna bağlı olarak depolanması ve sorgulanması
gereken kişisel genetik verilerin boyutu da yükselmektedir. Her ne kadar
ilişkisel veritabanları hasta kayıtlarını ve tahlil sonuçlarını depolamak için
uygun olsa da kişisel genetik verilerin verimli bir şekilde depolanması için ek
tasarımlara ve çözümlere ihtiyaç vardır. Bu çalışmada, varyasyon bazlı kişisel
genetik verilerin ilişkisel veritabanına entegrasyonu için yeni bir çözüm
önerilmektedir. Bu çözüm kapsamında, hem yapısal olmayan hem de yapısal
varyasyon tipleri için formatlar geliştirilmiştir ve sıkıştırma algoritmaları
kullanılmıştır. Önerilen yöntem 1000 Genom Projesi’nin yayınlamış olduğu 2504
kişiye ait gerçek veriler ile test edilmiştir. Yapılan analizler sonucunda,
önerilen yöntemin ham sekans verisini saklamak için gereken alana kıyasla çok
daha az bir alana ihtiyaç duyduğu görülmüştür.
Primary Language | English |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2018 |
Submission Date | April 20, 2018 |
Published in Issue | Year 2018 Volume: 11 Issue: 3 |