DNA ve protein türlerinin belirlenmesi, benzerliklerinin incelenmesi vb. araştırma alanındaki zorlu problemler arasında yer almaktadır. Bu nedenle elde edilen veriler ve bu verilerin kullanımı da sınırlıdır. Bu çalışmada bilgisayar biliminin veri işlemedeki gücünü biyoloji ile birleştirdik. Turpgillerden Brassica bitkilerinde bulunan transkripsiyon faktörü proteinlerinin DNA'larını sınıflandırdık ve bitkideki transkripsiyon faktörü proteinlerinin sentezi ile ilgili DNA'ları belirledik. Veri setini Bitki Transkripsiyon Faktörü Veritabanından (PlantTFDB) derledik. Önişleme kısmında kod sözlüğü yapısını kullandık ve Çift Yönlü LSTM ve Çift Yönlü GRU ağlarını kullanarak hızlı ve başarılı bir model sağladık. Modelimiz %90,40 test doğruluğuna ve %86,75 5-kat çapraz doğrulama doğruluğuna sahiptir. Modelde daha az birimli katmanda LSTM ve daha fazla birimli katmanda GRU kullanılması model için daha kısa eğitim süresi sağlamıştır. Ayrıca hazırlanan model Brassica bitkilerinin transkripsiyon faktör DNA'larını sınıflandırsa da diğer bitkilerin transkripsiyon faktör DNA'larında da belli bir düzeyde başarılı olacaktır. Hazırlanan model, çalışma alanı açısından literatüre katılmış önemli bir yenilik olarak öne çıkmaktadır.
Determining the types of DNA and proteins, examining their similarities, etc., remains among the challenging problems in the research field. For this reason, the data obtained and the use of this data are also limited. In this study, we combined the power of computer science in data processing with biology. We classified the DNAs of transcription factor proteins found in cruciferous Brassica plants and identified the DNAs related to the synthesis of transcription factor proteins in the plant. We compiled the dataset from the Plant Transcription Factor Database (PlantTFDB). We used the code dictionary structure in the preprocessing part and provided a fast and successful model using Bidirectional LSTM and Bidirectional GRU networks. Our model has 90.40% test accuracy and 86.75% 5-fold cross-validation accuracy. Using LSTM in the layer with fewer units and GRU in the layer with more units in the model provided a shorter training time for the model. In addition, although the prepared model classifies the transcription factor DNAs of Brassica plants, it will also be successful at a certain level in the transcription factor DNAs of other plants. The prepared model stands out as an important innovation that has been added to the literature in terms of its field of study.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | November 30, 2022 |
Published in Issue | Year 2022 |