Developers are key to managing, storing and analysing the growing biological data. Platforms like Stack Overflow help identify current trends in the field. In this study, we present an analysis of the posts shared on the Stack Overflow website within the field of bioinformatics. We analyzed the posts shared about bioinformatics on the Stack Overflow platform using LDA topic modeling and the Louvain community finding algorithm. Our finding revealed that bioinformatics developers’ questions focused on 28 topics in four main categories. We found that the most popular topics were “Gene Expression and Function”, “Protein Interaction Prediction”, “Gene and Protein Structure Analysis”, “Sample Analysis in Network Problems”, and “Genomic Data Management”. Besides, we also presented that topics in bioinformatics consist of seven communities and the trends of these communities and the relationship between the 100 most central words. Our finding also revealed that the topics that code developers are most interested in in the field of bioinformatics are “next generation sequencing”, “genome”, “gene”, “phylogeny”, “proteins”, and “sequence”. Based on the results we obtained from this study, the problems that bioinformatics developers have encountered over time have been revealed with topic modeling and community detection.
Kod geliştiriciler, artan biyolojik verileri yönetmek, depolamak ve analiz etmek için anahtar konumdadır. Stack Overflow gibi platformlar, geliştiriciler için alandaki mevcut eğilimleri belirlemeye yardımcı olan tartışma platformlarıdır. Bu çalışmada, biyoenformatik alanında Stack Overflow web sitesinde paylaşılan gönderilerin bir analizini sunuyoruz. LDA konu modellemesi ve Louvain topluluk bulma algoritmasını kullanarak Stack Overflow platformunda biyoenformatik hakkında paylaşılan gönderileri analiz ettik. Bulgularımız, biyoenformatik geliştiricilerinin sorularının dört ana kategoride 28 konuya odaklandığını ortaya koydu. En popüler konuların “Gen İfadesi ve İşlevi”, “Protein Etkileşim Tahmini”, “Gen ve Protein Yapısı Analizi”, “Ağ Sorunlarında Örnek Analizi” ve “Genomik Veri Yönetimi” olduğunu bulduk. Ayrıca, biyoenformatikteki konuların yedi topluluktan oluştuğunu ve bu toplulukların eğilimlerini ve en merkezi 100 kelime arasındaki ilişkiyi de sunduk. Bulgularımız ayrıca biyoenformatik alanında kod geliştiricilerinin en çok ilgi duyduğu konuların “yeni nesil dizileme”, “genom”, “gen”, “filogeni”, “proteinler” ve “sekans” olduğunu ortaya koydu. Bu çalışmadan elde ettiğimiz sonuçlara dayanarak, biyoenformatik kod geliştiricilerinin zaman içinde karşılaştığı sorunlar konu modelleme ve topluluk tespiti ile ortaya konmuştur.
Primary Language | English |
---|---|
Subjects | Semi- and Unsupervised Learning, Machine Learning (Other), Natural Language Processing |
Journal Section | Research Article |
Authors | |
Early Pub Date | May 3, 2025 |
Publication Date | |
Submission Date | November 19, 2024 |
Acceptance Date | April 17, 2025 |
Published in Issue | Year 2025 EARLY VIEW |
This work is licensed under Creative Commons Attribution-ShareAlike 4.0 International.