This study concentrates on the weighted average ensemble-based prediction of pIC50 value for Human Dihydroorotate Dehydrogenase (hDHODH) using hybrid molecular fingerprints. By querying the ChEMBL database for IC50 data, a diverse collection of 1585 molecules was obtained, and these values were converted to pIC50 values to develop ensemble-based prediction models. We used the weighted average (W.Avg) of Light Gradient Boosting Machine (LGBM), Bootstrap Aggregating (Bagging), and Random Forest (RF) algorithms to estimate pIC50 values. Model performance was evaluated using 5x3 repeated K-fold cross-validation (CV). Root mean square error (RMSE) and mean squared error (MSE) were used as the performance metrics. The W.Avg combination demonstrated overall success beyond individual models. The results showed that our ensemble model outperformed all other baseline models with R²=0.8266, RMSE=0.6568, and MSE=0.4337. Paired t-test results indicate that the W.Avg model is statistically significantly superior to the other models in terms of R², RMSE, and MSE (p < 0.05). This ensemble-based method accelerated hDHODH inhibitor discovery by reducing screening time and increasing predictive accuracy.
Bu çalışma, hibrit moleküler parmak izleri kullanarak İnsan Dihidroorotat Dehidrojenaz (hDHODH) için pIC50 değerinin ağırlıklı ortalama ensemble tabanlı tahminine odaklanmaktadır. ChEMBL veritabanında IC50 verileri sorgulanarak 1585 molekülden oluşan çeşitli bir koleksiyon elde edilmiş ve bu değerler ensemble tabanlı tahmin modelleri geliştirmek için pIC50 değerlerine dönüştürülmüştür. pIC50 değerlerini tahmin etmek için Light Gradient Boosting Machine (LGBM), Bootstrap Aggregating (Bagging) ve Random Forest (RF) algoritmalarının ağırlıklı ortalamasını (W.Avg) kullandık. Model performansı, 5x3 tekrarlanan K-katlı çapraz doğrulama (CV) kullanılarak değerlendirildi. Performans ölçütleri olarak kök ortalama kare hatası (RMSE) ve ortalama kare hatası (MSE) kullanıldı. W.Avg kombinasyonu, bireysel modellerin ötesinde genel bir başarı gösterdi. Sonuçlar, ensemble modelimizin R²=0,8266, RMSE=0,6568 ve MSE=0,4337 ile diğer tüm temel modelleri geride bıraktığını gösterdi. Eşleştirilmiş t-testi sonuçları, W.Avg modelinin R², RMSE ve MSE açısından diğer modellere göre istatistiksel olarak anlamlı bir şekilde üstün olduğunu göstermektedir (p < 0,05). Bu ensemble tabanlı yöntem, tarama süresini kısaltarak ve tahmin doğruluğunu artırarak hDHODH inhibitörünün keşfini hızlandırmıştır.
| Primary Language | English |
|---|---|
| Subjects | Information Systems (Other), Biomedical Engineering (Other) |
| Journal Section | Research Article |
| Authors | |
| Submission Date | October 10, 2025 |
| Acceptance Date | December 8, 2025 |
| Publication Date | December 30, 2025 |
| Published in Issue | Year 2025 Volume: 14 Issue: 4 |
This work is licensed under the Creative Commons Attribution-Non-Commercial-Non-Derivable 4.0 International License.