İlaç-hedef etkileşimi (DTI) tahmini, ilaç keşfi sürecinin kritik bir aşamasıdır çünkü deneysel yöntemler genellikle zaman alıcı ve maliyetlidir. Bu görev için makine öğrenimi teknikleri etkili alternatifler olarak ortaya çıkmıştır. Ancak, DTI veri kümeleri genellikle ciddi bir sınıf dengesizliği sorunu yaşar; gerçek etkileşimlerin sayısı negatif örneklerden önemli ölçüde azdır ve bu durum model eğitimi için ciddi bir zorluk oluşturur.Bu çalışma, DTI tahmini için etkili bir çerçeve önermektedir. Model, protein özelliklerini çıkarmak için amino asit kompozisyonu (AAC) ve dipeptit kompozisyonu (DPC) yöntemlerini kullanırken, ilaç özelliklerini temsil etmek için FP2 moleküler parmak izlerinden yararlanır. Sınıf dengesizliği sorununu ele almak amacıyla, destek vektör makineleri (SVM) tabanlı sentetik azınlık çoğaltma yöntemi olan SVM-SMOTE tekniği uygulanmıştır. Modelin eğitimi için Lineer Destek Vektör Makineleri (LSVM) algoritması kullanılmıştır. Önerilen model, Enzyme, GPCR, Ion Channel ve Nuclear Receptor gibi standart veri kümeleri kullanılarak mevcut ileri düzey yöntemlerle karşılaştırılmış ve üstün performans sergilediği görülmüştür. Model tasarımının çeşitli aşamalarında geniş kapsamlı deneyler gerçekleştirilmiş ve AUC, doğruluk, F1 skoru ve hatırlama (recall) gibi değerlendirme metrikleri kullanılarak önerilen yaklaşımın etkinliği doğrulanmıştır.
Drug–target interaction (DTI) prediction is a critical step in the drug discovery process, as experimental methods are often time-consuming and expensive. Machine learning techniques have emerged as effective alternatives for this task. However, DTI datasets commonly suffer from severe class imbalance, where the number of true interactions is significantly lower than negative ones—posing a serious challenge for model training. This study proposes an effective framework for DTI prediction. The model utilizes amino acid composition (AAC) and dipeptide composition (DPC) methods to extract protein features, while FP2 molecular fingerprints are used to represent drug features. To address the class imbalance problem, the SVM-SMOTE technique—an SVM-based synthetic minority oversampling method—is employed. For model training, a Linear Support Vector Machine (LSVM) algorithm is used. The proposed model was evaluated against several state-of-the-art methods using benchmark datasets, including Enzyme, GPCR, Ion Channel, and Nuclear Receptor. The results demonstrate that the proposed framework achieves superior performance. Extensive experiments were conducted at various stages of model design, using evaluation metrics such as AUC, accuracy, F1-score, and recall, all of which confirm the effectiveness of the proposed approach.
Primary Language | English |
---|---|
Subjects | Machine Learning (Other), Artificial Intelligence (Other) |
Journal Section | Research Paper |
Authors | |
Publication Date | June 30, 2025 |
Submission Date | March 20, 2025 |
Acceptance Date | May 27, 2025 |
Published in Issue | Year 2025 Volume: 9 Issue: 1 |
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.