Tıbbi metin sınıflandırması, yetersiz eğitim verisi gibi zorluklarla karşılaşarak karmaşık tıbbi metinleri düzenlemektedir. Bu çalışma, sağlık sorunları özetleri ve etiketleri içeren bir veri setine dayanarak tıbbi metinleri sınıflandırmak için yeni bir yöntem önermektedir. Etiketli veri setimize veri temsil teknikleri uyguladık ve metin sınıflandırması için çeşitli makine öğrenmesi algoritmaları kullandık. İlk sonuçlar, sınırlı etiketli veriler nedeniyle yeterli bulunmamıştır. Bunu geliştirmek için, etiketli verileri zenginleştirmek amacıyla etiketlenmemiş bir veri seti kullanarak veri artırma teknikleri uyguladık; bu süreçte BERT tabanlı modeller (BioBERT, ClinicalBERT) kullanılmıştır. Yeni etiketli kayıtları doğrulamak ve veri setine eklemek için çoğunluk oylama ve ağırlıklı çoğunluk oylama gibi farklı oylama mekanizmaları kullanılmıştır. Etiketli verileri artırdıktan sonra, makine öğrenmesi algoritmalarını yeniden uygulanmıştır. Sonuçlar, yaklaşımımızın tıbbi metin sınıflandırmasının performansını önemli ölçüde artırdığını, sınırlı etiketli verilerin getirdiği zorlukları etkili bir şekilde ele aldığını ve genel doğruluğu artırdığını göstermiştir.
BioBERT ClinicalBERT Klinik Metin Sınıflandırması Veri Artırma Oylama Mekanizmaları
Medical text classification organizes complex medical texts, facing challenges like insufficient training data. This paper proposes a novel method for categorizing medical texts based on a dataset of health problem abstracts and their labels. We applied data representation techniques to our labeled dataset and employed various machine learning algorithms for text classification. Initial results were unsatisfactory due to limited labeled data. To enhance this, we applied data augmentation techniques using an unlabeled dataset, utilizing BERT-based models (BioBERT, ClinicalBERT) to enrich the labeled data. Different voting mechanisms, namely hard voting and soft voting were employed to validate and add new labeled records to the dataset. After augmenting the labeled data, machine learning algorithms were re-applied. The results demonstrated that our approach significantly improves the performance of medical text classification, effectively addressing the challenges posed by limited labeled data and enhancing overall accuracy.
BioBERT ClinicalBERT Clinical Text Classification Data Augmentation Voting Mechanisms
| Birincil Dil | İngilizce |
|---|---|
| Konular | Derin Öğrenme, Yarı ve Denetimsiz Öğrenme, Makine Öğrenme (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 6 Aralık 2024 |
| Kabul Tarihi | 13 Şubat 2025 |
| Erken Görünüm Tarihi | 28 Nisan 2025 |
| Yayımlanma Tarihi | 30 Nisan 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 7 Sayı: 1 |