Biyomedikal görüntüleme, tıp uzmanları için en etkili tıbbi tarama prosedürüdür. Özellikle röntgen görüntüleri, tıbbi teşhis amacıyla yoğun bir şekilde referans noktası olarak kullanılmaktadır. Ancak, röntgen görüntülerinden altta yatan hususları anlamak önemli radyolojik bilgi gerektirir. Bu çalışmada, bir kodlayıcı modülü olarak DenseNet121 sinir ağı mimarisini ve kelime gömme katmanları olarak metinsel veri (altyazılar) öğelerini kullanan bir derin öğrenme modeli, verilen X-ışını görüntülerinin ilgili başlık / altyazı bilgilerini tahmin etmek için eğitilmiştir. Oluşturulan model, özellikle nöral makine çevirisi görevleri için kullanılan tipik bir diziden diziye modeldir. Deneylerde, eğitim ve test aşamaları için Indiana Üniversitesi tarafından hazırlanan Open-i veri tabanı kullanılmıştır. Veri kümesi, bir alan uzmanı tarafından oluşturulan XML formatında saklanan 7.470 X-ray görüntüsü ve 3.955 hasta raporundan oluşmaktadır. Metinsel raporlar izlenimler, bulgular, karşılaştırmalar ve endikasyonlar dahil olmak üzere dört özel başlık içermektedir. Model geliştirme sırasında, izlenim başlıkları altındaki metinsel verilerden eğitim ve test adımlarında yararlanılmıştır. Modelin performansını ölçmek için İki Dilli Değerlendirme Alt Çalışma Puanı (BLUE) hesaplanmış ve birincil performans değerlendirme metriği olarak kullanılmıştır. BLUE puanlarına göre en iyi performans puanı, diğer n-gram setlerine kıyasla (burada n: 1, 2 ve 3) 0,38368 BLUE puanı ile dört kelime (dört gram) tahmin edildiğinde elde edilmiştir. Bu araştırma çalışması, otomatik teşhis amaçlı tıbbi görüntü veri kümelerinde metin oluşturma görevinde diziden diziye modellerin gücünü göstermektedir.
Biomedical imaging is the most effective medical screening procedure for medical specialists. Specifically, X-ray images are intensively used as a reference point for medical diagnostic purposes. However, understanding the underlying matters from the X-ray images requires significant radiological knowledge. In this study, a deep learning model, which employs the DenseNet121 neural network architecture as an encoder module and textual data (captions) items as word embedding layers, is trained to predict the corresponding title/caption information of the given X-ray images. The generated model is a typical sequence-to-sequence model used particularly for neural machine translation tasks. In the experiments, the Open-i database curated by Indiana University is used for the training and testing phases. The dataset consists of 7,470 X-ray images and 3,955 patient reports stored in XML format, composed by a domain expert. The textual reports contain four specific captions, including impressions, findings, comparisons, and indications. During the model development, the textual data under the impression captions was exploited in the training and testing steps. To measure the model’s performance, the Bilingual Evaluation Understudy Score (BLUE) was calculated and utilized as the primary performance evaluation metric. Based on the BLUE scores, the best performance score was achieved when four words (four grams) were predicted with the BLUE score of 0.38368 compared to other n-gram sets (where n: 1, 2, and 3). This research effort demonstrates the power of sequence-to-sequence models on the text generation task in medical image datasets for automatic diagnosing purposes.
Primary Language | English |
---|---|
Subjects | Image Processing, Human-Computer Interaction, Deep Learning, Bioinformatics, Natural Language Processing |
Journal Section | Research Articles |
Authors | |
Publication Date | July 31, 2025 |
Submission Date | August 7, 2024 |
Acceptance Date | March 13, 2025 |
Published in Issue | Year 2025 Volume: 5 Issue: 2 |