COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS

Hafize Kızılkaya; Fatma Nur Ortataş; Kemal Üreten

doi:10.16919/bozoktip.1859321

EN TR

COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS

Öz

Objective: Radiographic assessment of knee osteoarthritis (OA) commonly relies on the Kellgren–Lawrence (KL) grading system; however, its subjective nature leads to considerable inter- and intra-observer variability, particularly in early disease stages. This study aimed to comparatively evaluate pre-trained deep learning models for automated KL grading of knee OA from plain radiographs using an ordinal-aware learning and evaluation framework. Materials and Methods: This retrospective experimental study utilized 8,260 knee radiographs obtained from the publicly available Osteoarthritis Initiative (OAI) dataset, with expert-assigned KL grades ranging from 0 to 4. Five pre-trained convolutional neural network architectures (VGG-16, ResNet-50, DenseNet-121, EfficientNetB0, and InceptionV3) were implemented using transfer learning. All models were trained under identical preprocessing, augmentation, class-balancing, and hyperparameter settings to ensure fair comparison. An ordinal CORAL-based loss function was employed to model the ordered nature of KL grades. Model performance was primarily evaluated using quadratic weighted kappa (QWK), along with accuracy, balanced accuracy, macro-F1 score, ROC–AUC, and precision–recall analyses. Decision curve analysis (DCA) was conducted at clinically relevant thresholds (KL ≥ 2 and KL ≥ 3) to assess potential clinical utility. Results: Among the evaluated architectures, VGG-16 achieved the highest ordinal agreement on the independent test set (QWK = 0.830), with a macro-F1 score of 0.676 and balanced accuracy of 0.684. Overall, model performance was higher for moderate-to-severe OA stages (KL grades 3 and 4), while lower discriminative performance was observed for early-stage disease, particularly KL grade 1. Confusion matrix analysis demonstrated that most misclassifications occurred between adjacent KL grades, indicating clinically plausible ordinal behavior. Decision curve analysis revealed that the proposed ordinal deep learning model provided a consistently higher net benefit than treat-all and treat-none strategies across a wide range of threshold probabilities for both KL ≥ 2 and KL ≥ 3 scenarios. Conclusion: Ordinal-aware deep learning models can effectively perform automated KL grading of knee osteoarthritis from plain radiographs, yielding clinically meaningful and interpretable results. The proposed framework reduces observer-dependent variability and demonstrates potential as a decision-support tool for both early and advanced stages of knee OA. Further validation using multi-center datasets is warranted to enhance clinical generalizability.

Anahtar Kelimeler

Radyografiler Kullanılarak Diz Osteoartritinin Otomatik Kellgren-Lawrence Derecelendirilmesi için Önceden Eğitilmiş Derin Öğrenme Modellerinin Karşılaştırmalı Değerlendirmesi

Öz

Amaç: Diz osteoartritinin (OA) radyografik değerlendirilmesi yaygın olarak Kellgren–Lawrence (KL) derecelendirme sistemi ile yapılmaktadır; ancak bu sistemin öznel niteliği, özellikle hastalığın erken evrelerinde gözlemciler arası ve gözlemci içi önemli değişkenliğe yol açmaktadır. Bu çalışma, düz radyografilerden otomatik KL derecelendirmesi için önceden eğitilmiş derin öğrenme modellerini, sıralı (ordinal) farkındalığa sahip öğrenme ve değerlendirme çerçevesi kullanarak karşılaştırmalı olarak değerlendirmeyi amaçlamıştır. Gereç ve Yöntemler: Bu retrospektif deneysel çalışmada, 0 ile 4 arasında uzman tarafından atanan KL dereceleri ile kamuya açık Osteoarthritis Initiative (OAI) veri setinden elde edilen 8.260 diz radyografisi kullanılmıştır. Beş önceden eğitilmiş konvolüsyonel sinir ağı mimarisi (VGG-16, ResNet-50, DenseNet-121, EfficientNetB0 ve InceptionV3), transfer öğrenimi kullanılarak uygulanmıştır. Adil bir karşılaştırma sağlamak için tüm modeller özdeş ön işleme, artırma, sınıf dengesi ve hiperparametre ayarları altında eğitilmiştir. KL derecelerinin sıralı doğasını modellemek için sıralı (ordinal) CORAL tabanlı bir kayıp fonksiyonu kullanılmıştır. Model performansı öncelikle kare ağırlıklı kappa (QWK) ile değerlendirilmiş; ayrıca doğruluk, dengeli doğruluk, makro-F1 skoru, ROC–AUC ve hassasiyet–duyarlılık analizleri de gerçekleştirilmiştir. Klinik olarak anlamlı eşiklerde (KL ≥ 2 ve KL ≥ 3) potansiyel klinik faydayı değerlendirmek üzere karar eğrisi analizi (DCA) yapılmıştır. Bulgular: Değerlendirilen mimariler arasında, VGG-16 bağımsız test setinde en yüksek sıralı uyumu (QWK = 0.830) göstermiş; makro-F1 skoru 0.676 ve dengeli doğruluk 0.684 olarak bulunmuştur. Genel olarak, modeller orta ve ileri OA evrelerinde (KL 3 ve 4) daha yüksek performans sergilerken, özellikle erken evre hastalıkta (KL 1) ayrım performansı daha düşük olmuştur. Karışıklık matrisi analizleri, çoğu yanlış sınıflandırmanın bitişik KL dereceleri arasında gerçekleştiğini göstermiş olup bu durum klinik olarak beklenen sıralı davranışı yansıtmaktadır. Karar eğrisi analizi, önerilen sıralı derin öğrenme modelinin, hem KL ≥ 2 hem de KL ≥ 3 senaryolarında tüm hastaları tedavi etme ve hiç tedavi etmeme stratejilerine kıyasla geniş bir olasılık aralığında daha yüksek net fayda sağladığını ortaya koymuştur. Sonuç: Sıralı farkındalığa sahip derin öğrenme modelleri, düz radyografilerden otomatik KL derecelendirmesi yaparak klinik açıdan anlamlı ve yorumlanabilir sonuçlar verebilmektedir. Önerilen çerçeve, gözlemciye bağlı değişkenliği azaltmakta ve diz OA’nın erken ve ileri evrelerinde bir karar destek aracı olarak potansiyel göstermektedir. Klinik genellenebilirliği artırmak için çok merkezli veri setleri ile ileri doğrulamaya ihtiyaç vardır.

Anahtar Kelimeler

Destekleyen Kurum

YOZGAT BOZOK ÜNİVERSİTESİ

Etik Beyan

Bu çalışma için etik kurul onayı gerekip gerekmediğinin değerlendirilmesi amacıyla Yozgat Bozok Üniversitesi Girişimsel Olmayan Klinik Araştırmalar Etik Kurulu’na başvuruda bulunulmuştur.

Teşekkür

Çalışmamızın değerlendirilmesine zaman ayıran Sayın Editör’e ve değerli hakemlere, yapıcı geri bildirimleri ve bilimsel katkıları için teşekkür ederiz. Görüş ve önerilerinin, çalışmamızın bilimsel niteliğini ve sunum kalitesini artırmada önemli katkı sağladığına inanıyoruz.

Kaynakça

1. Karataş T, Yılmaz E, Polat Ü. Osteoartrit yönetimi, yaşam kalitesi ve hemşirenin destekleyici rolü. Med J SDU. 2022;29(2):265-71.
2. Yıldız K, Çelik S, Taşkın E, Boy F, Aygün Ü. Osteoartrit tanılı hastalarda platelet indekslerinin incelenmesi. Van Saglik Bilim Derg. 2024;17(3):131-5.
3. Bilge A, Ulusoy RG, Üstebay S, Öztürk Ö. Osteoartrit. Kafkas J Med Sci. 2018;8(1):133-42.
4. Misir A, Yildiz KI, Kizkapan TB, Incesoy MA. Kellgren–Lawrence grade of osteoarthritis is associated with change in certain morphological parameters. Knee. 2020;27(3):633-41.
5. Kohn MD, Sassoon AA, Fernando ND. Classifications in brief: Kellgren–Lawrence classification of osteoarthritis. Clin Orthop Relat Res. 2016;474(8):1886-93.
6. Zhao H, Ou L, Zhang Z, Zhang L, Liu K, Kuang J. The value of deep learning-based X-ray techniques in detecting and classifying Kellgren–Lawrence grades of knee osteoarthritis: a systematic review and meta-analysis. Eur Radiol. 2025;35:327-40.
7. Köse Ö, Acar B, Çay F, Yilmaz B, Güler F, Yüksel HY. Inter- and intraobserver reliabilities of four different radiographic grading scales of osteoarthritis of the knee joint. J Knee Surg. 2018;31(3):247-53.
8. Li W, Xiao Z, Liu J, Feng J, Zhu D, Liao J, et al. Deep learning-assisted knee osteoarthritis automatic grading on plain radiographs: the value of multiview X-ray images and prior knowledge. Quant Imaging Med Surg. 2023;13(6):3587-601.

9. Abdullah SS, Rajasekaran MP. Automatic detection and classification of knee osteoarthritis using deep learning approach. Radiol Med. 2022;127:398-406.
10. Olsson S, Akbarian E, Lind A, Razavian A.S, Gordon M. Automating classification of osteoarthritis according to Kellgren–Lawrence in the knee using deep learning in an unfiltered adult population. BMC Musculoskelet Disord. 2021;22(1):844.
11. Kalpana V, Kumar GH. Evaluating the efficacy of deep learning models for knee osteoarthritis prediction based on Kellgren–Lawrence grading system. e-Prime Adv Electr Eng Electron Energy. 2023;5:100266.
12. Kishore VV, Batthala S, Chamarthi JV, Achyutasai C. Knee osteoarthritis prediction driven by deep learning and the Kellgren–Lawrence grading. Proc Eng Sci. 2023;5(3):475-84.
13. Nasef D, Nasef D, Sawiris V, Girgis P, Toma M. Deep learning for automated Kellgren–Lawrence grading in knee osteoarthritis severity assessment. Surgeries. 2024;6(1):3.
14. Vaattovaara E, Panfilov E, Tiulpin A, Niinimäki T, Niinimäki J, Saarakkala S, et al. Kellgren–Lawrence grading of knee osteoarthritis using deep learning: diagnostic performance with external dataset and comparison with four readers. Osteoarthritis Cartilage Open. 2025;7(2):100580.
15. Kılıç Ş. Densenet201+ with multi-scale attention and deep feature engineering for automated Kellgren–Lawrence grading of knee osteoarthritis. Peer J Comput Sci. 2025;11:e3329.
16. Solak FZ. Classification of knee osteoarthritis severity by transfer learning from X-ray images. Karaelmas Fen ve Muhendislik Derg. 2024;14(2):119-33.
17. Mohammed AS, Hasanaath AA, Latif G, Bashar A. Knee osteoarthritis detection and severity classification using residual neural networks on preprocessed X-ray images. Diagnostics. 2023;13(8):1380.
18. Yang J, Ji Q, Ni M, Zhang G, Wang Y. Automatic assessment of knee osteoarthritis severity in portable devices based on deep learning. J Orthop Surg Res. 2022;17:540.
19. Dalia Y, Bharath A, Mayya V, Kamath SS. DeepOA: clinical decision support system for early detection and severity grading of knee osteoarthritis. In: Proc IEEE 5th Int Conf Computer, Communication and Signal Processing (ICCCSP); 2021 May 24–25; Chennai, India. p. 250–5.
20. Wahyuningrum RT, Yasid A, Verkerke GJ. Deep neural networks for automatic classification of knee osteoarthritis severity based on X-ray images. In: Proc 8th Int Conf Information Technology (ICIT 2020); 2020 Dec 25–27; Xi’an, China. p. 110–4.
21. Yong CW, Teo K, Murphy BP, Hum YC, Tee YK, Xia K, et al. Knee osteoarthritis severity classification with ordinal regression module. Multimed Tools Appl. 2021;81:41497-509.
22. Ruikar D, Kamble P, Ruikar A, Houde K, Hegadi R. DNN-based knee osteoarthritis severity prediction system: pathologically robust feature engineering approach. SN Comput Sci. 2022;4:58.
23. Jain RK, Sharma PK, Gaj S, Sur A, Ghosh P. Knee osteoarthritis severity prediction using an attentive multi-scale deep convolutional neural network. arXiv. 2021;arXiv:2106.14292.
24. Yunus U, Amin J, Sharif M, Yasmin M, Kadry S, Krishnamoorthy S. Recognition of knee osteoarthritis using YOLOv2 and convolutional neural network-based classification. Life. 2022;12:1126.
25. Raisuddin AM, Nguyen HH, Tiulpin A. Deep semi-supervised active learning for knee osteoarthritis severity grading. In: Proc IEEE Int Symp Biomedical Imaging (ISBI); 2022 Mar 28–31; Kolkata, India. p. 1–5.
26. Wang Y, Bi Z, Xie Y, Wu T, Zeng X, Chen S, et al. Learning from highly confident samples for automatic knee osteoarthritis severity assessment: data from the Osteoarthritis Initiative. IEEE J Biomed Health Inform. 2022;26:1239-50.
27. Alshamrani HA, Rashid M, Alshamrani SS, Alshehri AHD. Osteo-NeT: an automated system for predicting knee osteoarthritis from X-ray images using transfer-learning-based neural networks. Healthcare. 2023;11:1206.

Ayrıntılar

Birincil Dil

İngilizce

Konular

İç Hastalıkları, Romatoloji ve Artrit

Bölüm

Araştırma Makalesi

Yazarlar

Hafize Kızılkaya ^*
0000-0002-4878-9958
Türkiye

Fatma Nur Ortataş
0000-0001-7897-9958
Türkiye

Kemal Üreten
0000-0002-7673-4399
Türkiye

Yayımlanma Tarihi

15 Mart 2026

Gönderilme Tarihi

8 Ocak 2026

Kabul Tarihi

24 Şubat 2026

Yayımlandığı Sayı

Yıl 2026 Cilt: 16 Sayı: 1

DOI

https://doi.org/10.16919/bozoktip.1859321

IZ

https://izlik.org/JA74YB83PW

Kaynak Göster

RIS / Bibtex

APA

Kızılkaya, H., Ortataş, F. N., & Üreten, K. (2026). COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS. Bozok Tıp Dergisi, 16(1), 115-125. https://doi.org/10.16919/bozoktip.1859321

AMA

1.Kızılkaya H, Ortataş FN, Üreten K. COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS. Bozok Tıp Dergisi. 2026;16(1):115-125. doi:10.16919/bozoktip.1859321

Chicago

Kızılkaya, Hafize, Fatma Nur Ortataş, ve Kemal Üreten. 2026. “COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS”. Bozok Tıp Dergisi 16 (1): 115-25. https://doi.org/10.16919/bozoktip.1859321.

EndNote

Kızılkaya H, Ortataş FN, Üreten K (01 Mart 2026) COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS. Bozok Tıp Dergisi 16 1 115–125.

IEEE

[1]H. Kızılkaya, F. N. Ortataş, ve K. Üreten, “COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS”, Bozok Tıp Dergisi, c. 16, sy 1, ss. 115–125, Mar. 2026, doi: 10.16919/bozoktip.1859321.

ISNAD

Kızılkaya, Hafize - Ortataş, Fatma Nur - Üreten, Kemal. “COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS”. Bozok Tıp Dergisi 16/1 (01 Mart 2026): 115-125. https://doi.org/10.16919/bozoktip.1859321.

JAMA

1.Kızılkaya H, Ortataş FN, Üreten K. COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS. Bozok Tıp Dergisi. 2026;16:115–125.

MLA

Kızılkaya, Hafize, vd. “COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS”. Bozok Tıp Dergisi, c. 16, sy 1, Mart 2026, ss. 115-2, doi:10.16919/bozoktip.1859321.

Vancouver

1.Hafize Kızılkaya, Fatma Nur Ortataş, Kemal Üreten. COMPARISON OF THE PERFORMANCE OF PRETRAINED DEEP LEARNING MODELS FOR THE AUTOMATIC KELLGREN-LAWRENCE GRADING OF KNEE OSTEOARTHRITIS USING PLAIN RADIOGRAPHS. Bozok Tıp Dergisi. 01 Mart 2026;16(1):115-2. doi:10.16919/bozoktip.1859321