Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri

Eda Çetin; İlayda Kaya; Furkan Göz

doi:10.65206/pajes.1868918

TR EN

Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri

Öz

Arka Plan—Hukuk alanında yapay zekânın, hem mevcut kurumlara entegre edilen destekleyici sistemler hem de tamamen yapay zekâ merkezli yeni nesil hukuk teknolojisi girişimleri şeklinde geliştiği görülmektedir. Ancak Türkiye özelinde hukuk teknolojileri alanındaki çalışmaların dünya literatürüne kıyasla oldukça sınırlı olduğu görülmektedir. Bu sınırlılık, Türkçenin eklemeli yapısının NLP uygulamaları için karmaşık dilbilimsel zorluklar oluşturmasıyla ilişkilendirilmektedir. Suç türü sınıflandırması hem hukuki araştırma süreçlerini hızlandırmak hem de benzer davaların tespitini kolaylaştırmak açısından kritik bir rol oynamaktadır. Amaç—Bu çalışmanın amacı, açık kaynaklı Türkçe ceza davası karar metinlerini kullanarak klasik makine öğrenmesi ve derin öğrenme tabanlı modellerin Türkçe hukuk terminolojisi üzerindeki performanslarını karşılaştırmalı olarak analiz etmek ve otomatik metin sınıflandırması için en uygun modeli belirlemektir. Ayrıca analizler sonucunda en yüksek başarımı gösteren model kullanılarak gerçek zamanlı bir sınıflandırma sistemi geliştirip ve sistemin uygulanabilirliği test edilmektir. Yöntem— Web kazıma kullanılarak Ceza Dairesi karar metinlerinden oluşan ve yedi farklı suç türünü içeren bir veri seti oluşturulmuştur. Veri seti oluşturulurken ilk olarak web sitesinden çekilen metinler incelenmiş ve yalnızca suç türü bilgisi içerenler filtrelenmiştir. Ardından, suç türleri belirlenerek bunlara göre metinler etiketlenmiştir. Anlamsal olarak benzer olan bazı sınıflar birleştirilmiştir. Son aşamada etiketli veri seti temizlenmiş, metinlerin içerisinde yer alan etiket bilgileri çıkarılmış ve çok kısa olan metinler veri setinden kaldırılmıştır. Oluşturulan nihai veri seti, yedi farklı yapay öğrenme modeli kullanılarak eğitilmiştir. Bu modeller; TF-IDF + Naive Bayes, TF-IDF + Logistic Regression, TF-IDF + SVM, FastText + SVM, FastText + BiLSTM, BERT, RoBERTa ve DistilBERT’tir. Model performansları doğruluk ve F1-skor ölçütleri kullanılarak karşılaştırılmıştır. Elde edilen sonuçlara göre en yüksek doğruluğu sağlayan FastText + SVM modeli ile üretken yapay zeka tabanlı GPT-4o-mini modeli, eğitim veri kümesinde yer almayan veriler üzerinde gerçek zamanlı olarak test edilmiştir. Bulgular—Geleneksel makine öğrenmesi yöntemlerinden TF-IDF + SVM, %95.71 F1 skoru ile en yüksek performansı elde etmiştir. SVM'in, TF-IDF gibi terim sıklığına dayalı özellik çıkarma yöntemi karar metinlerinde sıkça yer alan ve ayırt edici gücü yüksek anahtar kelimelerin etkili biçimde temsil etmesi sayesinde derin öğrenme modellerini geride bırakmıştır. Gerçek zamanlı test aşamasında eğitilmiş TF-IDF + SVM modeli ile az örnekli öğrenme yaklaşımı kullanılan GPT-4o-mini modeli eğitim veri kümesinde yer almayan veriler üzerinde karşılaştırılmıştır. İki yaklaşım da %85.71 doğruluk ile eşdeğer performans sergilemiştir. Ancak TFIDF + SVM milisaniyeler içinde yanıt üretirken, LLM tabanlı sistemlerin yanıt süresinin daha uzun olması ve API maliyetleri, gerçek zamanlı, büyük ölçekli uygulamalar açısından önemli bir farklılık olarak öne çıkmıştır. Sonuç—Yapay öğrenme modelleri kullanılarak yapılan sınıflandırmalarda TF-IDF + SVM yönteminin, Türk dava karar metinlerindeki suç türlerini sınıflandırmada etkili olduğu gözlemlenmiştir. Bu yöntem, yapay zeka destekli hukuk sistemlerinde karar destek mekanizmalarına entegre edilebilir. Gelecekteki çalışmalar, Türk hukuk dava metinlerini kullanarak daha büyük veri setleri üzerinde ve daha geniş suç türlerini kapsayan sınıflandırma yaklaşımlarını araştırabilir.

Anahtar Kelimeler

Classification of Turkish Legal Texts: Supervised Learning and Large Language Models

Abstract

Context—Artificial intelligence in the legal domain has been evolving both as supportive systems integrated into existing institutions and as next-generation legal technology initiatives centered entirely on AI. However, in Türkiye, studies in the field of legal technologies remain quite limited compared to the global literature. This limitation is largely associated with the agglutinative nature of the Turkish language, which poses complex linguistic challenges for natural language processing applications. Crime type classification plays a critical role in accelerating legal research processes and facilitating the identification of similar cases. Objective—The objective of this study is to comparatively analyze the performance of classical machine learning and deep learning–based models on Turkish legal terminology using open-source Turkish criminal court decision texts, and to determine the most suitable model for automatic text classification. Additionally, based on the analysis results, a real-time classification system is developed using the model that achieves the highest performance, and the applicability of the system is evaluated. Method—A dataset consisting of Court of Criminal Chamber decision texts and covering seven different crime types was constructed using web scraping techniques. During dataset creation, the collected texts were first examined and filtered to retain only those containing crime type information. Subsequently, crime types were identified, and the texts were labeled accordingly. Some semantically similar classes were merged. In the final stage, the labeled dataset was cleaned by removing embedded label information from the texts and excluding very short documents. The resulting dataset was trained using seven different machine learning models: TF-IDF + Naive Bayes, TF-IDF + Logistic Regression, TF-IDF + SVM, FastText + SVM, FastText + BiLSTM, BERT, RoBERTa, and DistilBERT. Model performances were compared using accuracy and F1-score metrics. According to the results, the FastText + SVM model and the generative AI–based GPT-4o-mini model were tested in real time on data not included in the training dataset. Results—Among traditional machine learning approaches, TF-IDF + SVM achieved the highest performance with an F1-score of 95.71%. The superiority of SVM when combined with term-frequency–based feature extraction such as TF-IDF is attributed to its effective representation of highly discriminative keywords frequently present in court decision texts. In the real-time testing phase, the trained TF-IDF + SVM model and the GPT-4o-mini model employing a few-shot learning approach were evaluated on unseen data. Both approaches achieved an equal accuracy of 85.71%. However, while TF-IDF + SVM produced responses within milliseconds, the longer response times and API costs of LLM-based systems emerged as significant considerations for real-time, large-scale applications. Conclusion—The findings indicate that the TF-IDF + SVM method is effective for classifying crime types in Turkish court decision texts. This approach can be integrated into decision-support mechanisms within AI-assisted legal systems. Future studies may explore classification approaches covering a wider range of crime types using larger datasets derived from Turkish legal case texts.

Keywords

Kaynakça

[1] R. Susskind, Tomorrow’s lawyers: An introduction to your future, Third Edition, Oxford, United Kingdom, Oxford University Press, 2023.
[2] K. D. Ashley, Artificial intelligence and legal analytics: new tools for law practice in the digital age, Cambridge, United Kingdom, Cambridge University Press, 2017.
[3] I. Chalkidis, M. Fergadiotis, P. Malakasiotis, N. Aletras, I. Androutsopoulos, "LEGAL-BERT: The Muppets straight out of Law School", Findings of the Association for Computational Linguistics: EMNLP, Editors: T. Cohn, Y. He, Y. Liu, (Online), Association for Computational Linguistics, 2020, 2898-2904.
[4] Harvey, “Harvey | Generative AI for Professional Services”, https://www.harvey.ai/ (20.12.2025).
[5] LexisNexis, “Lexis+AI”, https://www.lexisnexis.com/en-int/ products/lexis-plus-ai (20.12.2025).
[6] Thomson Reuters, “Westlaw Edge”, https://legal.thomsonreuters. com/en/products/westlaw-edge (20.12.2025).
[7] DoNotPay, “DoNotPay - Your AI Consumer Champion”, https://donotpay.com/ (20.12.2025).
[8] ROSS Intelligence, “ROSS Intelligence - Legal Tech Corner”, https://blog.rossintelligence.com/ (20.12.2025).

[9] C. Çetindağ, B. Yazıcıoğlu, A. Koç, “Named-entity recognition in Turkish legal texts”, Natural Language Engineering, 29(3), (2023), 615-642.
[10] O. Akça, “Natural language processings in legal domain: classification of Turkish legal texts”, Yüksek Lisans Tezi, Marmara Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye, 2023.
[11] E. Mumcuoğlu, C. E. Öztürk, H. M. Ozaktas, A. Koç, “Natural language processing in law: Prediction of outcomes in the higher courts of Turkey”, Information Processing and Management, 58(5), (2021), 102684.
[12] O. Akça, G. Bayrak, A. M. Issifu, M. C. Ganiz, “Traditional machine learning and deep learning-based text classification for Turkish law documents using transformers and domain adaptation”, 2022 International Conference on INnovations in Intelligent SysTems and Applications (INISTA), Biarritz, Fransa, 08-12 Ağustos 2022.
[13] M. B. Görentaş, T. Uçkan, “Makine Öğrenmesi Yöntemleri Kullanılarak Mahkeme Kararlarlarının Kümelenmesi”, Journal of Computer Science, 8(2), (2023), 148-158.
[14] D. Küçük, F. Can, “Exploiting artificial intelligence technologies for automatic processing of legal texts”, Bilişim Hukuku Dergisi, 6(1), (2024), 1-23.
[15] M. E. Okursoy, T. İnkaya, “Yüksek Mahkeme Kararlarının Sınıflandırılması için Veri Dengeleme ve Açıklanabilir Yapay Zekâ Tabanlı Karar Destek Sistemi”, Veri Bilimi, 8(1), (2025), 11-23.
[16] S. K. Demir, E. Aydemir, Y. Sönmez, “Türkiye'de Emsal Kararların Makine Öğrenmesi Algoritmaları ile Sınıflandırılması”, Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji, 13(3), (2025), 1227-1239.
[17] B. Kılıç, Y. Öner, “Yargıtay Kararlarının Suç Türlerine Göre Makine Öğrenmesi Yöntemleri İle Sınıflandırılması”, Veri Bilimi, 4(3), (2021), 61-71.
[18] F. Ariai, J. Mackenzie, G. Demartini, “Natural language processing for the legal domain: A survey of tasks, datasets, models, and challenges”, ACM Computing Surveys, 58(6), (2025), 163.
[19] B. Abimbola, Q. Tan, E. A. De La Cal Marín, “Sentiment analysis of Canadian maritime case law: a sentiment case law and deep learning approach”, International Journal of Information Technology, 16(6), (2024), 3401-3409.
[20] É. B. e Santos, I. A. Rodello, “Interpreting Lawsuits Contexts through Probabilistic Topic Modeling”, Revista Eletrônica de Iniciação Científica em Computação, 23(1), (2025), 81-90.
[21] D. Singh, “Legal documents text analysis using natural language processing (NLP)”, 2024 2nd International Conference on Self Sustainable Artificial Intelligence Systems (ICSSAS), Erode, India, 23-25 October 2024, 1302-1307.
[22] A. Zadgaonkar, A. J. Agrawal, “An approach for analyzing unstructured text data using topic modeling techniques for efficient information extraction”, New Generation Computing, 42(1), (2024), 109-134.
[23] D. Trautmann, N. Ostapuk, Q. Grail, A. Pol, G. Bonifazi, S. Gao, M. Gajek, “Measuring the groundedness of legal question-answering systems”, Proceedings of the Natural Legal Language Processing Workshop 2024, Miami, FL, USA, 15 November 2024, 176-186.
[24] S. Çelik, B. Doğanlı, A. Cengiz, “Citation classification and key phrase extraction in legal texts using machine learning: an examination of the legal text classification dataset“, Quality & Quantity, 60, (2026), 6645-6681.
[25] T. Turan, E. U. Küçüksille, “Legal text classification in Turkey: A machine learning approach to divorce and zoning decisions”, Uluslararası Mühendislik Tasarım ve Teknoloji Dergisi, 6(2), (2024), 53–63.
[26] H. H. Chen, L. Wu, J. P. Chen, W. Lu, J. H. Ding, “A comparative study of automated legal text classification using random forests and deep learning”, Information Processing & Management, 59(2), (2022), 102798.
[27] A. A. Khaliq, D. Riva, S. Montanelli, "Evaluating knowledge-based approaches for legal text analysis: A benchmark study", Computer Law & Security Review, 61, (2026), 106279.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Doğal Dil İşleme

Bölüm

Araştırma Makalesi

Yazarlar

Eda Çetin
0009-0003-5434-9478
Türkiye

İlayda Kaya
0009-0003-0932-4116
Türkiye

Furkan Göz ^*
0000-0002-6726-3679
Türkiye

Erken Görünüm Tarihi

25 Nisan 2026

Yayımlanma Tarihi

-

Gönderilme Tarihi

21 Ocak 2026

Kabul Tarihi

31 Mart 2026

Yayımlandığı Sayı

Yıl 2026 Sayı: Advanced Online Publication

DOI

https://doi.org/10.65206/pajes.1868918

IZ

https://izlik.org/JA33UH35HX

Kaynak Göster

RIS / Bibtex

APA

Çetin, E., Kaya, İ., & Göz, F. (2026). Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, Advanced Online Publication. https://doi.org/10.65206/pajes.1868918

AMA

1.Çetin E, Kaya İ, Göz F. Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2026;(Advanced Online Publication). doi:10.65206/pajes.1868918

Chicago

Çetin, Eda, İlayda Kaya, ve Furkan Göz. 2026. “Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, sy Advanced Online Publication. https://doi.org/10.65206/pajes.1868918.

EndNote

Çetin E, Kaya İ, Göz F (01 Nisan 2026) Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Advanced Online Publication

IEEE

[1]E. Çetin, İ. Kaya, ve F. Göz, “Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, sy Advanced Online Publication, Nis. 2026, doi: 10.65206/pajes.1868918.

ISNAD

Çetin, Eda - Kaya, İlayda - Göz, Furkan. “Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. Advanced Online Publication (01 Nisan 2026). https://doi.org/10.65206/pajes.1868918.

JAMA

1.Çetin E, Kaya İ, Göz F. Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2026. doi:10.65206/pajes.1868918.

MLA

Çetin, Eda, vd. “Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, sy Advanced Online Publication, Nisan 2026, doi:10.65206/pajes.1868918.

Vancouver

1.Eda Çetin, İlayda Kaya, Furkan Göz. Türkçe Hukuk Metinlerinin Sınıflandırılması: Gözetimli Öğrenme ve Büyük Dil Modelleri. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 01 Nisan 2026;(Advanced Online Publication). doi:10.65206/pajes.1868918