Doğal dil işleme çalışmaları, yapay zekada olduğu gibi veri artışına bağlı olarak hız kazanan alanlardan biridir. Bu çalışmada, ele alınan hukuk dokümanlarının da zaman içerisinde örnekleri artmaktadır. Bir davada emsal olarak gösterilen başka bir davanın tespiti, dava seyrini tamamıyla değiştirmesi nedeniyle oldukça önemlidir. Emsal dava tespitini ele alan bu çalışmada, Ulusal Yargı Ağı Projesi (UYAP) bilgi bankası üzerinden bir veri seti oluşturulmuştur. Davaların incelenmesi ile elde edilen dava şablonları kullanılarak, farklı kısımların girdi ve çıktı sağladığı metinden metin elde edilmesini sağlayan LSTM modeli ile üç farklı sistem oluşturulmuştur. Sistemlerden sağlanan metin çıktıları, farklı BERT modellerinden elde edilen temsil vektörlerinden, FAISS kütüphanesi yardımıyla hızlı bir şekilde test verileri için en yakın dokümanlar elde edilmiştir. 5 farklı dava tipi kategorisindeki test hukuk dokümanlarının, kategori kümelerindeki dokümanlar arasından en benzer 10 dokümanı iki avukat tarafından ayrı ayrı işaretlenmiştir. Sistemlerden elde edilen ve avukatların işaretlediği sonuçlar karşılaştırılmış, benzerlikler örneklerle açıklanarak paylaşılmıştır.
IDEA Teknoloji Çözümleri
UYAP verilerinin hazırlanmasında bizlere yardımcı olan Enes Almahdi’ye teşekkür ederiz.
The natural language processing studies are one of the study fields in artificial intelligence that gain momentum increasing data. The legal documents discussed in this study are also increasing in time. It is very important to show another case which is sentenced as expected called precedent document, as it could completely change the direction of the case. In this study, which deals with the detection of precedent cases, a data set was created via the National Judiciary Informatics System (UYAP) data bank. Using the case templates obtained by studying on the documents, three different systems are created with the sequence to sequence LSTM model, which allows to generate text from the text that different parts provides input and output. After generating the output of the systems,text representation vectors are created using different bert models. The created vectors are used to detect the most similar documents via FAISS library. The test legal documents are selected within 5 different case category clusters. Two lawyers helped us to define the most similar 10 documents within the category clusters of the defined 5 test legal documents. The most similar 10 documents output of the systems are also generated. The results of all systems are shared with the comparison by the annotated results explaining with the examples.
Precedent documents Sequence to sequence neural networks Text similarity
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2021 |
Yayımlandığı Sayı | Yıl 2021 |