Elektronik dokümanların sayısının büyük bir hızla arttığı günümüzde, otomatik doküman sınıflandırma sistemlerinin, bilgi yönetiminin geleceği açısından çok kritik olduğu değerlendirilmektedir. Bu çalışmanın amacı, teknik dokümanları içeriklerine göre otomatik olarak sınıflandırmaktır. Teknik doküman olarak, birçok terimin sıralanmasıyla oluşan bilgisayar mühendisliği lisans programlarında açılan derslerin içerikleri kullanılmaktadır. Bu çalışmada, danışmansız öğrenme özelliğine sahip Kendinden Düzenlenen Haritalar (SOM) kullanılarak ders içeriklerini otomatik olarak sınıflandıran bir sistem önerilmektedir. Sınıflandırma işleminden önce ders içerikleri üzerinde çeşitli önişlemlerin uygulanması gerekmektedir. Dokümanlardaki durak kelimeleri (bağlaç, zamir v.s.) temizlendikten sonra kelimelerin kökleri bulunmaktadır. Sadece bir dokümanda geçen kelimeler ayırt edici olmadığından dolayı atılmaktadır. Çok tekrar eden kelimeler ise, diğer uygulamalardan farklı olarak burada oldukça anlamlı ve önemli terimler olarak görüldüğü için atılmamaktadır. Daha sonra terim frekansı ve ters doküman frekansı verileri kullanılarak ağırlık vektörleri hesaplanıp normalize edilmiştir. Her ders için hesaplanan bu vektörler kullanılarak kendinden düzenlenen haritalar yöntemi ile sınıflandırma yapılmıştır. Sonuçlar, karşılaştırma amacıyla k-ortalama algoritmasının çıktıları ile birlikte gösterilmiştir. Ders içeriklerini kullanarak yapılan bu sınıflandırma çalışması ile, bir bölümün derslerinin arasındaki içeriğe dayalı ilişkiler açık bir şekilde görülmektedir. Ayrıca farklı üniversitelerin farklı kodlara ve adlara sahip fakat içerik olarak benzer olan dersleri, SOM haritası üzerinde başarılı bir şekilde birbirine yakın çıkmaktadır.
Doküman sınıflandırma kendinden düzenlenen haritalar ders içerikleri.
Birincil Dil | Türkçe |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 14 Şubat 2013 |
Gönderilme Tarihi | 14 Şubat 2013 |
Yayımlandığı Sayı | Yıl 2009 Cilt: 24 Sayı: 2 |