The BERT deep learning technique, which is developed by Google in October 2018, has become very popular in the world of machine learning and natural language processing. BERT, which stands for Bidirectional Encoder Representations of Transformers, can be explained as a natural language processing technique that uses artificial intelligence and machine learning technologies together. Nowadays, classification problems that are part of the supervised learning methodology are frequently encountered. Classification is based on the ability of a trained machine to predict and classify new data. The purpose is to distribute data between classes defined on a dataset. In Turkish many of the difficulties arise from being an agglutinative language and having a rich but complex morphology. These difficulties cause hard to solving multiclass classification problems. However, it has become more easily solvable with using BERT deep learning technique. We used academic research and scientific studies written in Turkish in the last 10 years as our dataset. We fine-tuned our dataset on a pre-trained Turkish BERT model by applying BERT deep learning technique to use in multiclass classification problems. As a result of experiments, it is seen that the accuracy of the system we have trained has achieved 96% accuracy.
Machine Learning Natural Language Processing Deep Learning Multiclass Classification BERT
Ekim 2018 yılında Google tarafından geliştirilen BERT derin öğrenme tekniği, makine öğrenimi ve doğal dil işleme dünyasında çok popüler oldu. Transformatörlerin Çift Yönlü Kodlayıcı Gösterimleri anlamına gelen BERT, yapay zeka ve makine öğrenimi teknolojilerini bir arada kullanan bir doğal dil işleme tekniği olarak açıklanabilir. Günümüzde, gözetimli öğrenme metodolojisinin bir parçası olan sınıflandırma problemleriyle çokça karşılaşılmaktadır. Sınıflandırmanın temeli eğitilen bir makinenin yeni gelen bir veri hakkında tahminleme yapabilmesine ve sınıflandırabilmesine dayanır. Buradaki amaç bir veri kümesi üzerinde tanımlı olan sınıflar arasında veriyi dağıtabilmektir. Türkçe'nin morfolojisinin zengin ama karmaşık olması, sondan eklemeli bir dil olması ve dil bilgisinden kaynaklanan zorluklar çoklu sınıflandırma problemlerinin çözümünde başlıca sorun teşkil etmekte iken BERT derin öğrenme tekniği ile bu sorun daha kolay çözülebilir hale gelmiştir. Bu çalışmada, son 10 yıl içinde Türkçe dili ile yazılmış akademik araştırma ve bilimsel çalışmalar veri seti olarak kullanıldı. Çoklu sınıflandırma problemlerinde kullanmak üzere, veri setine BERT derin öğrenme tekniği uygulanarak önceden eğitilmiş Türkçe bir BERT modeli üzerinde ince ayar (fine-tuning) yapıldı. Deneylerin sonucunda, eğitilmiş olan sistemin doğruluğu %96 başarım oranına sahip olmuştur.
Makine Öğrenmesi Doğal Dil İşleme Derin Öğrenme Çok Sınıflı Sınıflandırma BERT
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makaleleri \ Research Articles |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2022 |
Gönderilme Tarihi | 19 Temmuz 2021 |
Kabul Tarihi | 28 Aralık 2021 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 10 Sayı: 2 |