The great mobility in the world tourism in recent years has
also enabled this sector to be included among the study areas of big data. In
this study, a solution proposal was put forward by using the big data and
string similarity algorithms (SSA) for the problems arising from the entry of
the hotel data coming from different providers into databases with different
names and addresses. Therefore, 2599 hotels of a tourism agency with a wide
hotel network located in London were selected as the sample, and the Map-Reduce
process was performed by using the Soundex algorithm to match these hotels with
approximately three million hotel data coming from seventy different providers.
Matching with Map-Reduce ensured a significant reduction in process count and
process time. Furthermore, the Dice coefficient, Levenshtein and Longest common
subsequence (LCS) algorithms were compared in terms of the data that they
correctly matched, and process time. In this stage, the words decreasing the
score of the algorithms in the database were detected and removed before the
algorithms were implemented. The Dice coefficient algorithm yielded better
results in terms of correct matching, and the Levenshtein algorithm yielded
better results in terms of process time.
Algorithms Text Analysis Natural Language processing Data Analysis Databases
Son yıllarda dünya turizmindeki büyük hareketlilik, bu
sektörün büyük verinin çalışma alanları arasına girmesini sağlamıştır. Bu
çalışmada farklı sağlayıcılardan gelen otel bilgilerinin, veritabanlarına
farklı isim ve adreslerle girilmesi sonucu oluşan problemler için, büyük veri
ve string similarity algoritmaları (SSA) kullanarak bir çözüm önerisi ortaya
konulmuştur. Bunun için geniş bir otel ağına sahip bir turizm acentasının
Londra’da bulunan 2599 oteli örneklem olarak seçilmiş ve bu oteller ile yetmiş
farklı sağlayıcıdan gelen yaklaşık üç milyon otel bilgisinin eşleştirilmesi
için, soundex algoritmasından faydalanılarak Map-Reduce işlemi
gerçekleştirilmiştir. Map-Reduce ile eşleme işlem sayısı ve işlem süresinde
önemli ölçüde azalma sağlanmıştır. Çalışmanın diğer aşamasında ise Dice
coefficient, Levenshtein ve Longest common subsequence (LCS) algoritmaları,
doğru eşleyebildikleri veri ve işlem süresi açısından kıyaslanmıştır. Bu aşamada
algoritmalar uygulanmadan önce veri tabanında algoritmaların skorunu düşüren
kelimeler tespit edilerek çıkartılmıştır. Doğru eşleme bakımından Dice
coefficient algoritması, işlem süresi açısından ise Levenshtein algoritması
daha iyi sonuçlar üretmiştir.
Algoritmalar Metin analizi Doğal dil işleme Veri analizi Veri tabanları
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makalesi \ Research Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Eylül 2019 |
Gönderilme Tarihi | 3 Ekim 2018 |
Kabul Tarihi | 4 Nisan 2019 |
Yayımlandığı Sayı | Yıl 2019 Cilt: 7 Sayı: 3 |