Veri madenciliği ve bilgi keşfinin bir alanı olarak öneri sistemleri, film tavsiye platformları üzerinde muazzam bir etkiye sahiptir. Profilleri göz önünde bulundurarak izleyiciler için uygun tavsiye ölçülebilir bir argümandır. Kullanıcı oylama eylemleri gibi bazı sayısal veri içerisindeki doğrusal kombinasyonları çıkararak istatistiksel analizler yapılabilir. Böylece, film gibi herhangi bir öğe kullanıcıya önerilebilir veya önerilmeyebilir. Korelasyonların sayısal hesaplaması, yani benzerlik ağırlığı, kullanıcı benzerliklerinin etkisini daha fazla sabit çarpımla arttırmak için tahminden önce yeniden hesaplanmalıdır. Bu yöntem, benzerliklerin etkisini vurgulamak için bir adım daha işleyen önem ağırlıklandırması olarak adlandırılır. Kullanıcılar arasındaki yakınlık, ortak oylanan öğelerin toplam sayısı veya daha karmaşık hesaplamalar yapılan başka bir çıkarım olabilir. Bu çalışmada, Pearson Korelasyonu ile ilgili önem ağırlıklandırma yöntemi karşılaştırmalı yaklaşımlar kullanılarak incelenmiştir. Deneylerde hem ML100K hem de ML1M sürümlerini içeren MovieLens veri kümesi kullanılır. k-katlamalı çapraz doğrulama yöntemi, test sayısını artırmak için kaydırmalı tarzda uygulanır. Kullanıcı-kullanıcı benzerlikleri için Pearson Korelasyon Katsayılarını elde ettikten sonra, ağırlıklar üç farklı yaklaşım kullanılarak ifade edilir. Ardından komşular, testteki kullanıcı için en yakın N kullanıcıyı seçmek üzere sıralanır. Deneysel sonuçlarla ilgili olarak, diğer iki tekniğe göre, basitliği ve performansı hesaba katılarak, sadece ortak oylanan öğe sayısını kullanan açık yöntem tercih edilir. Deneysel grafiklerde, doğruluk ve hata ölçümleri üç farklı önem ağırlıklandırma yaklaşımı için sunulmuştur. Özellikle ML100K veri kümesi için, basit ağırlıklandırma yöntemi hata ölçümleri açısından daha iyi performans gösterir.
Recommender systems as a field of data mining and knowledge discovery have a tremendous impact on movie recommendation platforms. Proper recommendation for the audience, considering profiles, is a measurable argument. By inferencing the linear combinations between some numerical data such as user rating actions, statistical analyses can be done. Thus, any item such as a movie can be recommended or not. The numerical calculation of correlations, namely the similarity weight, should be recomputed before prediction to increase the effect of user similarities for further constant multiplications. This method is named as the significance weighting that processes one more step to stress the impact of similarities. The affinity between users can simply be the total number of co-rated items, or any further inference using more complex computations. In this work, the significance weighting method related to Pearson Correlation is inspected using comparative approaches. The MovieLens dataset, both including ML100K and ML1M releases, are used in the experiments. k-fold cross-validation method is applied in a shifting fashion to increase the number of tests. After having Pearson Correlation Coefficients for user-user similarities, weights are signified using three different approaches. Then, neighbors are sorted to choose the top-N closest users for the user in the test. Concerning experimental results, over two other techniques, an explicit method that utilizes only the co-rated item count is preferred taking its simplicity and performance into account. In the plots of experimental results section, accuracy and error metrics are presented for three different significance weighting approaches. Especially for the ML100K dataset, the simple weighting method outperforms in terms of the error metrics.
Collaborative filtering MovieLens Pearson similarity Recommender systems Significance weighting
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | November 30, 2020 |
Published in Issue | Year 2020 |