“Büyük Veri” olarak adlandırılan veri yığınlarında kişilere ait özel bilgilerin bulunması ifşa ataklarına karşı kişinin mahremiyetinin tehlikeye girmesine neden olmaktadır. Büyük veride kişi mahremiyetinin korunması için kimliksizleştirme yöntemleri ile kimliksiz veri oluşturup sistemlerde bu şekilde saklanması ve paylaşılması sağlanmaktadır. Fakat kimliksiz hale getirilen veride bilgi kaybı olduğu için veri eski haline döndürülememektedir. Bu çalışmanın amacı; büyük veri yığınları için anlık olarak kimliksizleştirme sağlayan ve sistemdeki veri yapısını bozmayan yeni bir yöntem oluşturmaktır. Çalışmada büyük veri yığınlarını işleyebilmek için Hadoop ekosistemi kullanılmıştır. Önerilen model ile kullanıcıdan gelen isteklerin ara katmanda bulunan servisler yardımı ile Hadoop ekosisteminde işlenmesi sağlanarak kimliksiz veri elde edilmesi sağlanmıştır. Kimliksizleştirme için kullanılan algoritma optimize edilerek kullanılmış ve literatürdeki algoritmalara göre avantajları kaydedilmiştir. Önerilen Modelle, kullanıcının sorgu çekmesi ve kimliksiz veri seti elde etmesi bakımından kullanıcı dostu olduğu görülmüştür. Analiz sonuçlarına göre, modelde kullanılan kimliksizleştirme algoritmasıyla işleme hızı bakımından diğer algoritmalara göre %40 verimli çalışan bir algoritma oluşturulmuştur.
The presence of private information belonging to individuals in data heaps called "Big Data" causes the privacy of the person to be endangered against disclosure attacks. To protect personal privacy in big data, it is ensured that anonymous data is created, stored, and shared in systems with anonymization methods. However, de-identified data cannot be reinstatement. The aim of this study is to create a new method that provides instant disidentification and does not disrupt the data structure in the system. In the study, the Hadoop ecosystem was used to process large data heaps. With the proposed model, it has been ensured that the requests from the user are processed in the Hadoop ecosystem with the services in the middle layer, thus obtaining anonymous data. The algorithm used for disidentification is optimized and results are compared according to algorithms in the literature. With the proposed model, it has been observed that the user is user-friendly in terms of querying and obtaining an anonymous data set. According to the analysis results, an algorithm that works with 40% efficiency compared to other algorithms in terms of processing speed was created with the disidentification algorithm used in the model.
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2021 |
Gönderilme Tarihi | 20 Nisan 2021 |
Kabul Tarihi | 4 Mayıs 2021 |
Yayımlandığı Sayı | Yıl 2021 |