راسة مقارنة لإخفاء هوية مجموعات البيانات ذات السمات الحساسة المتعددة والسجلات المتعددة

ملخص البحث

ليوم، هناك العديد من مصادر البيانات، مثل أجهزة إنترنت الأشياء، التي تنتج كمية هائلة من البيانات، خاصة في مجال الرعاية الصحية. يجب نشر هذه البيانات الجزئية ومشاركتها لأغراض البحث الطبي وتحليل البيانات والتعدين ومهام تحليل التعلم وعملية صنع القرار. لكن هذه البيانات المنشورة تحتوي على معلومات حساسة وخاصة للأفراد، وإذا تم نشر هذه البيانات الجزئية بصيغتها الأصلية، فقد يتم الكشف عن خصوصية الأفراد، مما يعرض الأفراد للخطر، خاصة إذا كان لدى الخصم معرفة خلفية قوية عن الفرد المستهدف . يمكن أن يؤدي امتلاك سجلات متعددة وسمات حساسة متعددة (MSA) للفرد إلى تسرب جديد للخصوصية أو الكشف عنها. لذا، فإن القضية الأساسية هي كيفية حماية خصوصية 1:M مع مجموعة بيانات MSA باستخدام تقنيات وأساليب إخفاء الهوية، بالإضافة إلى كيفية الموازنة بين المنفعة والخصوصية لهذه البيانات مع تقليل فقدان المعلومات وإساءة استخدامها. الهدف من هذا البحث هو استخدام طرق مختلفة وخوارزميات مختلفة لإخفاء الهوية، مثل خوارزمية التعميم 1:m وموندريان، ومقارنتها لإظهار أي منها يحافظ على خصوصية البيانات والفائدة العالية لنتائج التحليل في نفس الوقت. من هذه المقارنة، وجدنا أن خوارزمية التعميم m وطريقة التعميم (p، k) تؤدي أداءً جيدًا من حيث فقدان المعلومات وفائدة البيانات مقارنة بالطرق والخوارزميات الأخرى المتبقية.

الكلمات المفتاحيه

الخصوصيه - اخفاء الهويه

جميع الحقوق محفوظة ©هيام محمد سيد سالم