ادغام انواع مختلف دادهها محل مهر آن آسانتر میکند به تشخیص هویت کاربران، حتی زمانی که دادهها را بی نام میشود.
به گزارش طراحی وب سایت یک مطالعه جدید توسط محققان ام آی تی مییابد که عمل رشد تدوین مجموعه اطلاعات عظیم، ناشناخته خواهد ماند در مورد الگوهای جنبش مردم شمشیر دو لبه است: در حالی که آن بینش عمیق به رفتار انسانی را برای پژوهش فراهم میتوانید آن نیز مردم خصوصی را دادهها در معرض خطر.
شرکت پژوهشگران و نهادهای دیگر شروع به جمع آوری، ذخیره و پردازش اطلاعات ناشناخته خواهد ماند که شامل تمبر مکان (مختصات جغرافیایی و تمبر زمان) از کاربران. اطلاعات برداشت شود میتوانید از تلفن همراه ثبت معاملات کارت اعتباری، کارت های هوشمند حمل و نقل عمومی توییتر حساب و برنامه های موبایل. ادغام این مجموعه داده میتواند ارائه اطلاعات غنی درباره چگونه انسان، به عنوان مثال، برای بهینه سازی حمل و نقل و شهری، در میان چیزهای دیگر برنامه ریزی سفر.
اما با داده های بزرگ مشکل حریم خصوصی بزرگ: تمبر محل بسیار خاص به افراد و میتواند مورد استفاده قرار گیرد برای مقاصد نابکار. تحقیقات اخیر نشان داده است که، تنها چند نقطه تصادفی در تحرک مجموعه اطلاعات داده میشود، کسی میتواند شناسایی و یادگیری اطلاعات حساس در مورد افراد. با مجموعه اطلاعات ادغام شده تحرک این را حتی ساده تر میشود: یک عامل بالقوه میتواند مطابقت با مدار کاربران در داده ناشناخته خواهد ماند از یک مجموعه اطلاعات، با اطلاعات deanonymized در مورد دیگر به چیزی را اشکار داده ناشناخته خواهد ماند.
در مقاله امروز تاریخ انتشار در معاملات IEEE در داده های بزرگ، محققان MIT نشان میدهد چگونه این میتواند اتفاق در نخستین تجزیه و تحلیل از اصطلاح کاربر matchability در دو مجموعه داده های بزرگ مقیاس از سنگاپور یکی از موبایل شبکه اپراتور و یکی در محلی، سیستم حمل و نقل.
محققان استفاده از امتیاز مدل آماری است که آهنگ محل تمبر از کاربران در هر دو مجموعه اطلاعات و احتمال آن دادهها را فراهم میکند در هر دو مجموعه از همان شخص میآیند. در آزمایش، محققان دریافتند مدل حدود 17 درصد از افراد در یک هفته ارزش داده و بیش از 55 درصد افراد پس از یک ماه از داده های جمع آوری شده میتواند بازی. کار کارآمد، مقیاس پذیر راه را برای مطابقت با شماست تحرک در مجموعه داده، که میتواند یک مزیت برای تحقیقات را نشان میدهد. اما محققان هشدار میدهند، فرآیندهای چنین امکان deanonymizing اطلاعات واقعی را افزایش میدهد.
به عنوان محققان، ما که کار کردن با مجموعه داده های بزرگ میتواند اجازه کشف بینش بی سابقهای در مورد جامعه انسانی و تحرک، ما را برای برنامه ریزی شهرستانها بهتر باور. با این حال، مهم است که نشان میدهد اگر شناسایی ممکن است تا مردم را میتوان از خطرات بالقوه از اشتراک گذاری اطلاعات تحرک دانیل Kondor postdoc در آینده گروه تحرک شهری در اتحاد سنگاپور-MIT برای تحقیقات و فناوری میگوید.
در نتیجه انتشار و به ویژه، عواقب deanonymizing داده ما احساس کمی مانند کلاه سفید یا هکرها اخلاقی میافزاید: شرکت نویسنده کارلو راتی استاد تمرین در بخش مطالعات شهری MITs و برنامه ریزی و مدیر MITs آزمایشگاه senseable شهر. ما احساس مهم هشدار دادن به مردم در مورد این امکانات جدید [از ادغام داده ها] و [] بود که چگونه ما آن را تنظیم ممکن است.
همکاری نویسندگان مطالعه بهروز هاشمیان postdoc در Senseable آزمایشگاه شهر و ایو الکساندر د Mondjoye از گروه رایانه و داده های علمی موسسه از امپریال کالج لندن هستند.
حذف رتبه مثبت کاذب.
برای درک نحوه تطبیق محل تمبر و deanonymization بالقوه این سناریو را در نظر بگیرید: من در جزیره Sentosa در سنگاپور دو روز پیش آمد به فرودگاه دبی دیروز و امروز در ساحل جمیرا در دبی هستم. آن بسیار بعید است مسیر افراد دیگر دقیقا یکسان به نظر میرسد. اگر کسی من اطلاعات کارت اعتباری ناشناخته خواهد ماند و شاید اطلاعات محل باز من از توییتر، در کوتاه مدت آنها سپس داده های کارت اعتباری من میگوید راتی deanonymize میتواند.
مدل های مشابه به deanonymization در دادهها وجود داشته باشد. اما کسانی که با استفاده از روش های فشرده computationally برای شناسایی مجدد به ادغام داده های ناشناس را با داده های عمومی برای شناسایی افراد خاص معنی. این مدل فقط کار بر روی مجموعه داده های محدود. محققان MIT عوض استفاده روش آماری ساده تر اندازه گیری احتمال مثبت کاذب برای کارآمد matchability در میان تعداد بسیار زیادی از کاربران در مجموعه اطلاعات عظیم پیش بینی.
در کار خود، محققان دو مجموعه داده ناشناخته خواهد ماند با چگالی کم وارد چند رکورد در هر روز مورد استفاده از تلفن همراه و شخصی حمل و نقل در سنگاپور ثبت بیش از یک هفته در سال 2011. اطلاعات تلفن همراه از اپراتور بزرگ شبکه تلفن همراه و شامل مقایسه و مختصات جغرافیایی در سوابق بیش از 485 میلیون بیش از 2 میلیون کاربر. حمل و نقل دادهها بیش از 70 میلیون رکورد با مقایسه برای افراد در حال حرکت از طریق شهر موجود.
احتمال که کاربر داده شده سوابق را در هر دو مجموعه داده است همراه با اندازه مجموعه اطلاعات ادغام شده افزایش میدهد، اما خواهد شد تا احتمال مثبت کاذب. مدل محققان کاربر را از یک مجموعه دادهها را انتخاب میکند و کاربر از مجموعه دادهها با عدد تمبر محل تطبیق پیدا کرد. به سادگی قرار دادن به عنوان تعداد مطابق نقاط افزایش احتمال تطابق مثبت کاذب را کاهش میدهد. پس از تعداد نقاط در طول مسیر مدل قوانین امکان بازی بودن مثبت کاذب.
با تمرکز بر کاربران عادی به آنها برآورد کردند موفقیت matchability از 17 درصد بیش از یک هفته از داده های وارد شده و حدود 55 درصد برای چهار هفته. جهش برآورد آن به حدود 95 درصد با داده های وارد شده بیش از 11 هفته.
محققان همچنین تخمین زده میشود چه مقدار فعالیت در مورد نیاز به مطابقت اکثر کاربران بیش از یک هفته. نگاه کاربران با بین 30 و 49 حمل و نقل شخصی سوابق و مدارک تلفن همراه حدود 1000 تخمین زده میشود آنها بیش از 90 درصد موفقیت با داده های وارد شده هفته. علاوه بر این، با ترکیب دو مجموعه اطلاعات با GPS آثار به طور منظم جمع آوری فعالانه و منفعلانه توسط نرم افزار گوشی محققان آنها 95 درصد با شماست فردی مطابقت میتواند کمتر از یک هفته از دادهها با استفاده از تخمین زده میشود.
حریم خصوصی بهتر.
امیدواریم که با مطالعه آنها محققان به افزایش آگاهی عمومی و ارتقاء مقررات سخت تر برای به اشتراک گذاری داده های مصرف کننده. تمام اطلاعات با تمبر محل (که بسیاری از داده های جمع آوری شده امروز) به طور بالقوه بسیار حساس است و ما باید همه را به تصمیم گیری آگاهانه تر در که ما آن را با به اشتراک گذاری، میگوید راتی. ما نیاز به فکر کردن در مورد چالشها در پردازش داده های مقیاس بزرگ درباره افراد، حفظ و تضمین راه درست برای ارائه مناسب برای حفظ حریم خصوصی.
به این منظور راتی Kondor و دیگر محققان گسترده مسائل اخلاقی و اخلاقی داده های بزرگ مشغول به کار در. در سال 2013، Senseable آزمایشگاه شهر در دانشگاه فنی ماساچوست راه اندازی ابتکار به جذاب داده است که شامل رهبران از دولت، حقوق حریم خصوصی گروه ها، دانشگاهها و کسب و کار، که مطالعه چگونه شرکت تحرک داده میتواند و باید توسط امروز جمع آوری دادهها مورد استفاده قرار گیرد.
جهان امروز مماس با داده های بزرگ Kondor میگوید:. در سال 2015، انسان تولید اطلاعات به همان اندازه که در سال های گذشته همه از تمدن بشر ایجاد شده است. اگر چه به معنی اطلاعات دانش بهتر در محیط های شهری، در حال حاضر بسیاری از این ثروت از اطلاعات توسط چند شرکتها و موسسات دولتی است که بسیار مورد از ما، در حالی که ما میدانیم که کمی در مورد آنها برگزار میشود. ما نیاز به مراقبت برای جلوگیری از انحصارات داده و سوء استفاده.
لطفاً در مورد مطلب فوق ستاره بدهید :
طراحی سایت خطرات حفظ حریم خصوصی از گردآوری داده های تحرک Rated 4.3 / 5 based on 3 reviews.
آیا این مقاله برای شما مفید بود؟