Як ваші друзі в Twitter можуть подарувати вам вашу анонімність

Під час перегляду Інтернету рекламодавці відстежують майже кожен сайт, який ви відвідуєте, збираючи безліч інформації про ваші звички та уподобання. Коли ви відвідуєте сайт новин, вони можуть побачити, що ви шанувальник баскетболу, опери та таємничих романів, і відповідно вибиратимуть рекламу відповідно до вашого смаку.

Рекламодавці використовують цю інформацію для створення персоналізованого досвіду, але зазвичай вони не знають, хто ви. Вони спостерігають лише за вашим цифровим слідом, а не самою вашою особистістю, і тому вам може здатися, що ви зберегли певну анонімність.

Але у статті, яку я написав у співавторстві з Аншем Шукла, Шарадом elоелем та Арвіндом Нараянаном, ми показуємо, що ці анонімні записи веб-перегляду насправді часто можуть бути пов’язані з ідентичністю реального світу.

Щоб перевірити наш підхід, ми створили веб-сайт де люди могли б пожертвувати свою історію перегляду для цілей цього дослідження. Потім ми спробували з’ясувати, чи зможемо ми пов’язати їхні історії з їхніми профілями Twitter, використовуючи лише загальнодоступні дані. Сімдесят два відсотки людей, яких ми намагалися деанонімізувати, були правильно визначені як найкращі кандидати в результатах пошуку, а 81 відсоток увійшов до числа 15 найкращих кандидатів.

конфіденційність2 2 8Скріншоти веб -сайту деанонімізації.

Наскільки нам відомо, це наймасштабніша демонстрація деанонімізації на сьогоднішній день, оскільки вона вибирає правильного користувача із сотень мільйонів можливих користувачів Twitter. Крім того, наш метод вимагає лише того, щоб людина натискала посилання, що з’являються у їхніх стрічках у соціальних мережах, а не щоб вони публікували будь -який вміст - тому навіть люди, які уважно ставляться до того, що вони публікують в Інтернеті, все ще вразливі для цієї атаки.


Innersele підписатися графіка


Як це працює?

На високому рівні наш підхід базується на простому спостереженні. У кожної людини є дуже відмінна соціальна мережа, що включає сім’ю та друзів зі школи, роботи та різних етапів їхнього життя. Як наслідок, набір посилань у ваших стрічках Facebook та Twitter є дуже відмінним. Натискання на ці посилання залишає значний слід у вашій історії перегляду.

Переглянувши набір веб -сторінок, які відвідувала окрема особа, ми змогли вибрати подібні канали соціальних мереж, склавши список кандидатів, які, ймовірно, створили цю історію перегляду веб -сторінок. Таким чином, ми можемо пов’язати реальну ідентичність людини з майже повним набором посилань, які вона відвідала, включаючи посилання, які ніколи не були розміщені на будь-якому сайті соціальних медіа.

Реалізація цієї стратегії передбачає дві ключові проблеми. Перший - теоретичний: Як кількісно оцінити, наскільки конкретна стрічка соціальних медіа схожа на певну історію перегляду веб -сторінок? Один простий спосіб - виміряти частку посилань в історії веб -перегляду, які також з’являються у стрічці. На практиці це працює досить добре, але перебільшує подібність великих каналів, оскільки вони просто містять більше посилань. Натомість ми використовуємо альтернативний підхід. Ми пропонуємо стилізовану, ймовірнісну модель поведінки веб -перегляду, а потім обчислюємо ймовірність того, що користувач із цією стрічкою в соціальних мережах створив спостережену історію перегляду. Тоді ми вибираємо найбільш вірогідну стрічку соціальних мереж.

Друга проблема полягає у виявленні найбільш схожих каналів у режимі реального часу. Тут ми звертаємось до Twitter, оскільки канали Twitter (на відміну від Facebook) значною мірою є загальнодоступними. Однак, незважаючи на те, що канали є загальнодоступними, ми не можемо просто створити локальну копію Twitter, для якої ми можемо запускати наші запити. Замість цього ми застосовуємо ряд методів, щоб значно скоротити простір пошуку. Потім ми поєднуємо методи кешування з мережевими скануваннями на вимогу для створення каналів найбільш перспективних кандидатів. До цього зменшеного набору кандидатів ми застосовуємо нашу міру подібності для отримання кінцевих результатів. З огляду на історію перегляду, ми зазвичай можемо виконати весь цей процес менш ніж за 60 секунд.

Наш метод є більш точним для людей, які активніше переглядають Twitter. Дев’яносто відсотків учасників, які натиснули на 100 або більше посилань у Twitter, можна порівняти зі своєю особистістю.

Багато компаній мають ресурси для відстеження, щоб здійснити таку атаку навіть без згоди учасника. Ми намагалися деанонімізувати кожного з наших учасників експерименту, використовуючи лише ті частини історії їх перегляду, які були видимі для певних компаній -відстежувачів (оскільки компанії мають трекери на цих сторінках). Ми виявили, що кілька компаній мають ресурси для точної ідентифікації учасників.

конфіденційність 2Інші дослідження деанонімізації

Кілька інших досліджень використовували загальнодоступні сліди для деанонімізації конфіденційних даних.

Мабуть, найвідоміше дослідження в цьому роді було здійснено Latanya sweeney в Гарвардському університеті в 2002 році. Вона виявила це 87 % американців були унікально ідентифіковані на основі поєднання їх поштового індексу, статі та дати народження. Ці три атрибути були доступні як у даних державної реєстрації виборців (які вона придбала за 20 доларів США), так і в анонімних медичних даних (які були широко розповсюджені, оскільки люди вважали, що ці дані анонімні). Підключивши ці джерела даних, вона знайшла медичну документацію губернатора штату Массачусетс.

У 2006, Netflix провів конкурс покращити якість своїх рекомендацій до фільмів. Вони опублікували анонімний набір рейтингів кінофільмів людей і запропонували команді 1 мільйон доларів, яка може покращити їх алгоритм рекомендацій на 10 відсотків. Комп’ютерники Арвінд Нараянан та Віталій Шматиков помітив, що фільми, які переглядали люди, дуже відмінні, і більшість людей у ​​наборі даних були унікально ідентифіковані на основі невеликої підмножини їхніх фільмів. Іншими словами, на основі вибору фільмів Netflix та оглядів IMDB дослідники змогли визначити, ким насправді були ці користувачі Netflix.

З розвитком соціальних медіа все більше людей ділиться інформацією, яка здається нешкідливою, але насправді розкриває багато особистої інформації. Дослідження під керівництвом Міхал Косінський в Кембриджському університеті використовував Facebook, щоб подобатися людям сексуальна орієнтація, політичні погляди та риси особистості.

Інша команда на чолі з Гілберт Вондрачек у Віденському технологічному університеті створив "машину деанонімізації", яка з'ясувала, до яких груп належать люди у соціальній мережі Xing, і використав це, щоб з'ясувати, ким вони є - оскільки груп, до яких ви входите, досить часто для однозначної ідентифікації ви.

Що ти можеш зробити?

Більшість цих атак важко захистити, якщо ви не припините користуватися Інтернетом або брати участь у суспільному житті.

Навіть якщо ви припините користуватися Інтернетом, компанії все одно можуть збирати дані про вас. Якщо кілька ваших друзів завантажують свої телефонні контакти у Facebook, а ваш номер є у всіх їхніх списках контактів, Facebook може робити прогнози щодо вас, навіть якщо ви не користуєтесь їхніми послугами.

Найкращий спосіб захиститися від таких алгоритмів деанонімізації, як наш, - це обмежити коло людей, які мають доступ до ваших анонімних даних веб -перегляду. Розширення браузера, наприклад Ghostery блокувати сторонні трекери. Це означає, що, навіть якщо компанія, веб -сайт якої ви відвідуєте, знатиме, що ви її відвідуєте, рекламні компанії, які показують оголошення на своїй сторінці, не зможуть збирати ваші дані перегляду та об’єднувати їх на кількох сайтах.

Якщо ви веб -майстер, ви можете захистити своїх користувачів, дозволивши їм переглядати ваш сайт за допомогою HTTPS. Перегляд за допомогою протоколу HTTP дозволяє зловмисникам отримати історію переглядів, нюхаючи мережевий трафік, що дозволяє їм здійснити цю атаку. Багато веб -сайтів уже перейшли на HTTPS; коли ми повторили наш експеримент з деанонімізації з точки зору мережевого трафіку, лише 31 відсоток учасників можна було деанонімізувати.

Однак, ви можете зробити дуже мало, щоб захистити себе від атак деанонімізації в цілому, і, мабуть, найкращий спосіб дій - це скорегувати свої очікування. У цю епоху цифрових технологій немає нічого приватного.

про автора

Джессіка Су, доктор філософії Студент Стенфорда, Стенфордський університет

Ця стаття була спочатку опублікована на Бесіда. Читати оригінал статті.

Суміжні книги

at InnerSelf Market і Amazon