k-анонимность
Что такое k-анонимность?
k-анонимностьМодель приватности, предложенная Latanya Sweeney, требующая, чтобы каждая запись в наборе данных была неотличима по квази-идентификаторам как минимум от k-1 других записей.
k-анонимность, формализованная Sweeney в 2002 году, защищает от повторной идентификации, гарантируя, что каждая комбинация квази-идентификаторов (возраст, почтовый индекс, пол и т. п.) встречается минимум в k записях, образуя классы эквивалентности. Достигается обобщением (замена точных значений интервалами или укрупнёнными категориями) и подавлением (удаление редких значений), с применением алгоритмов вроде Mondrian или Incognito. Снижая риск атак связывания, k-анонимность не защищает от атак однородности и атак с использованием внешних знаний, если чувствительный атрибут одинаков внутри класса, что и привело к расширениям l-разнообразия и t-близости. Выбор k балансирует полезность данных, аппетит к риску и регуляторные требования рек. 26 GDPR.
● Примеры
- 01
Медицинский набор данных обобщён так, что каждое сочетание "возраст/индекс" соответствует не менее пяти пациентам (k=5).
- 02
Обобщение даты рождения до года для удовлетворения k-анонимности при публикации исследовательских данных.
● Частые вопросы
Что такое k-анонимность?
Модель приватности, предложенная Latanya Sweeney, требующая, чтобы каждая запись в наборе данных была неотличима по квази-идентификаторам как минимум от k-1 других записей. Относится к категории Приватность и защита данных в кибербезопасности.
Что означает k-анонимность?
Модель приватности, предложенная Latanya Sweeney, требующая, чтобы каждая запись в наборе данных была неотличима по квази-идентификаторам как минимум от k-1 других записей.
Как работает k-анонимность?
k-анонимность, формализованная Sweeney в 2002 году, защищает от повторной идентификации, гарантируя, что каждая комбинация квази-идентификаторов (возраст, почтовый индекс, пол и т. п.) встречается минимум в k записях, образуя классы эквивалентности. Достигается обобщением (замена точных значений интервалами или укрупнёнными категориями) и подавлением (удаление редких значений), с применением алгоритмов вроде Mondrian или Incognito. Снижая риск атак связывания, k-анонимность не защищает от атак однородности и атак с использованием внешних знаний, если чувствительный атрибут одинаков внутри класса, что и привело к расширениям l-разнообразия и t-близости. Выбор k балансирует полезность данных, аппетит к риску и регуляторные требования рек. 26 GDPR.
Как защититься от k-анонимность?
Защита от k-анонимность обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия k-анонимность?
Распространённые альтернативные названия: k-анонимизация.
● Связанные термины
- privacy№ 274
Анонимизация данных
Необратимое преобразование персональных данных таким образом, чтобы ни один человек не мог быть идентифицирован прямо или косвенно, даже при объединении с другими данными.
- privacy№ 603
l-разнообразие
Расширение k-анонимности, предложенное Machanavajjhala и соавторами, которое требует, чтобы в каждом классе эквивалентности было не менее l хорошо представленных значений каждого чувствительного атрибута.
- privacy№ 1126
t-близость
Модель приватности Li, Li и Venkatasubramanian, усиливающая l-разнообразие за счёт ограничения отклонения распределения чувствительного атрибута в классе от его глобального распределения.
- privacy№ 317
Дифференциальная приватность
Математическая модель, количественно оценивающая утечку приватности при публикации статистики или обучении моделей за счёт добавления калиброванного шума, ограничивающего вклад любого индивида.
- privacy№ 875
Псевдонимизация
Метод замены прямых идентификаторов в персональных данных обратимыми алиасами, после чего данные нельзя соотнести с человеком без отдельно хранимой дополнительной информации.
- privacy№ 818
Персонально идентифицируемая информация (PII)
Любые данные, позволяющие идентифицировать конкретного человека самостоятельно или в сочетании с другими сведениями: имена, идентификаторы, биометрия.