Инверсия модели
Что такое Инверсия модели?
Инверсия моделиАтака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.
Инверсия модели нацелена не на параметры модели, а на конфиденциальность обучающих данных. Fredrikson и соавторы (2015) показали, что градиентная оптимизация против классификатора распознавания лиц позволяет восстановить узнаваемые обучающие изображения по меткам классов и значениям уверенности. Современные варианты извлекают обучающий текст из LLM с помощью тщательно подобранных префиксов, восстанавливая имена, e-mail и проприетарные документы, запомненные при обучении. Атака особенно эффективна против переобученных или слабо регуляризованных моделей и API, выдающих подробные сигналы уверенности. Защита — дифференциальная приватность при обучении, минимизация выходных данных, дедупликация датасета, регуляризация и сокрытие внутренних confidence-векторов.
● Примеры
- 01
Восстановление узнаваемого лица из поклассовых значений уверенности модели распознавания лиц.
- 02
Подача LLM известного префикса для извлечения запомненных персональных данных из обучающего корпуса.
● Частые вопросы
Что такое Инверсия модели?
Атака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Инверсия модели?
Атака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.
Как работает Инверсия модели?
Инверсия модели нацелена не на параметры модели, а на конфиденциальность обучающих данных. Fredrikson и соавторы (2015) показали, что градиентная оптимизация против классификатора распознавания лиц позволяет восстановить узнаваемые обучающие изображения по меткам классов и значениям уверенности. Современные варианты извлекают обучающий текст из LLM с помощью тщательно подобранных префиксов, восстанавливая имена, e-mail и проприетарные документы, запомненные при обучении. Атака особенно эффективна против переобученных или слабо регуляризованных моделей и API, выдающих подробные сигналы уверенности. Защита — дифференциальная приватность при обучении, минимизация выходных данных, дедупликация датасета, регуляризация и сокрытие внутренних confidence-векторов.
Как защититься от Инверсия модели?
Защита от Инверсия модели обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Инверсия модели?
Распространённые альтернативные названия: Восстановление обучающих данных, Атака на вывод атрибутов.
● Связанные термины
- ai-security№ 666
Атака на вывод членства
Атака на приватность, определяющая, входила ли конкретная запись в обучающую выборку модели, через анализ её поведения на этой записи.
- ai-security№ 703
Извлечение модели
Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
- ai-security№ 281
Отравление данных
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 027
Управление ИИ (AI Governance)
Совокупность политик, процессов, ролей и средств контроля, с помощью которых организации и регуляторы обеспечивают ответственную и законную разработку, развёртывание и эксплуатацию ИИ-систем.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.