Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 704

Инверсия модели

Что такое Инверсия модели?

Инверсия моделиАтака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.


Инверсия модели нацелена не на параметры модели, а на конфиденциальность обучающих данных. Fredrikson и соавторы (2015) показали, что градиентная оптимизация против классификатора распознавания лиц позволяет восстановить узнаваемые обучающие изображения по меткам классов и значениям уверенности. Современные варианты извлекают обучающий текст из LLM с помощью тщательно подобранных префиксов, восстанавливая имена, e-mail и проприетарные документы, запомненные при обучении. Атака особенно эффективна против переобученных или слабо регуляризованных моделей и API, выдающих подробные сигналы уверенности. Защита — дифференциальная приватность при обучении, минимизация выходных данных, дедупликация датасета, регуляризация и сокрытие внутренних confidence-векторов.

Примеры

  1. 01

    Восстановление узнаваемого лица из поклассовых значений уверенности модели распознавания лиц.

  2. 02

    Подача LLM известного префикса для извлечения запомненных персональных данных из обучающего корпуса.

Частые вопросы

Что такое Инверсия модели?

Атака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты. Относится к категории Безопасность ИИ и ML в кибербезопасности.

Что означает Инверсия модели?

Атака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.

Как работает Инверсия модели?

Инверсия модели нацелена не на параметры модели, а на конфиденциальность обучающих данных. Fredrikson и соавторы (2015) показали, что градиентная оптимизация против классификатора распознавания лиц позволяет восстановить узнаваемые обучающие изображения по меткам классов и значениям уверенности. Современные варианты извлекают обучающий текст из LLM с помощью тщательно подобранных префиксов, восстанавливая имена, e-mail и проприетарные документы, запомненные при обучении. Атака особенно эффективна против переобученных или слабо регуляризованных моделей и API, выдающих подробные сигналы уверенности. Защита — дифференциальная приватность при обучении, минимизация выходных данных, дедупликация датасета, регуляризация и сокрытие внутренних confidence-векторов.

Как защититься от Инверсия модели?

Защита от Инверсия модели обычно сочетает технические меры и операционные практики, как описано в определении выше.

Какие есть другие названия Инверсия модели?

Распространённые альтернативные названия: Восстановление обучающих данных, Атака на вывод атрибутов.

Связанные термины