Отравление данных
Что такое Отравление данных?
Отравление данныхАтака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
Отравление данных направлено на этап обучения в ML-жизненном цикле. Злоумышленник манипулирует датасетами — веб-краулы, краудсорсинговые метки, корпуса для дообучения, журналы обратной связи — чтобы внести смещение, снизить точность или встроить поведение, активируемое триггером. Carlini и соавторы показали в 2023 году, что даже ничтожная доля отравленных веб-данных способна испортить крупные корпуса предобучения. Варианты включают атаки на доступность, целевые атаки и бэкдор-атаки. Защита строится на происхождении и подписи датасетов, дедупликации, выявлении аномалий в обучающих данных, устойчивых алгоритмах обучения и непрерывной оценке на бенчмарках и adversarial-тестах.
● Примеры
- 01
Злоумышленник правит Википедию или истёкшие домены, чтобы загрязнённый текст попал в будущий корпус предобучения.
- 02
Вредоносный участник передаёт неверно размеченные образцы в открытый датасет классификации изображений.
● Частые вопросы
Что такое Отравление данных?
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Отравление данных?
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
Как работает Отравление данных?
Отравление данных направлено на этап обучения в ML-жизненном цикле. Злоумышленник манипулирует датасетами — веб-краулы, краудсорсинговые метки, корпуса для дообучения, журналы обратной связи — чтобы внести смещение, снизить точность или встроить поведение, активируемое триггером. Carlini и соавторы показали в 2023 году, что даже ничтожная доля отравленных веб-данных способна испортить крупные корпуса предобучения. Варианты включают атаки на доступность, целевые атаки и бэкдор-атаки. Защита строится на происхождении и подписи датасетов, дедупликации, выявлении аномалий в обучающих данных, устойчивых алгоритмах обучения и непрерывной оценке на бенчмарках и adversarial-тестах.
Как защититься от Отравление данных?
Защита от Отравление данных обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Отравление данных?
Распространённые альтернативные названия: Отравление обучающих данных, Отравление датасета.
● Связанные термины
- ai-security№ 081
Бэкдор-атака (ML)
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
- ai-security№ 034
Риски цепочки поставок ИИ
Множество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
- ai-security№ 729
Атака Nightshade
Техника отравления данных, разработанная группой Glaze в University of Chicago: добавляет к изображениям незаметные искажения, чтобы text-to-image модели, обучаемые на них, усваивали сильно искажённые концепты.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- ai-security№ 018
Состязательный пример
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
● См. также
- № 704Инверсия модели
- № 393Атака уклонения (ML)
- № 666Атака на вывод членства
- № 1026Shadow AI
- № 025AI Bill of Materials (AIBOM)
- № 898Безопасность RAG
- № 897RAG
- № 376Атаки на эмбеддинги