Безопасность ИИ (AI Safety)
Что такое Безопасность ИИ (AI Safety)?
Безопасность ИИ (AI Safety)Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты.
AI safety шире классической security: она занимается вредом и без злоумышленника — несчастные случаи, предвзятость, обман, выход автономного поведения из-под контроля, dual-use злоупотребления, катастрофические и экзистенциальные риски. Технические направления — выравнивание, интерпретируемость, оценка, устойчивое обучение, мониторинг и capability elicitation. Операционные — responsible-scaling-политики, model cards, deployment-guardrails, контроль доступа. UK AI Safety Institute, US AI Safety Institute, EU AI Office, NIST (AI RMF) и ведущие лаборатории публикуют стандарты. AI safety отличается от AI security, но сильно с ней пересекается: небезопасные с точки зрения safety модели нередко уязвимы и в традиционном смысле.
● Примеры
- 01
Провайдер LLM внедряет responsible-scaling-политику, приостанавливающую обучение при превышении порога возможностей.
- 02
Оценка способности агентной модели к самостоятельной репликации и самовывозу перед публичным релизом.
● Частые вопросы
Что такое Безопасность ИИ (AI Safety)?
Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Безопасность ИИ (AI Safety)?
Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты.
Как работает Безопасность ИИ (AI Safety)?
AI safety шире классической security: она занимается вредом и без злоумышленника — несчастные случаи, предвзятость, обман, выход автономного поведения из-под контроля, dual-use злоупотребления, катастрофические и экзистенциальные риски. Технические направления — выравнивание, интерпретируемость, оценка, устойчивое обучение, мониторинг и capability elicitation. Операционные — responsible-scaling-политики, model cards, deployment-guardrails, контроль доступа. UK AI Safety Institute, US AI Safety Institute, EU AI Office, NIST (AI RMF) и ведущие лаборатории публикуют стандарты. AI safety отличается от AI security, но сильно с ней пересекается: небезопасные с точки зрения safety модели нередко уязвимы и в традиционном смысле.
Как защититься от Безопасность ИИ (AI Safety)?
Защита от Безопасность ИИ (AI Safety) обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Безопасность ИИ (AI Safety)?
Распространённые альтернативные названия: Safety фронтирного ИИ, Ответственный ИИ.
● Связанные термины
- ai-security№ 024
Выравнивание ИИ
Совокупность исследований и инженерных практик, обеспечивающих, что ИИ-системы преследуют цели, выполняют инструкции и ведут себя в соответствии с намерениями разработчиков и пользователей.
- ai-security№ 027
Управление ИИ (AI Governance)
Совокупность политик, процессов, ролей и средств контроля, с помощью которых организации и регуляторы обеспечивают ответственную и законную разработку, развёртывание и эксплуатацию ИИ-систем.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 029
Реагирование на инциденты ИИ
Совокупность процессов, ролей и плейбуков, которые организация использует для обнаружения, локализации, расследования, коммуникации и восстановления после инцидентов, связанных с ИИ-системами.
- ai-security№ 028
Галлюцинация ИИ
Режим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент.
● См. также
- № 1123Синтетический медиаконтент
- № 035Водяные знаки для ИИ
- № 026Обнаружение ИИ-контента
- № 391Закон ЕС об ИИ