Галлюцинация ИИ
Что такое Галлюцинация ИИ?
Галлюцинация ИИРежим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент.
Галлюцинации проистекают из статистической природы генеративных моделей: они предсказывают правдоподобные продолжения, а не проверенные факты. Сюда относятся выдуманные цитаты, несуществующие параметры API, несуществующие судебные дела (как в инциденте Mata v. Avianca 2023), вымышленные CVE-номера и неподтверждённые утверждения в ответах RAG. Угрозой безопасности они становятся, когда пользователь действует по ложному выводу: устанавливает выдуманный LLM npm-пакет ("slopsquatting"), доверяет фабрикованным юридическим советам или пишет эксплойт на основе вымышленного поведения. Защита — RAG с цитированием, структурированный вывод, вызовы инструментов для верификации фактов, оценочные наборы (TruthfulQA, FActScore), калиброванный отказ от ответа и человеческая проверка в критичных доменах.
● Примеры
- 01
LLM ссылается на несуществующее судебное дело 2023 года с вымышленными номерами.
- 02
Кодинг-ассистент рекомендует npm-пакет, который никогда не публиковался, открывая дорогу typosquatting.
● Частые вопросы
Что такое Галлюцинация ИИ?
Режим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент. Относится к категории Безопасность ИИ и ML в кибербезопасности.
Что означает Галлюцинация ИИ?
Режим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент.
Как работает Галлюцинация ИИ?
Галлюцинации проистекают из статистической природы генеративных моделей: они предсказывают правдоподобные продолжения, а не проверенные факты. Сюда относятся выдуманные цитаты, несуществующие параметры API, несуществующие судебные дела (как в инциденте Mata v. Avianca 2023), вымышленные CVE-номера и неподтверждённые утверждения в ответах RAG. Угрозой безопасности они становятся, когда пользователь действует по ложному выводу: устанавливает выдуманный LLM npm-пакет ("slopsquatting"), доверяет фабрикованным юридическим советам или пишет эксплойт на основе вымышленного поведения. Защита — RAG с цитированием, структурированный вывод, вызовы инструментов для верификации фактов, оценочные наборы (TruthfulQA, FActScore), калиброванный отказ от ответа и человеческая проверка в критичных доменах.
Как защититься от Галлюцинация ИИ?
Защита от Галлюцинация ИИ обычно сочетает технические меры и операционные практики, как описано в определении выше.
Какие есть другие названия Галлюцинация ИИ?
Распространённые альтернативные названия: Галлюцинация LLM, Конфабуляция.
● Связанные термины
- ai-security№ 898
Безопасность RAG
Дисциплина защиты пайплайнов RAG, чтобы документы, векторные хранилища и шаги извлечения, питающие LLM, нельзя было отравить, использовать во вред или применить для утечки данных.
- ai-security№ 033
Безопасность ИИ (AI Safety)
Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты.
- ai-security№ 026
Обнаружение ИИ-контента
Инструменты и методы, оценивающие, был ли текст, изображение, аудио или видео создан моделью ИИ, а не человеком.
- ai-security№ 034
Риски цепочки поставок ИИ
Множество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 618
LLM Guardrails
Механизмы, ограничивающие, что приложение на основе LLM может принимать или выдавать, обеспечивая правила safety, безопасности и бизнеса вокруг базовой модели.
● См. также
- № 024Выравнивание ИИ