AI 幻觉
AI 幻觉 是什么?
AI 幻觉生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。
幻觉源于生成式模型的统计本质——它们预测合理的延续,而非已核实的事实。表现包括捏造文献、虚构的 API 参数、子虚乌有的法庭案件(如 2023 年 Mata 诉 Avianca 案)、臆造的 CVE 编号,或 RAG 回答中无据可查的论断。当用户基于错误输出行动时,幻觉就成为安全问题:安装某个 LLM "slopsquatted" 捏造出的 npm 包、相信虚构的法律建议、基于幻想的行为编写漏洞利用代码等。常见缓解措施包括带引用的检索增强生成、结构化输出、调用工具进行事实核查、评估套件(如 TruthfulQA、FActScore)、校准的拒答以及高风险领域的人工复核。
● 示例
- 01
LLM 引用了一个不存在的 2023 年法庭案件,并伪造了案号。
- 02
代码助手推荐了一个从未发布过的 npm 包名,为 typosquatting 攻击打开大门。
● 常见问题
AI 幻觉 是什么?
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。 它属于网络安全的 AI 与机器学习安全 分类。
AI 幻觉 是什么意思?
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。
AI 幻觉 是如何工作的?
幻觉源于生成式模型的统计本质——它们预测合理的延续,而非已核实的事实。表现包括捏造文献、虚构的 API 参数、子虚乌有的法庭案件(如 2023 年 Mata 诉 Avianca 案)、臆造的 CVE 编号,或 RAG 回答中无据可查的论断。当用户基于错误输出行动时,幻觉就成为安全问题:安装某个 LLM "slopsquatted" 捏造出的 npm 包、相信虚构的法律建议、基于幻想的行为编写漏洞利用代码等。常见缓解措施包括带引用的检索增强生成、结构化输出、调用工具进行事实核查、评估套件(如 TruthfulQA、FActScore)、校准的拒答以及高风险领域的人工复核。
如何防御 AI 幻觉?
针对 AI 幻觉 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 幻觉 还有哪些其他名称?
常见的别称包括: LLM 幻觉, confabulation(虚构)。
● 相关术语
- ai-security№ 898
RAG 安全
保护检索增强生成(RAG)流水线的实践,确保为 LLM 提供素材的文档、向量库与检索步骤无法被投毒、滥用或用于数据外泄。
- ai-security№ 033
AI 安全(Safety)
致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
- ai-security№ 026
AI 内容检测
用于估计一段文本、图像、音频或视频是否由 AI 模型生成、而非来自人类的工具和技术。
- ai-security№ 034
AI 供应链风险
组织在构建和部署 AI 系统时所组合的第三方数据集、基础模型、依赖库、插件与基础设施带来的威胁集合。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 618
LLM 守护栏
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
● 参见
- № 024AI 对齐