Entry № 033
AI 幻觉
AI 幻觉 是什么?
AI 幻觉生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。
幻觉源于生成式模型的统计本质——它们预测合理的延续,而非已核实的事实。表现包括捏造文献、虚构的 API 参数、子虚乌有的法庭案件(如 2023 年 Mata 诉 Avianca 案)、臆造的 CVE 编号,或 RAG 回答中无据可查的论断。当用户基于错误输出行动时,幻觉就成为安全问题:安装某个 LLM "slopsquatted" 捏造出的 npm 包、相信虚构的法律建议、基于幻想的行为编写漏洞利用代码等。常见缓解措施包括带引用的检索增强生成、结构化输出、调用工具进行事实核查、评估套件(如 TruthfulQA、FActScore)、校准的拒答以及高风险领域的人工复核。
● 示例
- 01
LLM 引用了一个不存在的 2023 年法庭案件,并伪造了案号。
- 02
代码助手推荐了一个从未发布过的 npm 包名,为 typosquatting 攻击打开大门。
● 常见问题
AI 幻觉 是什么?
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。 它属于网络安全的 AI 与机器学习安全 分类。
AI 幻觉 是什么意思?
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。
如何防御 AI 幻觉?
针对 AI 幻觉 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 幻觉 还有哪些其他名称?
常见的别称包括: LLM 幻觉, confabulation(虚构)。