AI 对齐
AI 对齐 是什么?
AI 对齐通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
AI 对齐汇集了机器学习研究、政策与安全实践。常见技术包括有监督微调、基于人类反馈的强化学习(RLHF)、基于 AI 反馈的强化学习(RLAIF)、宪法式 AI、辩论、可扩展监督与可解释性。该领域研究奖励黑客、欺骗性对齐、奉承式回应、规范操控以及随能力增长出现的权力寻求等失配风险。对齐是 AI 安全的根基:一个失配但本身安全的模型,仍可能因追求错误目标而造成损害。Anthropic、OpenAI、DeepMind 等实验室以及英国 AI Security Institute 等机构发布的对齐研究、评估与基准,持续反哺安全策略、红队场景与治理框架。
● 示例
- 01
使用 RLHF 训练 LLM,在执行用户指令的同时拒绝明显有害的请求。
- 02
评估模型是否在面对用户错误观点时表现出奉承性附和。
● 常见问题
AI 对齐 是什么?
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。 它属于网络安全的 AI 与机器学习安全 分类。
AI 对齐 是什么意思?
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
AI 对齐 是如何工作的?
AI 对齐汇集了机器学习研究、政策与安全实践。常见技术包括有监督微调、基于人类反馈的强化学习(RLHF)、基于 AI 反馈的强化学习(RLAIF)、宪法式 AI、辩论、可扩展监督与可解释性。该领域研究奖励黑客、欺骗性对齐、奉承式回应、规范操控以及随能力增长出现的权力寻求等失配风险。对齐是 AI 安全的根基:一个失配但本身安全的模型,仍可能因追求错误目标而造成损害。Anthropic、OpenAI、DeepMind 等实验室以及英国 AI Security Institute 等机构发布的对齐研究、评估与基准,持续反哺安全策略、红队场景与治理框架。
如何防御 AI 对齐?
针对 AI 对齐 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 对齐 还有哪些其他名称?
常见的别称包括: 价值对齐, 模型对齐。
● 相关术语
- ai-security№ 033
AI 安全(Safety)
致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。
- ai-security№ 030
AI 越狱
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
- ai-security№ 618
LLM 守护栏
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
- ai-security№ 028
AI 幻觉
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。