Entry № 029
AI 对齐
AI 对齐 是什么?
AI 对齐通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
AI 对齐汇集了机器学习研究、政策与安全实践。常见技术包括有监督微调、基于人类反馈的强化学习(RLHF)、基于 AI 反馈的强化学习(RLAIF)、宪法式 AI、辩论、可扩展监督与可解释性。该领域研究奖励黑客、欺骗性对齐、奉承式回应、规范操控以及随能力增长出现的权力寻求等失配风险。对齐是 AI 安全的根基:一个失配但本身安全的模型,仍可能因追求错误目标而造成损害。Anthropic、OpenAI、DeepMind 等实验室以及英国 AI Security Institute 等机构发布的对齐研究、评估与基准,持续反哺安全策略、红队场景与治理框架。
● 示例
- 01
使用 RLHF 训练 LLM,在执行用户指令的同时拒绝明显有害的请求。
- 02
评估模型是否在面对用户错误观点时表现出奉承性附和。
● 常见问题
AI 对齐 是什么?
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。 它属于网络安全的 AI 与机器学习安全 分类。
AI 对齐 是什么意思?
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
如何防御 AI 对齐?
针对 AI 对齐 的防御通常结合技术控制与运营实践,详见上方完整定义。
AI 对齐 还有哪些其他名称?
常见的别称包括: 价值对齐, 模型对齐。