Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 024

AI 对齐

AI 对齐 是什么?

AI 对齐通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。


AI 对齐汇集了机器学习研究、政策与安全实践。常见技术包括有监督微调、基于人类反馈的强化学习(RLHF)、基于 AI 反馈的强化学习(RLAIF)、宪法式 AI、辩论、可扩展监督与可解释性。该领域研究奖励黑客、欺骗性对齐、奉承式回应、规范操控以及随能力增长出现的权力寻求等失配风险。对齐是 AI 安全的根基:一个失配但本身安全的模型,仍可能因追求错误目标而造成损害。Anthropic、OpenAI、DeepMind 等实验室以及英国 AI Security Institute 等机构发布的对齐研究、评估与基准,持续反哺安全策略、红队场景与治理框架。

示例

  1. 01

    使用 RLHF 训练 LLM,在执行用户指令的同时拒绝明显有害的请求。

  2. 02

    评估模型是否在面对用户错误观点时表现出奉承性附和。

常见问题

AI 对齐 是什么?

通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。 它属于网络安全的 AI 与机器学习安全 分类。

AI 对齐 是什么意思?

通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。

AI 对齐 是如何工作的?

AI 对齐汇集了机器学习研究、政策与安全实践。常见技术包括有监督微调、基于人类反馈的强化学习(RLHF)、基于 AI 反馈的强化学习(RLAIF)、宪法式 AI、辩论、可扩展监督与可解释性。该领域研究奖励黑客、欺骗性对齐、奉承式回应、规范操控以及随能力增长出现的权力寻求等失配风险。对齐是 AI 安全的根基:一个失配但本身安全的模型,仍可能因追求错误目标而造成损害。Anthropic、OpenAI、DeepMind 等实验室以及英国 AI Security Institute 等机构发布的对齐研究、评估与基准,持续反哺安全策略、红队场景与治理框架。

如何防御 AI 对齐?

针对 AI 对齐 的防御通常结合技术控制与运营实践,详见上方完整定义。

AI 对齐 还有哪些其他名称?

常见的别称包括: 价值对齐, 模型对齐。

相关术语