Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 024

AI アライメント

AI アライメント とは何ですか?

AI アライメントAI システムの目標追求・指示遵守・挙動を、開発者やユーザーの意図に沿わせるための研究と工学的取り組み。


アライメントは機械学習研究・政策・セキュリティを横断します。手法には教師ありファインチューニング、RLHF、RLAIF、Constitutional AI、ディベート、スケーラブル監視、解釈可能性研究などが含まれます。報酬ハッキング、欺瞞的アライメント、シコファンシー(おもねり)、仕様ゲーミング、能力向上に伴う権力追求的挙動など、ミスアライメントのリスクも扱います。アライメントは AI セーフティの基盤であり、安全に作られていても目標が誤っていれば害となり得ます。Anthropic、OpenAI、DeepMind や英国 AI Security Institute はアライメント研究・評価・ベンチマークを公開しており、安全方針・レッドチームシナリオ・ガバナンスフレームワークに反映されています。

  1. 01

    RLHF を用いて、ユーザー指示には従い明らかに有害な要求は拒否する LLM を訓練する。

  2. 02

    ユーザーの誤った信念にモデルが同調していないか(シコファンシー)を評価する。

よくある質問

AI アライメント とは何ですか?

AI システムの目標追求・指示遵守・挙動を、開発者やユーザーの意図に沿わせるための研究と工学的取り組み。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。

AI アライメント とはどういう意味ですか?

AI システムの目標追求・指示遵守・挙動を、開発者やユーザーの意図に沿わせるための研究と工学的取り組み。

AI アライメント はどのように機能しますか?

アライメントは機械学習研究・政策・セキュリティを横断します。手法には教師ありファインチューニング、RLHF、RLAIF、Constitutional AI、ディベート、スケーラブル監視、解釈可能性研究などが含まれます。報酬ハッキング、欺瞞的アライメント、シコファンシー(おもねり)、仕様ゲーミング、能力向上に伴う権力追求的挙動など、ミスアライメントのリスクも扱います。アライメントは AI セーフティの基盤であり、安全に作られていても目標が誤っていれば害となり得ます。Anthropic、OpenAI、DeepMind や英国 AI Security Institute はアライメント研究・評価・ベンチマークを公開しており、安全方針・レッドチームシナリオ・ガバナンスフレームワークに反映されています。

AI アライメント からどのように防御しますか?

AI アライメント に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。

AI アライメント の別名は何ですか?

一般的な別名: 価値アライメント, モデルアライメント。

関連用語