Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 033

AI セーフティ

AI セーフティ とは何ですか?

AI セーフティAI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。


AI セーフティは伝統的なセキュリティより広く、攻撃者がいない場面でも事故・バイアス・欺瞞・暴走する自律的挙動・デュアルユース濫用、さらには破滅的・実存的リスクまで対象とします。技術面ではアライメント、解釈可能性、評価、ロバスト学習、監視、能力引き出し(capability elicitation)を扱い、運用面ではレスポンシブル・スケーリングポリシー、モデルカード、デプロイ時ガードレール、アクセス制御を扱います。英米の AI Safety Institute、EU AI Office、NIST(AI RMF)、フロンティア研究機関などが標準を発信しています。AI セキュリティとは別領域ですが重なりが大きく、安全でない(unsafe)モデルはセキュリティ上もしばしば危険になります。

  1. 01

    ある LLM プロバイダーが、能力が一定閾値を超えた時点で学習を一時停止するレスポンシブル・スケーリングポリシーを導入する。

  2. 02

    公開前に、エージェント型モデルの自己複製・自己流出能力を評価する。

よくある質問

AI セーフティ とは何ですか?

AI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。

AI セーフティ とはどういう意味ですか?

AI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。

AI セーフティ はどのように機能しますか?

AI セーフティは伝統的なセキュリティより広く、攻撃者がいない場面でも事故・バイアス・欺瞞・暴走する自律的挙動・デュアルユース濫用、さらには破滅的・実存的リスクまで対象とします。技術面ではアライメント、解釈可能性、評価、ロバスト学習、監視、能力引き出し(capability elicitation)を扱い、運用面ではレスポンシブル・スケーリングポリシー、モデルカード、デプロイ時ガードレール、アクセス制御を扱います。英米の AI Safety Institute、EU AI Office、NIST(AI RMF)、フロンティア研究機関などが標準を発信しています。AI セキュリティとは別領域ですが重なりが大きく、安全でない(unsafe)モデルはセキュリティ上もしばしば危険になります。

AI セーフティ からどのように防御しますか?

AI セーフティ に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。

AI セーフティ の別名は何ですか?

一般的な別名: フロンティア AI セーフティ, 責任ある AI。

関連用語

関連項目