AI セーフティ
AI セーフティ とは何ですか?
AI セーフティAI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。
AI セーフティは伝統的なセキュリティより広く、攻撃者がいない場面でも事故・バイアス・欺瞞・暴走する自律的挙動・デュアルユース濫用、さらには破滅的・実存的リスクまで対象とします。技術面ではアライメント、解釈可能性、評価、ロバスト学習、監視、能力引き出し(capability elicitation)を扱い、運用面ではレスポンシブル・スケーリングポリシー、モデルカード、デプロイ時ガードレール、アクセス制御を扱います。英米の AI Safety Institute、EU AI Office、NIST(AI RMF)、フロンティア研究機関などが標準を発信しています。AI セキュリティとは別領域ですが重なりが大きく、安全でない(unsafe)モデルはセキュリティ上もしばしば危険になります。
● 例
- 01
ある LLM プロバイダーが、能力が一定閾値を超えた時点で学習を一時停止するレスポンシブル・スケーリングポリシーを導入する。
- 02
公開前に、エージェント型モデルの自己複製・自己流出能力を評価する。
● よくある質問
AI セーフティ とは何ですか?
AI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
AI セーフティ とはどういう意味ですか?
AI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。
AI セーフティ はどのように機能しますか?
AI セーフティは伝統的なセキュリティより広く、攻撃者がいない場面でも事故・バイアス・欺瞞・暴走する自律的挙動・デュアルユース濫用、さらには破滅的・実存的リスクまで対象とします。技術面ではアライメント、解釈可能性、評価、ロバスト学習、監視、能力引き出し(capability elicitation)を扱い、運用面ではレスポンシブル・スケーリングポリシー、モデルカード、デプロイ時ガードレール、アクセス制御を扱います。英米の AI Safety Institute、EU AI Office、NIST(AI RMF)、フロンティア研究機関などが標準を発信しています。AI セキュリティとは別領域ですが重なりが大きく、安全でない(unsafe)モデルはセキュリティ上もしばしば危険になります。
AI セーフティ からどのように防御しますか?
AI セーフティ に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
AI セーフティ の別名は何ですか?
一般的な別名: フロンティア AI セーフティ, 責任ある AI。
● 関連用語
- ai-security№ 024
AI アライメント
AI システムの目標追求・指示遵守・挙動を、開発者やユーザーの意図に沿わせるための研究と工学的取り組み。
- ai-security№ 027
AI ガバナンス
組織と規制当局が、AI システムを責任あるかつ合法的な形で開発・展開・運用するために用いる方針・プロセス・役割・統制の総体。
- ai-security№ 032
AI レッドチーム
AI システムに対して攻撃者を模擬し、現実の攻撃者より先にセキュリティ・セーフティ・濫用上のリスクを洗い出す専門チーム。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
- ai-security№ 029
AI インシデント対応
AI システムに関わるインシデントの検知・封じ込め・調査・周知・復旧のために組織が用いるプロセス・役割・プレイブックの総体。
- ai-security№ 028
AI ハルシネーション
生成 AI が流暢かつ自信ありげな出力を返しながら、事実と異なる、捏造された、または出典の裏付けがない内容を出してしまう失敗モード。
● 関連項目
- № 1123合成メディア
- № 035AI ウォーターマーキング
- № 026AI コンテンツ検出
- № 391EU AI 法