AI ジェイルブレイク
AI ジェイルブレイク とは何ですか?
AI ジェイルブレイクアライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。
AI ジェイルブレイクは、モデルの汎用能力と安全ファインチューニングとの間に存在するギャップを突きます。攻撃者はロールプレイ、仮定的設定、符号化した指示、多数のサンプル(many-shot)などを用いて、武器・マルウェア・ヘイトスピーチ・システムプロンプト開示などに関する制約を無視させようとします。著名な例として GPT-3.5 や ChatGPT を狙った "DAN"(Do Anything Now)プロンプト、Anthropic が 2024 年に発表した many-shot ジェイルブレイク研究があります。プロンプトインジェクションと異なり、攻撃者はユーザー自身であることが多い点が特徴です。対策には敵対的学習、Constitutional 法、出力分類器、拒否評価、継続的なレッドチーム検証があります。
● 例
- 01
"DAN" プロンプトが ChatGPT に無制限の別人格を演じさせる。
- 02
many-shot ジェイルブレイクが、有害でも応じてしまった偽の例を多数コンテキストに詰め込む。
● よくある質問
AI ジェイルブレイク とは何ですか?
アライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
AI ジェイルブレイク とはどういう意味ですか?
アライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。
AI ジェイルブレイク はどのように機能しますか?
AI ジェイルブレイクは、モデルの汎用能力と安全ファインチューニングとの間に存在するギャップを突きます。攻撃者はロールプレイ、仮定的設定、符号化した指示、多数のサンプル(many-shot)などを用いて、武器・マルウェア・ヘイトスピーチ・システムプロンプト開示などに関する制約を無視させようとします。著名な例として GPT-3.5 や ChatGPT を狙った "DAN"(Do Anything Now)プロンプト、Anthropic が 2024 年に発表した many-shot ジェイルブレイク研究があります。プロンプトインジェクションと異なり、攻撃者はユーザー自身であることが多い点が特徴です。対策には敵対的学習、Constitutional 法、出力分類器、拒否評価、継続的なレッドチーム検証があります。
AI ジェイルブレイク からどのように防御しますか?
AI ジェイルブレイク に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
AI ジェイルブレイク の別名は何ですか?
一般的な別名: LLM ジェイルブレイク, セーフティバイパス。
● 関連用語
- ai-security№ 866
プロンプトインジェクション
プロンプトに敵対的なテキストを紛れ込ませて LLM の元の指示を上書きし、安全策を無視させたり攻撃者が望む動作を実行させたりする攻撃。
- ai-security№ 024
AI アライメント
AI システムの目標追求・指示遵守・挙動を、開発者やユーザーの意図に沿わせるための研究と工学的取り組み。
- ai-security№ 032
AI レッドチーム
AI システムに対して攻撃者を模擬し、現実の攻撃者より先にセキュリティ・セーフティ・濫用上のリスクを洗い出す専門チーム。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
- ai-security№ 618
LLM ガードレール
LLM ベースのアプリケーションが受け付けたり出力したりできる内容を制約し、基盤モデルの周囲で safety・セキュリティ・業務ルールを適用する仕組み。
- ai-security№ 1163
トークンスマグリング
安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。
● 関連項目
- № 528間接プロンプトインジェクション
- № 037AI 生成マルウェア
- № 619LLM システムプロンプト漏洩