Entry № 035
AI ジェイルブレイク
AI ジェイルブレイク とは何ですか?
AI ジェイルブレイクアライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。
AI ジェイルブレイクは、モデルの汎用能力と安全ファインチューニングとの間に存在するギャップを突きます。攻撃者はロールプレイ、仮定的設定、符号化した指示、多数のサンプル(many-shot)などを用いて、武器・マルウェア・ヘイトスピーチ・システムプロンプト開示などに関する制約を無視させようとします。著名な例として GPT-3.5 や ChatGPT を狙った "DAN"(Do Anything Now)プロンプト、Anthropic が 2024 年に発表した many-shot ジェイルブレイク研究があります。プロンプトインジェクションと異なり、攻撃者はユーザー自身であることが多い点が特徴です。対策には敵対的学習、Constitutional 法、出力分類器、拒否評価、継続的なレッドチーム検証があります。
● 例
- 01
"DAN" プロンプトが ChatGPT に無制限の別人格を演じさせる。
- 02
many-shot ジェイルブレイクが、有害でも応じてしまった偽の例を多数コンテキストに詰め込む。
● よくある質問
AI ジェイルブレイク とは何ですか?
アライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
AI ジェイルブレイク とはどういう意味ですか?
アライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。
AI ジェイルブレイク からどのように防御しますか?
AI ジェイルブレイク に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
AI ジェイルブレイク の別名は何ですか?
一般的な別名: LLM ジェイルブレイク, セーフティバイパス。