トークンスマグリング
トークンスマグリング とは何ですか?
トークンスマグリング安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。
トークンスマグリングは、モデルのトークナイズ・デコードの仕方と、コンテンツ分類器が分析する仕方のずれを突きます。攻撃者は禁止語を複数のトークンに分割したり、Base64・ROT-13・Unicode の同形字・leet 表記・低リソース言語を使ったり、「各単語の 2 文字目を取れ」のように無害な断片から悪意ある文字列を組み立てさせたりします。ツール入力経由のスマグリングや難読化された関数呼び出しといった派生もあります。ガードレールが復元後の意図ではなく表層テキストだけを見ていることが多いため成立します。対策には復号後テキストに対する分類器のアンサンブル、意味レベルの意図検知、デコードに配慮したセーフティモデル、ツール呼び出しのランタイムサンドボックス、継続的な敵対的レッドチームがあります。
● 例
- 01
攻撃者が無害な 10 語の頭文字を取らせて、禁止された化学合成用語を綴らせる。
- 02
悪意あるリクエストを Base64 で符号化すると、安全フィルタにはランダムに見える文字列だけが届くが、LLM は嬉々として復号して従う。
● よくある質問
トークンスマグリング とは何ですか?
安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。
トークンスマグリング とはどういう意味ですか?
安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。
トークンスマグリング はどのように機能しますか?
トークンスマグリングは、モデルのトークナイズ・デコードの仕方と、コンテンツ分類器が分析する仕方のずれを突きます。攻撃者は禁止語を複数のトークンに分割したり、Base64・ROT-13・Unicode の同形字・leet 表記・低リソース言語を使ったり、「各単語の 2 文字目を取れ」のように無害な断片から悪意ある文字列を組み立てさせたりします。ツール入力経由のスマグリングや難読化された関数呼び出しといった派生もあります。ガードレールが復元後の意図ではなく表層テキストだけを見ていることが多いため成立します。対策には復号後テキストに対する分類器のアンサンブル、意味レベルの意図検知、デコードに配慮したセーフティモデル、ツール呼び出しのランタイムサンドボックス、継続的な敵対的レッドチームがあります。
トークンスマグリング からどのように防御しますか?
トークンスマグリング に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。
トークンスマグリング の別名は何ですか?
一般的な別名: トークンスマグリング型ジェイルブレイク, 符号化型プロンプトインジェクション。
● 関連用語
- ai-security№ 030
AI ジェイルブレイク
アライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。
- ai-security№ 866
プロンプトインジェクション
プロンプトに敵対的なテキストを紛れ込ませて LLM の元の指示を上書きし、安全策を無視させたり攻撃者が望む動作を実行させたりする攻撃。
- ai-security№ 528
間接プロンプトインジェクション
悪意ある指示を第三者コンテンツ(Web ページ、文書、メール)に埋め込み、LLM が検索・閲覧・ツール利用を通じて取り込んだ際に発動するプロンプトインジェクションの変種。
- ai-security№ 777
OWASP LLM Top 10
大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
- ai-security№ 618
LLM ガードレール
LLM ベースのアプリケーションが受け付けたり出力したりできる内容を制約し、基盤モデルの周囲で safety・セキュリティ・業務ルールを適用する仕組み。
- ai-security№ 032
AI レッドチーム
AI システムに対して攻撃者を模擬し、現実の攻撃者より先にセキュリティ・セーフティ・濫用上のリスクを洗い出す専門チーム。