Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 1163

トークンスマグリング

トークンスマグリング とは何ですか?

トークンスマグリング安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。


トークンスマグリングは、モデルのトークナイズ・デコードの仕方と、コンテンツ分類器が分析する仕方のずれを突きます。攻撃者は禁止語を複数のトークンに分割したり、Base64・ROT-13・Unicode の同形字・leet 表記・低リソース言語を使ったり、「各単語の 2 文字目を取れ」のように無害な断片から悪意ある文字列を組み立てさせたりします。ツール入力経由のスマグリングや難読化された関数呼び出しといった派生もあります。ガードレールが復元後の意図ではなく表層テキストだけを見ていることが多いため成立します。対策には復号後テキストに対する分類器のアンサンブル、意味レベルの意図検知、デコードに配慮したセーフティモデル、ツール呼び出しのランタイムサンドボックス、継続的な敵対的レッドチームがあります。

  1. 01

    攻撃者が無害な 10 語の頭文字を取らせて、禁止された化学合成用語を綴らせる。

  2. 02

    悪意あるリクエストを Base64 で符号化すると、安全フィルタにはランダムに見える文字列だけが届くが、LLM は嬉々として復号して従う。

よくある質問

トークンスマグリング とは何ですか?

安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。 サイバーセキュリティの AI / ML セキュリティ カテゴリに属します。

トークンスマグリング とはどういう意味ですか?

安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。

トークンスマグリング はどのように機能しますか?

トークンスマグリングは、モデルのトークナイズ・デコードの仕方と、コンテンツ分類器が分析する仕方のずれを突きます。攻撃者は禁止語を複数のトークンに分割したり、Base64・ROT-13・Unicode の同形字・leet 表記・低リソース言語を使ったり、「各単語の 2 文字目を取れ」のように無害な断片から悪意ある文字列を組み立てさせたりします。ツール入力経由のスマグリングや難読化された関数呼び出しといった派生もあります。ガードレールが復元後の意図ではなく表層テキストだけを見ていることが多いため成立します。対策には復号後テキストに対する分類器のアンサンブル、意味レベルの意図検知、デコードに配慮したセーフティモデル、ツール呼び出しのランタイムサンドボックス、継続的な敵対的レッドチームがあります。

トークンスマグリング からどのように防御しますか?

トークンスマグリング に対する防御は通常、上記の定義で述べたとおり、技術的統制と運用上の実践を組み合わせます。

トークンスマグリング の別名は何ですか?

一般的な別名: トークンスマグリング型ジェイルブレイク, 符号化型プロンプトインジェクション。

関連用語