● 47 entries

AI / ML セキュリティ

AI Bill of Materials(AIBOM)データセット・ベースモデル・ファインチューニングデータ・ライブラリ・プロンプト・評価成果物など、AI システムを構成するすべての要素を機械可読でまとめた一覧。セキュリティ・コンプライアンス・説明責任に用いる。
AI アライメントAI システムの目標追求・指示遵守・挙動を、開発者やユーザーの意図に沿わせるための研究と工学的取り組み。
AI インシデント対応AI システムに関わるインシデントの検知・封じ込め・調査・周知・復旧のために組織が用いるプロセス・役割・プレイブックの総体。
AI ウォーターマーキングAI 生成コンテンツに検出可能な信号を埋め込み、後から来歴・由来モデル・学習データ所属を検証できるようにする技術。
AI ガバナンス組織と規制当局が、AI システムを責任あるかつ合法的な形で開発・展開・運用するために用いる方針・プロセス・役割・統制の総体。
AI コンテンツ検出ある文章・画像・音声・動画が、人間ではなく AI モデルによって生成されたかどうかを推定するためのツールや技術。
AI サプライチェーンリスクAI システムを構築・運用するために組織が組み合わせる、第三者のデータセット・ベースモデル・ライブラリ・プラグイン・インフラから生じる脅威の集合。
AI ジェイルブレイクアライメント済み AI モデルに安全ポリシーを回避させ、運営者が禁じた内容や挙動を出力させる技術。
AI セーフティAI システムが利用者・運用者・社会に意図せざる害を及ぼさないようにするための学際分野で、技術・運用・社会の各側面を扱う。
AI ハルシネーション生成 AI が流暢かつ自信ありげな出力を返しながら、事実と異なる、捏造された、または出典の裏付けがない内容を出してしまう失敗モード。
AI モデルカード2018 年に Margaret Mitchell らが提案した、機械学習モデルの想定用途、訓練データ、性能、限界、倫理的考察を記述する標準的なドキュメント。
AI レッドチームAI システムに対して攻撃者を模擬し、現実の攻撃者より先にセキュリティ・セーフティ・濫用上のリスクを洗い出す専門チーム。
AI 生成マルウェア大規模言語モデルが作成・変形・支援した悪意あるコードで、攻撃者の技術的ハードルを下げ、亜種生成を加速させる。
AI 生成偽情報生成 AI が作成または増幅する虚偽・誤解を招く情報で、受け手を欺いたり、世論を操作したり、選挙・市場・紛争に影響を与えるために用いられる。
C2PACoalition for Content Provenance and Authenticity による、デジタルメディアの作成・編集経緯を暗号署名付きメタデータとして記録するオープン標準。
LLM ガードレールLLM ベースのアプリケーションが受け付けたり出力したりできる内容を制約し、基盤モデルの周囲で safety・セキュリティ・業務ルールを適用する仕組み。
LLM システムプロンプト漏洩本番運用中の大規模言語モデルアプリから隠されたシステムプロンプトや指示を引き出し、ロジック・秘密情報・ツール定義を暴く攻撃。
LLM ファイアウォールユーザーと大規模言語モデルの間に配置され、プロンプト・検索コンテキスト・出力をリアルタイムで検査し、ポリシー違反のトラフィックを遮断または書き換えるセキュリティコントロール。
LLMjacking(LLM ジャッキング)盗んだクラウド認証情報を使ってホスト型の大規模言語モデルサービスに不正アクセスし、被害者に高額な推論料金を負わせたり、アクセス権を転売したりする攻撃。
MCP 攻撃Model Context Protocol (MCP) を悪用してプロンプトを注入したり、ツールを乱用したり、AI アシスタントが信頼するサーバー経由で横展開する攻撃。
MLSecOpsデータ収集・学習・デプロイ・運用監視・廃止まで、機械学習のライフサイクル全体にセキュリティとリスク管理を統合する取り組み。
Model Context Protocol(MCP)2024 年末に Anthropic が公開したオープンプロトコル。LLM クライアントがサーバ経由で外部ツール・データソース・プロンプトに接続する方法を標準化し、MCP サーバをエージェント型 AI における主要な安全境界に位置付ける。
Nightshade 攻撃シカゴ大学 Glaze チームが提案したデータポイズニング手法で、画像に知覚不能な摂動を加えることで、それを学習した text-to-image モデルが概念を深く歪んだ形で学習してしまうようにする。
OWASP LLM Top 10大規模言語モデルを基盤とするアプリケーションに対し、最も重大な 10 のセキュリティリスクをまとめた OWASP のリスト。
RAG セキュリティLLM に素材を供給する文書・ベクトルストア・検索ステップが汚染・濫用・データ流出に使われないよう、RAG パイプラインを守るための分野。
RAG(検索拡張生成)Retrieval-Augmented Generation:推論時に知識ストアから関連ドキュメントを取得し、プロンプトに差し込むことで LLM の応答に裏付けを与えるパターン。
エージェント型 AI のセキュリティ計画立案・ツール呼び出し・実システムへの作用を自律的に行う LLM エージェントを守るための分野。プロンプトインジェクションが遠隔コード実行に、過剰な権限が現実の被害範囲に直結する。
エンベディング攻撃AI の埋め込みベクトルを対象に、元の入力やその意味を復元・改ざん・悪用する攻撃の総称。エンベディング反転や類似度ポイズニングなどを含む。
シャドー AIセキュリティ・プライバシー・ガバナンス部門の認知や承認を得ないまま、従業員が AI ツール・モデル・サービスを利用すること。
ディープフェイクAI が生成する合成音声・画像・動画で、実在する人物が実際には言っていない・していないことを、もっともらしく描写するもの。
データポイズニング敵対者が学習データを注入・改ざん・再ラベル付けし、得られるモデルが誤動作したり隠れたバックドアを含んだりするように仕向ける機械学習システムへの攻撃。
トークンスマグリング安全フィルタが危険と認識しないエンコーディング・言語・トークン列の中に LLM 向けの有害な指示を隠す、一連のジェイルブレイク手法。
バックドア攻撃(ML)学習段階でモデルに秘密の挙動を埋め込み、通常入力には正常に動作する一方、特定のトリガーが出現すると攻撃者の指定する出力を返すようにする攻撃。
ビデオディープフェイク攻撃実在人物を AI 合成した動画 (多くはライブビデオ会議) を用いて、不正送金を承認させたり偽情報を拡散したりする攻撃。
プロンプトインジェクションプロンプトに敵対的なテキストを紛れ込ませて LLM の元の指示を上書きし、安全策を無視させたり攻撃者が望む動作を実行させたりする攻撃。
ベクトルデータベースのセキュリティAI システムが利用するベクトルデータベースを、データ漏洩、ポイズニング、テナント間混入、運用・サプライチェーン侵害から守るためのコントロール群。
メンバーシップ推論攻撃あるデータがモデルの学習セットに含まれていたかどうかを、モデルの挙動を解析することで判定するプライバシー攻撃。
モデル抽出公開 API への体系的なクエリを通じて、機密な機械学習モデルのパラメーター・振る舞い・学習データを復元する攻撃。
モデル反転攻撃モデルの出力や勾配を利用して、顔画像やテキストなど学習データの機微な特徴を復元するプライバシー攻撃。
音声クローン攻撃実在人物を模倣した AI 合成音声を用いて音声認証を回避し、または被害者をだまして送金や操作を承認させる攻撃。
過剰な権限(Excessive Agency)OWASP LLM06。LLM ベースのシステムにユースケースを上回る機能・権限・自律性を与えてしまうことで、一度のプロンプトインジェクションやモデルの誤りが、現実世界において過大な影響に転化してしまう問題。
回避攻撃(ML)推論時に攻撃者が入力を細工して、デプロイ済み機械学習モデル(マルウェア分類器やコンテンツフィルタなど)の本来の判定を回避する攻撃。
間接プロンプトインジェクション悪意ある指示を第三者コンテンツ(Web ページ、文書、メール)に埋め込み、LLM が検索・閲覧・ツール利用を通じて取り込んだ際に発動するプロンプトインジェクションの変種。
合成メディア物理世界から直接記録したのではなく、生成 AI によって生成または大幅に改変された音声・画像・動画・テキストの総称。
敵対的サンプル人間にはほぼ知覚できない程度に意図的に摂動を加えた入力で、機械学習モデルに誤った、または攻撃者が指定した予測を出させるもの。
適応的攻撃汎用的・防御非依存の手法ではなく、特定の既知防御を回避・突破するよう設計された機械学習システムへの攻撃。
転移可能な敵対的攻撃ある機械学習モデルに対して作成した敵対的サンプルが、未見の他モデルも誤認させる攻撃で、ターゲットにアクセスせずにブラックボックス攻撃を可能にする。