● Category
AI 与机器学习安全
43 entries
- ai-security№ 866
提示词注入
通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
- ai-security№ 528
间接提示词注入
提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
- ai-security№ 030
AI 越狱
诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
- ai-security№ 281
数据投毒
针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
- ai-security№ 703
模型抽取
通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。
- ai-security№ 704
模型反演
一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。
- ai-security№ 018
对抗样本
经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。
- ai-security№ 393
机器学习逃逸攻击
在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。
- ai-security№ 081
机器学习后门攻击
训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。
- ai-security№ 666
成员推断攻击
一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
- ai-security№ 032
AI 红队
针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
- ai-security№ 691
MLSecOps
在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
- ai-security№ 777
OWASP LLM Top 10
由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
- ai-security№ 028
AI 幻觉
生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。
- ai-security№ 024
AI 对齐
通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
- ai-security№ 033
AI 安全(Safety)
致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
- ai-security№ 027
AI 治理
组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。
- ai-security№ 297
深度伪造(Deepfake)
由 AI 生成、能以假乱真地呈现真实人物说出或做出未曾发生之事的合成音视频或图像。
- ai-security№ 1123
合成媒体
由生成式 AI 制作或大量修改的音频、图像、视频或文本内容,而非直接从物理世界采集得到的素材。
- ai-security№ 035
AI 水印
在 AI 生成内容中嵌入可检测信号的技术,用于事后验证其来源、所属模型或与训练集的关联。
- ai-security№ 1026
影子 AI
员工在未获组织安全、隐私或治理职能知情或批准的情况下使用 AI 工具、模型或服务的行为。
- ai-security№ 025
AI 物料清单(AIBOM)
对构成 AI 系统的每一项组件——数据集、基础模型、微调数据、依赖库、提示与评估制品——的机读清单,用于安全、合规与问责。
- ai-security№ 898
RAG 安全
保护检索增强生成(RAG)流水线的实践,确保为 LLM 提供素材的文档、向量库与检索步骤无法被投毒、滥用或用于数据外泄。
- ai-security№ 1163
Token 走私
一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。
- ai-security№ 729
Nightshade 攻击
芝加哥大学 Glaze 团队提出的数据投毒技术,通过为图像添加人眼难以察觉的扰动,使在这些图像上训练的文生图模型学到严重扭曲的概念。
- ai-security№ 034
AI 供应链风险
组织在构建和部署 AI 系统时所组合的第三方数据集、基础模型、依赖库、插件与基础设施带来的威胁集合。
- ai-security№ 026
AI 内容检测
用于估计一段文本、图像、音频或视频是否由 AI 模型生成、而非来自人类的工具和技术。
- ai-security№ 029
AI 事件响应
组织用于检测、遏制、调查、通报与恢复涉及 AI 系统的事件的一整套流程、角色与剧本。
- ai-security№ 617
LLM 防火墙
位于用户与大型语言模型之间的安全控制,实时检查提示、检索上下文与输出,对违反策略的流量进行拦截或改写。
- ai-security№ 618
LLM 守护栏
约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
- ai-security№ 657
MCP 攻击
利用模型上下文协议 (MCP) 注入提示、滥用工具或通过 AI 助手所信任的服务器进行横向渗透的攻击。
- ai-security№ 1208
语音克隆攻击
利用 AI 合成模仿真人的语音绕过声纹认证,或诱骗受害者授权付款与操作的攻击。
- ai-security№ 1203
视频深度伪造攻击
利用 AI 合成的真人视频 (常出现在实时视频会议中) 授权欺诈交易或散布虚假信息的攻击。
- ai-security№ 036
AI 生成的虚假信息
由生成式 AI 制作或放大的虚假与误导性内容,用以欺骗受众、操控舆论,或影响选举、市场与冲突局势。
- ai-security№ 037
AI 生成的恶意软件
由大型语言模型撰写、变形或辅助编写的恶意代码,降低了攻击者的技术门槛并加快了变种生产。
- ai-security№ 1168
可迁移对抗攻击
在一个机器学习模型上构造的对抗样本同样能欺骗未见过的其他模型,从而无需访问目标模型即可实施黑盒攻击。
- ai-security№ 014
自适应攻击
针对机器学习系统、专门为绕过或攻破某一已知防御而设计的攻击,而不是使用通用、与防御无关的技术。
- ai-security№ 619
LLM 系统提示词泄露
通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。
- ai-security№ 137
C2PA
内容来源与真实性联盟(Coalition for Content Provenance and Authenticity)制定的开放标准,通过加密签名的元数据记录数字媒体的创建与编辑历史。
- ai-security№ 897
RAG(检索增强生成)
Retrieval-Augmented Generation:在查询时从知识库检索相关文档,并将其注入提示词以为 LLM 输出提供依据的模式。
- ai-security№ 376
嵌入向量攻击
针对 AI 嵌入向量的一类攻击,旨在还原、篡改或滥用原始输入或其语义,包括嵌入反演与基于相似度的投毒。
- ai-security№ 1198
向量数据库安全
保护 AI 系统所使用的向量数据库,防范数据泄露、投毒、租户串通以及运营或供应链入侵的一组控制措施。
- ai-security№ 031
AI 模型卡(Model Card)
由 Margaret Mitchell 等人于 2018 年提出的标准化文档,描述机器学习模型的预期用途、训练数据、性能、局限性与伦理考量。