● 47 entries

AI 与机器学习安全

成员推断攻击一种隐私攻击,通过分析模型对某条记录的行为,判断该记录是否曾出现在该模型的训练集中。
对抗样本经过有意扰动(通常人眼难以察觉)的输入,使机器学习模型给出错误的或攻击者指定的预测。
过度授权(Excessive Agency)OWASP LLM06:为基于 LLM 的系统授予超出实际需要的功能、权限或自主性,使一次提示注入或模型失误就足以造成超出预期的现实影响。
合成媒体由生成式 AI 制作或大量修改的音频、图像、视频或文本内容,而非直接从物理世界采集得到的素材。
机器学习后门攻击训练阶段的攻击,在模型中植入隐藏行为:对干净输入表现正常,但只要出现秘密触发器,就输出攻击者指定的结果。
机器学习逃逸攻击在推理阶段精心构造输入,以绕过已部署机器学习模型(如恶意软件分类器或内容过滤器)既定判断的攻击。
间接提示词注入提示词注入的变种,恶意指令被隐藏在第三方内容(网页、文档、邮件)中,由 LLM 通过检索、浏览或工具调用而读入。
可迁移对抗攻击在一个机器学习模型上构造的对抗样本同样能欺骗未见过的其他模型,从而无需访问目标模型即可实施黑盒攻击。
模型抽取通过系统地查询机器学习模型的公开 API,重建其参数、行为或训练数据的攻击。
模型反演一种隐私攻击,通过利用模型的输出或梯度来重建训练数据中的敏感特征(如人脸或文本)。
模型上下文协议(MCP)Anthropic 于 2024 年底发布的开放协议,统一规范 LLM 客户端通过服务器连接外部工具、数据源与提示的方式,使 MCP 服务器成为智能体 AI 的关键安全边界。
嵌入向量攻击针对 AI 嵌入向量的一类攻击,旨在还原、篡改或滥用原始输入或其语义,包括嵌入反演与基于相似度的投毒。
深度伪造(Deepfake)由 AI 生成、能以假乱真地呈现真实人物说出或做出未曾发生之事的合成音视频或图像。
视频深度伪造攻击利用 AI 合成的真人视频 (常出现在实时视频会议中) 授权欺诈交易或散布虚假信息的攻击。
数据投毒针对机器学习系统的攻击,攻击者注入、篡改或重新标注训练数据,使最终模型出现错误行为或被植入隐蔽后门。
提示词注入通过向提示中夹带对抗性文本来覆盖 LLM 原有指令的攻击,使模型忽略安全限制或执行攻击者指定的操作。
向量数据库安全保护 AI 系统所使用的向量数据库,防范数据泄露、投毒、租户串通以及运营或供应链入侵的一组控制措施。
影子 AI员工在未获组织安全、隐私或治理职能知情或批准的情况下使用 AI 工具、模型或服务的行为。
语音克隆攻击利用 AI 合成模仿真人的语音绕过声纹认证,或诱骗受害者授权付款与操作的攻击。
智能体 AI 安全面向可自主规划、调用工具并在真实系统中执行操作的 LLM 智能体的安全实践;在此场景下,提示注入可转化为远程代码执行,过度授权则带来真实的破坏面。
自适应攻击针对机器学习系统、专门为绕过或攻破某一已知防御而设计的攻击,而不是使用通用、与防御无关的技术。
AI 安全(Safety)致力于防止 AI 系统对用户、运营者及社会造成非预期危害的学科,涵盖技术、运营与社会三个维度。
AI 对齐通过研究与工程手段,使 AI 系统所追求的目标、遵循的指令和实际行为符合开发者与用户意图的工作领域。
AI 供应链风险组织在构建和部署 AI 系统时所组合的第三方数据集、基础模型、依赖库、插件与基础设施带来的威胁集合。
AI 红队针对 AI 系统模拟对抗者的专门团队,在真实攻击者之前发现安全、Safety 与滥用风险。
AI 幻觉生成式 AI 输出流畅且自信、但事实错误、凭空捏造或与来源不符的失效模式。
AI 模型卡(Model Card)由 Margaret Mitchell 等人于 2018 年提出的标准化文档,描述机器学习模型的预期用途、训练数据、性能、局限性与伦理考量。
AI 内容检测用于估计一段文本、图像、音频或视频是否由 AI 模型生成、而非来自人类的工具和技术。
AI 生成的恶意软件由大型语言模型撰写、变形或辅助编写的恶意代码,降低了攻击者的技术门槛并加快了变种生产。
AI 生成的虚假信息由生成式 AI 制作或放大的虚假与误导性内容,用以欺骗受众、操控舆论,或影响选举、市场与冲突局势。
AI 事件响应组织用于检测、遏制、调查、通报与恢复涉及 AI 系统的事件的一整套流程、角色与剧本。
AI 水印在 AI 生成内容中嵌入可检测信号的技术,用于事后验证其来源、所属模型或与训练集的关联。
AI 物料清单(AIBOM)对构成 AI 系统的每一项组件——数据集、基础模型、微调数据、依赖库、提示与评估制品——的机读清单,用于安全、合规与问责。
AI 越狱诱使经过对齐的 AI 模型绕过自身安全策略,输出运营方本欲禁止的内容或行为的技术。
AI 治理组织和监管机构用于确保 AI 系统以负责任、合法方式开发、部署与运营的政策、流程、角色与控制的总和。
C2PA内容来源与真实性联盟(Coalition for Content Provenance and Authenticity)制定的开放标准,通过加密签名的元数据记录数字媒体的创建与编辑历史。
LLM 防火墙位于用户与大型语言模型之间的安全控制,实时检查提示、检索上下文与输出,对违反策略的流量进行拦截或改写。
LLM 守护栏约束基于 LLM 的应用能接收或输出哪些内容的机制,围绕底层模型落实 Safety、安全与业务规则。
LLM 系统提示词泄露通过攻击使已部署的大型语言模型应用泄露其隐藏的系统提示词或指令,从而暴露其业务逻辑、密钥和工具定义。
LLMjacking(大模型劫持)一种攻击,攻击者利用窃取的云凭证访问并滥用托管的大语言模型服务,给受害者带来高额推理账单,或将访问权限转卖牟利。
MCP 攻击利用模型上下文协议 (MCP) 注入提示、滥用工具或通过 AI 助手所信任的服务器进行横向渗透的攻击。
MLSecOps在机器学习全生命周期(数据收集、训练、部署、监控到退役)中整合安全与风险控制的实践。
Nightshade 攻击芝加哥大学 Glaze 团队提出的数据投毒技术,通过为图像添加人眼难以察觉的扰动,使在这些图像上训练的文生图模型学到严重扭曲的概念。
OWASP LLM Top 10由 OWASP 维护的清单,列出对基于大型语言模型构建的应用最关键的十大安全风险。
RAG 安全保护检索增强生成(RAG)流水线的实践,确保为 LLM 提供素材的文档、向量库与检索步骤无法被投毒、滥用或用于数据外泄。
RAG(检索增强生成)Retrieval-Augmented Generation:在查询时从知识库检索相关文档,并将其注入提示词以为 LLM 输出提供依据的模式。
Token 走私一类越狱技术,把有害指令隐藏在安全过滤器不识别的编码、语言或 token 序列中,从而绕过 LLM 的安全防护。