● Category
Seguridad de IA y ML
43 entries
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 528
Inyección indirecta de prompts
Variante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
- ai-security№ 030
Jailbreak de IA
Técnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
- ai-security№ 281
Envenenamiento de datos
Ataque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
- ai-security№ 703
Extracción de modelos
Ataque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
- ai-security№ 704
Inversión de modelo
Ataque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.
- ai-security№ 018
Ejemplo adversarial
Entrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
- ai-security№ 393
Ataque de evasión (ML)
Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido.
- ai-security№ 081
Ataque de puerta trasera (ML)
Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
- ai-security№ 666
Ataque de inferencia de membresía
Ataque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.
- ai-security№ 032
Red team de IA
Equipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
- ai-security№ 691
MLSecOps
Disciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
- ai-security№ 777
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- ai-security№ 028
Alucinación de IA
Modo de fallo en el que un sistema de IA generativa produce contenido fluido y confiado pero factualmente erróneo, inventado o sin respaldo en sus fuentes.
- ai-security№ 024
Alineamiento de IA
Conjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
- ai-security№ 033
Safety de IA
Disciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.
- ai-security№ 027
Gobernanza de IA
Conjunto de políticas, procesos, roles y controles con los que organizaciones y reguladores garantizan que los sistemas de IA se desarrollan, despliegan y operan de forma responsable y legal.
- ai-security№ 297
Deepfake
Audio, imagen o vídeo sintético generado por IA que representa de forma convincente a una persona real diciendo o haciendo algo que nunca ocurrió.
- ai-security№ 1123
Medios sintéticos
Audio, imágenes, vídeos o texto producidos o modificados sustancialmente por IA generativa, en lugar de captados directamente del mundo físico.
- ai-security№ 035
Marca de agua de IA
Técnicas que insertan una señal detectable en el contenido generado por IA para verificar más tarde su procedencia, el modelo de origen o su pertenencia al entrenamiento.
- ai-security№ 1026
Shadow AI
Uso por parte de empleados de herramientas, modelos o servicios de IA sin conocimiento ni aprobación de las funciones de seguridad, privacidad o gobernanza de la organización.
- ai-security№ 025
Lista de materiales de IA (AIBOM)
Inventario legible por máquina de cada componente que entra en un sistema de IA —datasets, modelos base, datos de fine-tuning, librerías, prompts y artefactos de evaluación— usado para seguridad, cumplimiento y rendición de cuentas.
- ai-security№ 898
Seguridad de RAG
Disciplina dedicada a proteger los pipelines de generación aumentada por recuperación para que los documentos, almacenes vectoriales y pasos de recuperación que alimentan al LLM no puedan envenenarse, abusarse ni filtrar datos.
- ai-security№ 1163
Contrabando de tokens (token smuggling)
Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.
- ai-security№ 729
Ataque Nightshade
Técnica de envenenamiento de datos desarrollada por el equipo Glaze de la Universidad de Chicago que añade perturbaciones imperceptibles a imágenes para que los modelos text-to-image entrenados con ellas aprendan conceptos profundamente distorsionados.
- ai-security№ 034
Riesgo de cadena de suministro de IA
Conjunto de amenazas derivadas de los datasets, modelos base, librerías, plug-ins e infraestructuras de terceros que las organizaciones combinan para construir y desplegar sistemas de IA.
- ai-security№ 026
Detección de contenido generado por IA
Herramientas y técnicas que estiman si un texto, imagen, audio o vídeo fue producido por un modelo de IA en lugar de un humano.
- ai-security№ 029
Respuesta a incidentes de IA
Conjunto de procesos, roles y playbooks que una organización utiliza para detectar, contener, investigar, comunicar y recuperarse de incidentes relacionados con sistemas de IA.
- ai-security№ 617
Firewall de LLM
Control de seguridad que se sitúa entre los usuarios y un gran modelo de lenguaje para inspeccionar prompts, contexto recuperado y salidas en tiempo real, bloqueando o reescribiendo el tráfico que viola la política.
- ai-security№ 618
Guardrails de LLM
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
- ai-security№ 657
Ataques a MCP
Ataques que explotan el Model Context Protocol (MCP) para inyectar prompts, abusar de herramientas o pivotar a traves de servidores en los que confia el asistente de IA.
- ai-security№ 1208
Ataque de Clonacion de Voz
Ataque que utiliza voz generada por IA imitando a una persona real para eludir la autenticacion de voz o enganar a la victima y autorizar pagos o acciones.
- ai-security№ 1203
Ataque con Deepfake de Video
Ataque que emplea video sintetico generado por IA de una persona real, a menudo en una reunion en directo, para autorizar transacciones fraudulentas o difundir desinformacion.
- ai-security№ 036
Desinformacion Generada por IA
Contenido falso o enganoso producido o amplificado por IA generativa para enganar al publico, manipular la opinion o influir en elecciones, mercados o conflictos.
- ai-security№ 037
Malware Generado por IA
Codigo malicioso escrito, mutado o asistido por modelos de lenguaje, que reduce la barrera tecnica para los atacantes y acelera la produccion de variantes.
- ai-security№ 1168
Ataque Adversarial Transferible
Ataque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo.
- ai-security№ 014
Ataque Adaptativo
Ataque contra un sistema de aprendizaje automatico disenado especificamente para evadir o romper una defensa conocida, en lugar de usar una tecnica generica.
- ai-security№ 619
Fuga del System Prompt de un LLM
Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.
- ai-security№ 137
C2PA
Coalition for Content Provenance and Authenticity: estándar abierto de metadatos firmados criptográficamente que registran cómo se creó y editó un contenido digital.
- ai-security№ 897
RAG
Retrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.
- ai-security№ 376
Ataques sobre embeddings
Familia de ataques contra vectores de embedding de IA que recuperan, alteran o abusan del input original o de su semántica, incluida la inversión de embeddings y el envenenamiento por similitud.
- ai-security№ 1198
Seguridad de bases de datos vectoriales
Conjunto de controles que protegen las bases de datos vectoriales usadas por sistemas de IA frente a fuga de datos, envenenamiento, cruce entre tenants y compromisos operativos o de cadena de suministro.
- ai-security№ 031
Model Card de IA
Documento estandarizado, propuesto por Margaret Mitchell y colegas en 2018, que describe el uso previsto, datos de entrenamiento, rendimiento, limitaciones y consideraciones éticas de un modelo de ML.