● 47 entries

Seguridad de IA y ML

Agencia excesivaOWASP LLM06: dar a un sistema basado en LLM más funcionalidad, permisos o autonomía de los que realmente necesita, de modo que una inyección de prompt o un error del modelo se traduzca en un impacto real desproporcionado.
Alineamiento de IAConjunto de investigación e ingeniería que busca que los sistemas de IA persigan objetivos, sigan instrucciones y se comporten conforme a las intenciones de sus desarrolladores y usuarios.
Alucinación de IAModo de fallo en el que un sistema de IA generativa produce contenido fluido y confiado pero factualmente erróneo, inventado o sin respaldo en sus fuentes.
Ataque AdaptativoAtaque contra un sistema de aprendizaje automatico disenado especificamente para evadir o romper una defensa conocida, en lugar de usar una tecnica generica.
Ataque Adversarial TransferibleAtaque en el que los ejemplos adversariales generados contra un modelo de ML tambien enganan a otros modelos no vistos, lo que permite atacar en caja negra sin acceso al objetivo.
Ataque con Deepfake de VideoAtaque que emplea video sintetico generado por IA de una persona real, a menudo en una reunion en directo, para autorizar transacciones fraudulentas o difundir desinformacion.
Ataque de Clonacion de VozAtaque que utiliza voz generada por IA imitando a una persona real para eludir la autenticacion de voz o enganar a la victima y autorizar pagos o acciones.
Ataque de evasión (ML)Ataque en tiempo de inferencia en el que el adversario crea entradas que evaden la decisión prevista de un modelo desplegado, como un clasificador de malware o un filtro de contenido.
Ataque de inferencia de membresíaAtaque de privacidad que determina si un registro concreto formó parte del conjunto de entrenamiento de un modelo, analizando el comportamiento del modelo sobre ese registro.
Ataque de puerta trasera (ML)Ataque en tiempo de entrenamiento que implanta un comportamiento oculto en el modelo: actúa normalmente con entradas limpias y produce una salida elegida por el atacante cuando aparece un disparador secreto.
Ataque NightshadeTécnica de envenenamiento de datos desarrollada por el equipo Glaze de la Universidad de Chicago que añade perturbaciones imperceptibles a imágenes para que los modelos text-to-image entrenados con ellas aprendan conceptos profundamente distorsionados.
Ataques a MCPAtaques que explotan el Model Context Protocol (MCP) para inyectar prompts, abusar de herramientas o pivotar a traves de servidores en los que confia el asistente de IA.
Ataques sobre embeddingsFamilia de ataques contra vectores de embedding de IA que recuperan, alteran o abusan del input original o de su semántica, incluida la inversión de embeddings y el envenenamiento por similitud.
C2PACoalition for Content Provenance and Authenticity: estándar abierto de metadatos firmados criptográficamente que registran cómo se creó y editó un contenido digital.
Contrabando de tokens (token smuggling)Familia de técnicas de jailbreak que ocultan instrucciones dañinas para un LLM dentro de codificaciones, idiomas o secuencias de tokens que el filtro de seguridad no reconoce como peligrosas.
DeepfakeAudio, imagen o vídeo sintético generado por IA que representa de forma convincente a una persona real diciendo o haciendo algo que nunca ocurrió.
Desinformacion Generada por IAContenido falso o enganoso producido o amplificado por IA generativa para enganar al publico, manipular la opinion o influir en elecciones, mercados o conflictos.
Detección de contenido generado por IAHerramientas y técnicas que estiman si un texto, imagen, audio o vídeo fue producido por un modelo de IA en lugar de un humano.
Ejemplo adversarialEntrada perturbada deliberadamente —a menudo de forma imperceptible para los humanos— para que un modelo de ML produzca una predicción errónea o elegida por el atacante.
Envenenamiento de datosAtaque a un sistema de aprendizaje automático en el que el adversario inyecta, altera o reetiqueta datos de entrenamiento para que el modelo se comporte de forma incorrecta o contenga puertas traseras ocultas.
Extracción de modelosAtaque que reconstruye los parámetros, comportamiento o datos de entrenamiento de un modelo de ML confidencial mediante consultas sistemáticas a su API pública.
Firewall de LLMControl de seguridad que se sitúa entre los usuarios y un gran modelo de lenguaje para inspeccionar prompts, contexto recuperado y salidas en tiempo real, bloqueando o reescribiendo el tráfico que viola la política.
Fuga del System Prompt de un LLMAtaque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.
Gobernanza de IAConjunto de políticas, procesos, roles y controles con los que organizaciones y reguladores garantizan que los sistemas de IA se desarrollan, despliegan y operan de forma responsable y legal.
Guardrails de LLMMecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.
Inversión de modeloAtaque de privacidad que reconstruye características sensibles de los datos de entrenamiento de un modelo —como rostros o texto— explotando sus salidas o gradientes.
Inyección de promptsAtaque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
Inyección indirecta de promptsVariante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
Jailbreak de IATécnica que hace que un modelo de IA alineado se salte sus políticas de seguridad y produzca contenido o conductas que el operador pretendía prohibir.
Lista de materiales de IA (AIBOM)Inventario legible por máquina de cada componente que entra en un sistema de IA —datasets, modelos base, datos de fine-tuning, librerías, prompts y artefactos de evaluación— usado para seguridad, cumplimiento y rendición de cuentas.
LLMjackingAtaque en el que los adversarios usan credenciales de nube robadas para acceder y abusar de servicios de grandes modelos de lenguaje alojados, generando grandes facturas de inferencia a la víctima o revendiendo el acceso.
Malware Generado por IACodigo malicioso escrito, mutado o asistido por modelos de lenguaje, que reduce la barrera tecnica para los atacantes y acelera la produccion de variantes.
Marca de agua de IATécnicas que insertan una señal detectable en el contenido generado por IA para verificar más tarde su procedencia, el modelo de origen o su pertenencia al entrenamiento.
Medios sintéticosAudio, imágenes, vídeos o texto producidos o modificados sustancialmente por IA generativa, en lugar de captados directamente del mundo físico.
MLSecOpsDisciplina que integra controles de seguridad y riesgo en todo el ciclo de vida del aprendizaje automático, desde la obtención de datos hasta el entrenamiento, despliegue, monitoreo y retiro.
Model Card de IADocumento estandarizado, propuesto por Margaret Mitchell y colegas en 2018, que describe el uso previsto, datos de entrenamiento, rendimiento, limitaciones y consideraciones éticas de un modelo de ML.
Model Context Protocol (MCP)Protocolo abierto presentado por Anthropic a finales de 2024 que estandariza cómo los clientes LLM se conectan a herramientas, datos y prompts externos mediante servidores, convirtiendo a los servidores MCP en una frontera de seguridad clave para la IA agéntica.
OWASP LLM Top 10Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
RAGRetrieval-Augmented Generation: patrón para LLMs que recupera documentos relevantes de un almacén de conocimiento en tiempo de consulta y los inyecta en el prompt para fundamentar la respuesta.
Red team de IAEquipo especializado que simula adversarios contra sistemas de IA para descubrir riesgos de seguridad, safety y mal uso antes que los atacantes reales.
Respuesta a incidentes de IAConjunto de procesos, roles y playbooks que una organización utiliza para detectar, contener, investigar, comunicar y recuperarse de incidentes relacionados con sistemas de IA.
Riesgo de cadena de suministro de IAConjunto de amenazas derivadas de los datasets, modelos base, librerías, plug-ins e infraestructuras de terceros que las organizaciones combinan para construir y desplegar sistemas de IA.
Safety de IADisciplina que busca evitar que los sistemas de IA causen daños no intencionados a usuarios, operadores y sociedad, abarcando dimensiones técnicas, operativas y sociales.
Seguridad de bases de datos vectorialesConjunto de controles que protegen las bases de datos vectoriales usadas por sistemas de IA frente a fuga de datos, envenenamiento, cruce entre tenants y compromisos operativos o de cadena de suministro.
Seguridad de IA agénticaDisciplina que protege a los agentes LLM autónomos que planifican, invocan herramientas y actúan sobre sistemas reales, donde la inyección de prompts se convierte en ejecución remota y la agencia excesiva en daño efectivo.
Seguridad de RAGDisciplina dedicada a proteger los pipelines de generación aumentada por recuperación para que los documentos, almacenes vectoriales y pasos de recuperación que alimentan al LLM no puedan envenenarse, abusarse ni filtrar datos.
Shadow AIUso por parte de empleados de herramientas, modelos o servicios de IA sin conocimiento ni aprobación de las funciones de seguridad, privacidad o gobernanza de la organización.