Ataques a MCP
¿Qué es Ataques a MCP?
Ataques a MCPAtaques que explotan el Model Context Protocol (MCP) para inyectar prompts, abusar de herramientas o pivotar a traves de servidores en los que confia el asistente de IA.
Los ataques MCP se dirigen al Model Context Protocol, un estandar abierto introducido por Anthropic que permite a los asistentes de IA conectarse a herramientas, fuentes de datos y aplicaciones externas mediante una interfaz comun. Dado que un servidor MCP puede exponer herramientas, recursos y prompts al modelo, un servidor malicioso o comprometido puede inyectar instrucciones ocultas, exfiltrar datos del usuario, solicitar llamadas peligrosas o redefinir herramientas despues de su aprobacion ('rug pull'). Tecnicas afines incluyen la contaminacion de descripciones de herramientas, ataques cross-server de confused deputy y la inyeccion de prompts mediante documentos devueltos. Las mitigaciones pasan por identidades de servidor firmadas y fijadas, permisos acotados, consentimiento explicito por llamada y aislamiento de los procesos del servidor MCP.
● Ejemplos
- 01
Un servidor MCP malicioso cambia la descripcion de una herramienta ya aprobada para exfiltrar correos en futuras llamadas.
- 02
Un documento devuelto por un servidor MCP contiene instrucciones ocultas que ordenan al asistente enviar las claves API del usuario a un webhook del atacante.
● Preguntas frecuentes
¿Qué es Ataques a MCP?
Ataques que explotan el Model Context Protocol (MCP) para inyectar prompts, abusar de herramientas o pivotar a traves de servidores en los que confia el asistente de IA. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Ataques a MCP?
Ataques que explotan el Model Context Protocol (MCP) para inyectar prompts, abusar de herramientas o pivotar a traves de servidores en los que confia el asistente de IA.
¿Cómo funciona Ataques a MCP?
Los ataques MCP se dirigen al Model Context Protocol, un estandar abierto introducido por Anthropic que permite a los asistentes de IA conectarse a herramientas, fuentes de datos y aplicaciones externas mediante una interfaz comun. Dado que un servidor MCP puede exponer herramientas, recursos y prompts al modelo, un servidor malicioso o comprometido puede inyectar instrucciones ocultas, exfiltrar datos del usuario, solicitar llamadas peligrosas o redefinir herramientas despues de su aprobacion ('rug pull'). Tecnicas afines incluyen la contaminacion de descripciones de herramientas, ataques cross-server de confused deputy y la inyeccion de prompts mediante documentos devueltos. Las mitigaciones pasan por identidades de servidor firmadas y fijadas, permisos acotados, consentimiento explicito por llamada y aislamiento de los procesos del servidor MCP.
¿Cómo defenderse de Ataques a MCP?
Las defensas contra Ataques a MCP combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Ataques a MCP?
Nombres alternativos comunes: Ataque al Model Context Protocol, Inyeccion en herramientas MCP.
● Términos relacionados
- ai-security№ 866
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 528
Inyección indirecta de prompts
Variante de inyección de prompts en la que las instrucciones maliciosas se ocultan en contenido de terceros (páginas, documentos, correos) que el LLM consume posteriormente mediante recuperación, navegación o herramientas.
- ai-security№ 619
Fuga del System Prompt de un LLM
Ataque que extrae el prompt o las instrucciones ocultas del sistema de una aplicacion de LLM desplegada, exponiendo logica, secretos y herramientas.