Model Denial of Service
¿Qué es Model Denial of Service?
Model Denial of ServiceOWASP LLM04 — driving an LLM application into runaway resource consumption (long contexts, infinite loops, expensive tool fan-out) so it slows, becomes unavailable, or generates a ruinous cloud bill.
Model Denial of Service (LLM04 in the OWASP Top 10 for LLM Applications) covers attacks that exhaust the resources behind an LLM-powered system rather than knock down a network. Specific patterns include flooding the model with maximum-context inputs to drive up token cost; crafting recursive or self-referential prompts that trigger long generations; abusing tool-calling agents to cascade dozens of expensive sub-calls; submitting inputs that defeat caching; and exploiting retrieval pipelines to pull massive documents into every request. The blast radius is operational (the chatbot becomes unusable) and financial (a single attacker can burn five- or six-figure inference bills in hours). Mitigations include strict per-user input/output token caps, max-step limits on agent loops, semantic and exact-match caching, rate-limit on tool fan-out, async queueing with budget guards, and observability dashboards keyed to spend per tenant.
● Ejemplos
- 01
An attacker scripts thousands of requests with maximum-allowed context windows, generating six-figure cloud bills before quotas trip.
- 02
An agent prompt-injection convinces the model to enter a tool-use loop that calls the expensive document-summarization API hundreds of times per session.
● Preguntas frecuentes
¿Qué es Model Denial of Service?
OWASP LLM04 — driving an LLM application into runaway resource consumption (long contexts, infinite loops, expensive tool fan-out) so it slows, becomes unavailable, or generates a ruinous cloud bill. Pertenece a la categoría de Seguridad de IA y ML en ciberseguridad.
¿Qué significa Model Denial of Service?
OWASP LLM04 — driving an LLM application into runaway resource consumption (long contexts, infinite loops, expensive tool fan-out) so it slows, becomes unavailable, or generates a ruinous cloud bill.
¿Cómo funciona Model Denial of Service?
Model Denial of Service (LLM04 in the OWASP Top 10 for LLM Applications) covers attacks that exhaust the resources behind an LLM-powered system rather than knock down a network. Specific patterns include flooding the model with maximum-context inputs to drive up token cost; crafting recursive or self-referential prompts that trigger long generations; abusing tool-calling agents to cascade dozens of expensive sub-calls; submitting inputs that defeat caching; and exploiting retrieval pipelines to pull massive documents into every request. The blast radius is operational (the chatbot becomes unusable) and financial (a single attacker can burn five- or six-figure inference bills in hours). Mitigations include strict per-user input/output token caps, max-step limits on agent loops, semantic and exact-match caching, rate-limit on tool fan-out, async queueing with budget guards, and observability dashboards keyed to spend per tenant.
¿Cómo defenderse de Model Denial of Service?
Las defensas contra Model Denial of Service combinan habitualmente controles técnicos y prácticas operativas, como se detalla en la definición.
¿Cuáles son otros nombres para Model Denial of Service?
Nombres alternativos comunes: LLM04, LLM DoS, Token-burn attack.
● Términos relacionados
- ai-security№ 870
OWASP LLM Top 10
Lista mantenida por OWASP con los diez riesgos de seguridad más críticos para aplicaciones construidas sobre grandes modelos de lenguaje.
- attacks№ 333
Ataque de denegación de servicio (DoS)
Ataque que agota el ancho de banda, la capacidad de cómputo, la memoria o los recursos aplicativos de un sistema para impedir el acceso de usuarios legítimos.
- network-security№ 1008
Limitacion de Tasa
La limitacion de tasa restringe el numero de peticiones que un identificador (IP, usuario, API key o token) puede realizar en una ventana de tiempo, protegiendo APIs y apps frente al abuso, scraping y fuerza bruta.
- ai-security№ 027
Seguridad de IA agéntica
Disciplina que protege a los agentes LLM autónomos que planifican, invocan herramientas y actúan sobre sistemas reales, donde la inyección de prompts se convierte en ejecución remota y la agencia excesiva en daño efectivo.
- ai-security№ 969
Inyección de prompts
Ataque que anula las instrucciones originales de un LLM al introducir texto adversarial en el prompt, haciendo que el modelo ignore sus salvaguardas o ejecute acciones del atacante.
- ai-security№ 689
Guardrails de LLM
Mecanismos que restringen lo que una aplicación basada en LLM puede recibir o emitir, aplicando reglas de safety, seguridad y negocio alrededor del modelo subyacente.