Model Denial of Service
Qu'est-ce que Model Denial of Service ?
Model Denial of ServiceOWASP LLM04 — driving an LLM application into runaway resource consumption (long contexts, infinite loops, expensive tool fan-out) so it slows, becomes unavailable, or generates a ruinous cloud bill.
Model Denial of Service (LLM04 in the OWASP Top 10 for LLM Applications) covers attacks that exhaust the resources behind an LLM-powered system rather than knock down a network. Specific patterns include flooding the model with maximum-context inputs to drive up token cost; crafting recursive or self-referential prompts that trigger long generations; abusing tool-calling agents to cascade dozens of expensive sub-calls; submitting inputs that defeat caching; and exploiting retrieval pipelines to pull massive documents into every request. The blast radius is operational (the chatbot becomes unusable) and financial (a single attacker can burn five- or six-figure inference bills in hours). Mitigations include strict per-user input/output token caps, max-step limits on agent loops, semantic and exact-match caching, rate-limit on tool fan-out, async queueing with budget guards, and observability dashboards keyed to spend per tenant.
● Exemples
- 01
An attacker scripts thousands of requests with maximum-allowed context windows, generating six-figure cloud bills before quotas trip.
- 02
An agent prompt-injection convinces the model to enter a tool-use loop that calls the expensive document-summarization API hundreds of times per session.
● Questions fréquentes
Qu'est-ce que Model Denial of Service ?
OWASP LLM04 — driving an LLM application into runaway resource consumption (long contexts, infinite loops, expensive tool fan-out) so it slows, becomes unavailable, or generates a ruinous cloud bill. Cette notion relève de la catégorie Sécurité de l'IA et du ML en cybersécurité.
Que signifie Model Denial of Service ?
OWASP LLM04 — driving an LLM application into runaway resource consumption (long contexts, infinite loops, expensive tool fan-out) so it slows, becomes unavailable, or generates a ruinous cloud bill.
Comment fonctionne Model Denial of Service ?
Model Denial of Service (LLM04 in the OWASP Top 10 for LLM Applications) covers attacks that exhaust the resources behind an LLM-powered system rather than knock down a network. Specific patterns include flooding the model with maximum-context inputs to drive up token cost; crafting recursive or self-referential prompts that trigger long generations; abusing tool-calling agents to cascade dozens of expensive sub-calls; submitting inputs that defeat caching; and exploiting retrieval pipelines to pull massive documents into every request. The blast radius is operational (the chatbot becomes unusable) and financial (a single attacker can burn five- or six-figure inference bills in hours). Mitigations include strict per-user input/output token caps, max-step limits on agent loops, semantic and exact-match caching, rate-limit on tool fan-out, async queueing with budget guards, and observability dashboards keyed to spend per tenant.
Comment se défendre contre Model Denial of Service ?
Les défenses contre Model Denial of Service combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de Model Denial of Service ?
Noms alternatifs courants : LLM04, LLM DoS, Token-burn attack.
● Termes liés
- ai-security№ 870
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- attacks№ 333
Attaque par déni de service (DoS)
Attaque qui épuise la bande passante, la puissance de calcul, la mémoire ou les ressources applicatives d'un système afin d'empêcher l'accès des utilisateurs légitimes.
- network-security№ 1008
Rate Limiting
Le rate limiting plafonne le nombre de requetes qu'un identifiant (IP, utilisateur, cle API ou token) peut emettre sur une fenetre de temps, protegeant les API et les applis contre l'abus, le scraping et le brute-force.
- ai-security№ 027
Sécurité de l'IA agentique
Discipline visant à sécuriser les agents LLM autonomes qui planifient, appellent des outils et agissent sur des systèmes réels, où l'injection de prompt devient exécution distante et l'agence excessive un véritable rayon d'impact.
- ai-security№ 969
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 689
Guardrails LLM
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.