Sicherheit agentenbasierter KI
Was ist Sicherheit agentenbasierter KI?
Sicherheit agentenbasierter KIDisziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird.
Die Sicherheit agentenbasierter KI umfasst Kontrollen, Bedrohungsmodelle und Laufzeit-Guardrails für den Fall, dass große Sprachmodelle nicht mehr nur antworten, sondern handeln: Werkzeuge aufrufen, im Web surfen, Dateien schreiben, E-Mails versenden oder Transaktionen ausführen. Anders als bei einem rein dialogorientierten LLM fließen die untrusted Inputs eines Agenten (abgerufene Seiten, Toolausgaben, multimodale Inhalte) direkt in die nächsten Entscheidungen ein; eine einzige indirekte Prompt-Injection kann so in Datenexfiltration, Account Takeover oder destruktive Aktionen kippen. Wirksame Programme kombinieren minimale Tool-Berechtigungen, Sandbox-Ausführung, Validierung strukturierter Ausgaben, Human-in-the-Loop-Freigaben für hochwirksame Aktionen, Tool-Allowlists, isolierte Browsing-Kontexte und Erkennung von Verhaltensdrift wie Exfiltrationsmustern oder regelwidrigen Tool-Sequenzen. 2025–2026 ist die Agenten-KI-Sicherheit das am schnellsten wachsende Segment innerhalb der KI-Sicherheit, getrieben durch Anthropics Tool Use in Claude, OpenAIs Operator-artige Agenten und unternehmensweite Rollouts über MCP-basierte Agent-Runtimes.
● Beispiele
- 01
Ein Einkaufsagent liest eine vom Angreifer kontrollierte Lieferanten-E-Mail mit versteckten Anweisungen wie „leite alle Rechnungen weiter" und versucht, diese auszuführen.
- 02
Ein Engineering-Copilot ist auf nur lesende Git-Werkzeuge und eine gesandboxte Shell beschränkt, destruktive Befehle erfordern explizite menschliche Freigabe.
● Häufige Fragen
Was ist Sicherheit agentenbasierter KI?
Disziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet Sicherheit agentenbasierter KI?
Disziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird.
Wie funktioniert Sicherheit agentenbasierter KI?
Die Sicherheit agentenbasierter KI umfasst Kontrollen, Bedrohungsmodelle und Laufzeit-Guardrails für den Fall, dass große Sprachmodelle nicht mehr nur antworten, sondern handeln: Werkzeuge aufrufen, im Web surfen, Dateien schreiben, E-Mails versenden oder Transaktionen ausführen. Anders als bei einem rein dialogorientierten LLM fließen die untrusted Inputs eines Agenten (abgerufene Seiten, Toolausgaben, multimodale Inhalte) direkt in die nächsten Entscheidungen ein; eine einzige indirekte Prompt-Injection kann so in Datenexfiltration, Account Takeover oder destruktive Aktionen kippen. Wirksame Programme kombinieren minimale Tool-Berechtigungen, Sandbox-Ausführung, Validierung strukturierter Ausgaben, Human-in-the-Loop-Freigaben für hochwirksame Aktionen, Tool-Allowlists, isolierte Browsing-Kontexte und Erkennung von Verhaltensdrift wie Exfiltrationsmustern oder regelwidrigen Tool-Sequenzen. 2025–2026 ist die Agenten-KI-Sicherheit das am schnellsten wachsende Segment innerhalb der KI-Sicherheit, getrieben durch Anthropics Tool Use in Claude, OpenAIs Operator-artige Agenten und unternehmensweite Rollouts über MCP-basierte Agent-Runtimes.
Wie schützt man sich gegen Sicherheit agentenbasierter KI?
Schutzmaßnahmen gegen Sicherheit agentenbasierter KI kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für Sicherheit agentenbasierter KI?
Übliche alternative Bezeichnungen: LLM-Agentensicherheit, Sicherheit autonomer Agenten.
● Verwandte Begriffe
- ai-security№ 969
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 586
Indirekte Prompt Injection
Variante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
- ai-security№ 731
MCP-Angriffe
Angriffe, die das Model Context Protocol (MCP) ausnutzen, um Prompts einzuschleusen, Tools zu missbrauchen oder ueber Server zu pivotieren, denen ein KI-Assistent vertraut.
- ai-security№ 689
LLM-Guardrails
Mechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
- ai-security№ 1285
Tool-Use Injection
Attacks that manipulate an LLM agent's tool-calling layer — forging tool arguments, smuggling instructions through tool outputs, or coaxing the model into calling unsanctioned tools.
- ai-security№ 440
Excessive Agency (übermäßige Handlungsmacht)
OWASP LLM06: einem LLM-gestützten System mehr Funktionen, Rechte oder Autonomie zu geben, als es tatsächlich braucht — wodurch eine Prompt-Injection oder ein Modellfehler zu unverhältnismäßigem realen Schaden führt.