Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 027

Sicherheit agentenbasierter KI

Was ist Sicherheit agentenbasierter KI?

Sicherheit agentenbasierter KIDisziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird.


Die Sicherheit agentenbasierter KI umfasst Kontrollen, Bedrohungsmodelle und Laufzeit-Guardrails für den Fall, dass große Sprachmodelle nicht mehr nur antworten, sondern handeln: Werkzeuge aufrufen, im Web surfen, Dateien schreiben, E-Mails versenden oder Transaktionen ausführen. Anders als bei einem rein dialogorientierten LLM fließen die untrusted Inputs eines Agenten (abgerufene Seiten, Toolausgaben, multimodale Inhalte) direkt in die nächsten Entscheidungen ein; eine einzige indirekte Prompt-Injection kann so in Datenexfiltration, Account Takeover oder destruktive Aktionen kippen. Wirksame Programme kombinieren minimale Tool-Berechtigungen, Sandbox-Ausführung, Validierung strukturierter Ausgaben, Human-in-the-Loop-Freigaben für hochwirksame Aktionen, Tool-Allowlists, isolierte Browsing-Kontexte und Erkennung von Verhaltensdrift wie Exfiltrationsmustern oder regelwidrigen Tool-Sequenzen. 2025–2026 ist die Agenten-KI-Sicherheit das am schnellsten wachsende Segment innerhalb der KI-Sicherheit, getrieben durch Anthropics Tool Use in Claude, OpenAIs Operator-artige Agenten und unternehmensweite Rollouts über MCP-basierte Agent-Runtimes.

Beispiele

  1. 01

    Ein Einkaufsagent liest eine vom Angreifer kontrollierte Lieferanten-E-Mail mit versteckten Anweisungen wie „leite alle Rechnungen weiter" und versucht, diese auszuführen.

  2. 02

    Ein Engineering-Copilot ist auf nur lesende Git-Werkzeuge und eine gesandboxte Shell beschränkt, destruktive Befehle erfordern explizite menschliche Freigabe.

Häufige Fragen

Was ist Sicherheit agentenbasierter KI?

Disziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet Sicherheit agentenbasierter KI?

Disziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird.

Wie funktioniert Sicherheit agentenbasierter KI?

Die Sicherheit agentenbasierter KI umfasst Kontrollen, Bedrohungsmodelle und Laufzeit-Guardrails für den Fall, dass große Sprachmodelle nicht mehr nur antworten, sondern handeln: Werkzeuge aufrufen, im Web surfen, Dateien schreiben, E-Mails versenden oder Transaktionen ausführen. Anders als bei einem rein dialogorientierten LLM fließen die untrusted Inputs eines Agenten (abgerufene Seiten, Toolausgaben, multimodale Inhalte) direkt in die nächsten Entscheidungen ein; eine einzige indirekte Prompt-Injection kann so in Datenexfiltration, Account Takeover oder destruktive Aktionen kippen. Wirksame Programme kombinieren minimale Tool-Berechtigungen, Sandbox-Ausführung, Validierung strukturierter Ausgaben, Human-in-the-Loop-Freigaben für hochwirksame Aktionen, Tool-Allowlists, isolierte Browsing-Kontexte und Erkennung von Verhaltensdrift wie Exfiltrationsmustern oder regelwidrigen Tool-Sequenzen. 2025–2026 ist die Agenten-KI-Sicherheit das am schnellsten wachsende Segment innerhalb der KI-Sicherheit, getrieben durch Anthropics Tool Use in Claude, OpenAIs Operator-artige Agenten und unternehmensweite Rollouts über MCP-basierte Agent-Runtimes.

Wie schützt man sich gegen Sicherheit agentenbasierter KI?

Schutzmaßnahmen gegen Sicherheit agentenbasierter KI kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für Sicherheit agentenbasierter KI?

Übliche alternative Bezeichnungen: LLM-Agentensicherheit, Sicherheit autonomer Agenten.

Verwandte Begriffe

Siehe auch