Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 032

KI-Red-Team

Was ist KI-Red-Team?

KI-Red-TeamSpezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.


KI-Red-Teaming erweitert klassisches Red-Teaming um KI-spezifische Fehlermodi: Prompt Injection, Jailbreaks, Erzeugung schädlicher Inhalte, halluzinierte Autorität, Modelldiebstahl, Datenabfluss über Tools, agentischer Missbrauch und neuartige Dual-Use-Risiken. Es kombiniert adversariale ML-Expertise mit Policy-, soziotechnischen und Offensive-Security-Fähigkeiten. Microsoft, Anthropic, OpenAI, Google DeepMind und das NIST (über das AI Safety Institute und das AI-600-1-Profil) betreiben oder empfehlen strukturierte Programme, die manuelle Tests, automatisierte Angriffssuiten und Crowdsourced-Bug-Bounties verbinden. Ergebnisse fließen in Alignment, Evaluations-Harnesses, Guardrails, Governance und Incident-Response-Playbooks ein. Der EU AI Act fordert KI-Red-Teaming explizit für Hochrisiko- und Allzweck-KI-Modelle.

Beispiele

  1. 01

    Ein Pre-Launch-Red-Team prüft einen Chatbot auf Jailbreaks, Datenlecks und schädliche Ausgaben.

  2. 02

    Eine staatlich getragene Übung testet, ob ein Open-Weights-Modell zu Anweisungen für Biowaffen verleitet werden kann.

Häufige Fragen

Was ist KI-Red-Team?

Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet KI-Red-Team?

Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.

Wie funktioniert KI-Red-Team?

KI-Red-Teaming erweitert klassisches Red-Teaming um KI-spezifische Fehlermodi: Prompt Injection, Jailbreaks, Erzeugung schädlicher Inhalte, halluzinierte Autorität, Modelldiebstahl, Datenabfluss über Tools, agentischer Missbrauch und neuartige Dual-Use-Risiken. Es kombiniert adversariale ML-Expertise mit Policy-, soziotechnischen und Offensive-Security-Fähigkeiten. Microsoft, Anthropic, OpenAI, Google DeepMind und das NIST (über das AI Safety Institute und das AI-600-1-Profil) betreiben oder empfehlen strukturierte Programme, die manuelle Tests, automatisierte Angriffssuiten und Crowdsourced-Bug-Bounties verbinden. Ergebnisse fließen in Alignment, Evaluations-Harnesses, Guardrails, Governance und Incident-Response-Playbooks ein. Der EU AI Act fordert KI-Red-Teaming explizit für Hochrisiko- und Allzweck-KI-Modelle.

Wie schützt man sich gegen KI-Red-Team?

Schutzmaßnahmen gegen KI-Red-Team kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für KI-Red-Team?

Übliche alternative Bezeichnungen: KI-Red-Teaming, GenAI-Red-Team.

Verwandte Begriffe

Siehe auch