KI-Red-Team
Was ist KI-Red-Team?
KI-Red-TeamSpezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
KI-Red-Teaming erweitert klassisches Red-Teaming um KI-spezifische Fehlermodi: Prompt Injection, Jailbreaks, Erzeugung schädlicher Inhalte, halluzinierte Autorität, Modelldiebstahl, Datenabfluss über Tools, agentischer Missbrauch und neuartige Dual-Use-Risiken. Es kombiniert adversariale ML-Expertise mit Policy-, soziotechnischen und Offensive-Security-Fähigkeiten. Microsoft, Anthropic, OpenAI, Google DeepMind und das NIST (über das AI Safety Institute und das AI-600-1-Profil) betreiben oder empfehlen strukturierte Programme, die manuelle Tests, automatisierte Angriffssuiten und Crowdsourced-Bug-Bounties verbinden. Ergebnisse fließen in Alignment, Evaluations-Harnesses, Guardrails, Governance und Incident-Response-Playbooks ein. Der EU AI Act fordert KI-Red-Teaming explizit für Hochrisiko- und Allzweck-KI-Modelle.
● Beispiele
- 01
Ein Pre-Launch-Red-Team prüft einen Chatbot auf Jailbreaks, Datenlecks und schädliche Ausgaben.
- 02
Eine staatlich getragene Übung testet, ob ein Open-Weights-Modell zu Anweisungen für Biowaffen verleitet werden kann.
● Häufige Fragen
Was ist KI-Red-Team?
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet KI-Red-Team?
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
Wie funktioniert KI-Red-Team?
KI-Red-Teaming erweitert klassisches Red-Teaming um KI-spezifische Fehlermodi: Prompt Injection, Jailbreaks, Erzeugung schädlicher Inhalte, halluzinierte Autorität, Modelldiebstahl, Datenabfluss über Tools, agentischer Missbrauch und neuartige Dual-Use-Risiken. Es kombiniert adversariale ML-Expertise mit Policy-, soziotechnischen und Offensive-Security-Fähigkeiten. Microsoft, Anthropic, OpenAI, Google DeepMind und das NIST (über das AI Safety Institute und das AI-600-1-Profil) betreiben oder empfehlen strukturierte Programme, die manuelle Tests, automatisierte Angriffssuiten und Crowdsourced-Bug-Bounties verbinden. Ergebnisse fließen in Alignment, Evaluations-Harnesses, Guardrails, Governance und Incident-Response-Playbooks ein. Der EU AI Act fordert KI-Red-Teaming explizit für Hochrisiko- und Allzweck-KI-Modelle.
Wie schützt man sich gegen KI-Red-Team?
Schutzmaßnahmen gegen KI-Red-Team kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für KI-Red-Team?
Übliche alternative Bezeichnungen: KI-Red-Teaming, GenAI-Red-Team.
● Verwandte Begriffe
- ai-security№ 030
KI-Jailbreak
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- ai-security№ 033
KI-Safety
Disziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.
- ai-security№ 027
KI-Governance
Richtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
● Siehe auch
- № 018Adversariales Beispiel
- № 393Evasion-Angriff (ML)
- № 024KI-Alignment
- № 1163Token Smuggling
- № 1168Uebertragbarer Adversarialer Angriff
- № 014Adaptiver Angriff
- № 619LLM-System-Prompt-Leak