Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 033

KI-Safety

Was ist KI-Safety?

KI-SafetyDisziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.


KI-Safety ist breiter als klassische Security: Sie adressiert Schäden auch ohne Angreifer — Unfälle, Bias, Täuschung, außer Kontrolle geratenes autonomes Verhalten, Dual-Use-Missbrauch sowie katastrophale oder existenzielle Risiken. Technisch zählen Alignment, Interpretierbarkeit, Evaluierung, robustes Training, Monitoring und Capability Elicitation dazu. Operativ kommen Responsible-Scaling-Policies, Model Cards, Deployment-Guardrails und Zugriffskontrollen hinzu. Das UK und US AI Safety Institute, das EU AI Office, das NIST (AI RMF) und die Frontier-Labs veröffentlichen Standards. KI-Safety ist von KI-Security unterscheidbar, überlappt jedoch stark: Unsichere Modelle sind oft auch unsafe, unsichere Verhaltensweisen erschweren Incident Response.

Beispiele

  1. 01

    Ein LLM-Anbieter führt eine Responsible-Scaling-Policy ein, die das Training oberhalb eines Fähigkeitsschwellenwerts pausiert.

  2. 02

    Bewertung der Fähigkeit eines agentischen Modells zur autonomen Replikation und Selbstexfiltration vor Veröffentlichung.

Häufige Fragen

Was ist KI-Safety?

Disziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.

Was bedeutet KI-Safety?

Disziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.

Wie funktioniert KI-Safety?

KI-Safety ist breiter als klassische Security: Sie adressiert Schäden auch ohne Angreifer — Unfälle, Bias, Täuschung, außer Kontrolle geratenes autonomes Verhalten, Dual-Use-Missbrauch sowie katastrophale oder existenzielle Risiken. Technisch zählen Alignment, Interpretierbarkeit, Evaluierung, robustes Training, Monitoring und Capability Elicitation dazu. Operativ kommen Responsible-Scaling-Policies, Model Cards, Deployment-Guardrails und Zugriffskontrollen hinzu. Das UK und US AI Safety Institute, das EU AI Office, das NIST (AI RMF) und die Frontier-Labs veröffentlichen Standards. KI-Safety ist von KI-Security unterscheidbar, überlappt jedoch stark: Unsichere Modelle sind oft auch unsafe, unsichere Verhaltensweisen erschweren Incident Response.

Wie schützt man sich gegen KI-Safety?

Schutzmaßnahmen gegen KI-Safety kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.

Welche anderen Bezeichnungen gibt es für KI-Safety?

Übliche alternative Bezeichnungen: Frontier-AI-Safety, Verantwortungsvolle KI.

Verwandte Begriffe

Siehe auch