KI-Safety
Was ist KI-Safety?
KI-SafetyDisziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.
KI-Safety ist breiter als klassische Security: Sie adressiert Schäden auch ohne Angreifer — Unfälle, Bias, Täuschung, außer Kontrolle geratenes autonomes Verhalten, Dual-Use-Missbrauch sowie katastrophale oder existenzielle Risiken. Technisch zählen Alignment, Interpretierbarkeit, Evaluierung, robustes Training, Monitoring und Capability Elicitation dazu. Operativ kommen Responsible-Scaling-Policies, Model Cards, Deployment-Guardrails und Zugriffskontrollen hinzu. Das UK und US AI Safety Institute, das EU AI Office, das NIST (AI RMF) und die Frontier-Labs veröffentlichen Standards. KI-Safety ist von KI-Security unterscheidbar, überlappt jedoch stark: Unsichere Modelle sind oft auch unsafe, unsichere Verhaltensweisen erschweren Incident Response.
● Beispiele
- 01
Ein LLM-Anbieter führt eine Responsible-Scaling-Policy ein, die das Training oberhalb eines Fähigkeitsschwellenwerts pausiert.
- 02
Bewertung der Fähigkeit eines agentischen Modells zur autonomen Replikation und Selbstexfiltration vor Veröffentlichung.
● Häufige Fragen
Was ist KI-Safety?
Disziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst. Es gehört zur Kategorie KI- und ML-Sicherheit der Cybersicherheit.
Was bedeutet KI-Safety?
Disziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.
Wie funktioniert KI-Safety?
KI-Safety ist breiter als klassische Security: Sie adressiert Schäden auch ohne Angreifer — Unfälle, Bias, Täuschung, außer Kontrolle geratenes autonomes Verhalten, Dual-Use-Missbrauch sowie katastrophale oder existenzielle Risiken. Technisch zählen Alignment, Interpretierbarkeit, Evaluierung, robustes Training, Monitoring und Capability Elicitation dazu. Operativ kommen Responsible-Scaling-Policies, Model Cards, Deployment-Guardrails und Zugriffskontrollen hinzu. Das UK und US AI Safety Institute, das EU AI Office, das NIST (AI RMF) und die Frontier-Labs veröffentlichen Standards. KI-Safety ist von KI-Security unterscheidbar, überlappt jedoch stark: Unsichere Modelle sind oft auch unsafe, unsichere Verhaltensweisen erschweren Incident Response.
Wie schützt man sich gegen KI-Safety?
Schutzmaßnahmen gegen KI-Safety kombinieren typischerweise technische Kontrollen und operative Praktiken, wie in der Definition oben beschrieben.
Welche anderen Bezeichnungen gibt es für KI-Safety?
Übliche alternative Bezeichnungen: Frontier-AI-Safety, Verantwortungsvolle KI.
● Verwandte Begriffe
- ai-security№ 024
KI-Alignment
Forschungs- und Engineering-Arbeit, die sicherstellen soll, dass KI-Systeme Ziele verfolgen, Anweisungen befolgen und sich so verhalten, wie es ihre Entwickler und Nutzer beabsichtigen.
- ai-security№ 027
KI-Governance
Richtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
- ai-security№ 032
KI-Red-Team
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 029
AI-Incident-Response
Prozesse, Rollen und Playbooks, mit denen eine Organisation Vorfälle rund um KI-Systeme erkennt, eindämmt, untersucht, kommuniziert und wiederherstellt.
- ai-security№ 028
KI-Halluzination
Fehlermodus, bei dem ein generatives KI-System flüssige, selbstbewusste Ausgaben erzeugt, die jedoch faktisch falsch, frei erfunden oder durch die Quellen nicht gedeckt sind.
● Siehe auch
- № 1123Synthetische Medien
- № 035KI-Watermarking
- № 026Erkennung KI-generierter Inhalte
- № 391EU-KI-Verordnung