● 47 entries

KI- und ML-Sicherheit

Adaptiver AngriffAngriff auf ein ML-System, der gezielt entworfen ist, eine bekannte Verteidigung zu umgehen oder zu brechen, statt eine generische, defense-agnostische Methode zu verwenden.
Adversariales BeispielEine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
AI Bill of Materials (AIBOM)Maschinenlesbares Inventar aller Komponenten eines KI-Systems — Datensätze, Basismodelle, Fine-Tuning-Daten, Bibliotheken, Prompts und Evaluierungsartefakte — für Sicherheit, Compliance und Accountability.
AI-Incident-ResponseProzesse, Rollen und Playbooks, mit denen eine Organisation Vorfälle rund um KI-Systeme erkennt, eindämmt, untersucht, kommuniziert und wiederherstellt.
AI-Modellkarte (Model Card)Standardisiertes Dokument, 2018 von Margaret Mitchell und Kollegen eingefuehrt, das Verwendungszweck, Trainingsdaten, Leistung, Grenzen und ethische Aspekte eines ML-Modells beschreibt.
AI-Supply-Chain-RisikoSumme der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
Backdoor-Angriff (ML)Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
C2PACoalition for Content Provenance and Authenticity: offener Standard fuer kryptografisch signierte Metadaten, die Herkunft und Bearbeitung digitaler Medien festhalten.
Daten-PoisoningAngriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
DeepfakeSynthetisches Audio-, Bild- oder Videomaterial, das mit KI erzeugt wird und eine reale Person überzeugend etwas sagen oder tun lässt, was nie geschah.
Embedding-AngriffeAngriffsklasse auf KI-Embedding-Vektoren, die das urspruengliche Input oder seine Semantik wiederherstellen, manipulieren oder missbrauchen — etwa Embedding Inversion und Similarity-Poisoning.
Erkennung KI-generierter InhalteWerkzeuge und Techniken, die abschätzen, ob ein Text, Bild, Audio oder Video von einem KI-Modell statt von einem Menschen erzeugt wurde.
Evasion-Angriff (ML)Angriff zur Inferenzzeit, bei dem ein Angreifer Eingaben so gestaltet, dass die beabsichtigte Entscheidung eines bereitgestellten ML-Modells — etwa Malware-Klassifikator oder Inhaltsfilter — umgangen wird.
Excessive Agency (übermäßige Handlungsmacht)OWASP LLM06: einem LLM-gestützten System mehr Funktionen, Rechte oder Autonomie zu geben, als es tatsächlich braucht — wodurch eine Prompt-Injection oder ein Modellfehler zu unverhältnismäßigem realen Schaden führt.
Indirekte Prompt InjectionVariante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
KI-AlignmentForschungs- und Engineering-Arbeit, die sicherstellen soll, dass KI-Systeme Ziele verfolgen, Anweisungen befolgen und sich so verhalten, wie es ihre Entwickler und Nutzer beabsichtigen.
KI-generierte DesinformationDurch generative KI erzeugte oder verstaerkte falsche oder irrefuehrende Inhalte, die Publikum taeuschen, Meinungen manipulieren oder Wahlen, Maerkte und Konflikte beeinflussen sollen.
KI-generierte MalwareSchadcode, der von grossen Sprachmodellen geschrieben, mutiert oder unterstuetzt wird, wodurch die Einstiegshuerde sinkt und Varianten schneller entstehen.
KI-GovernanceRichtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
KI-HalluzinationFehlermodus, bei dem ein generatives KI-System flüssige, selbstbewusste Ausgaben erzeugt, die jedoch faktisch falsch, frei erfunden oder durch die Quellen nicht gedeckt sind.
KI-JailbreakTechnik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
KI-Red-TeamSpezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
KI-SafetyDisziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.
KI-WatermarkingTechniken, die ein erkennbares Signal in KI-generierte Inhalte einbetten, sodass deren Provenance, Ursprungsmodell oder Zugehörigkeit zu einem Trainingsdatensatz später verifiziert werden kann.
LLM-FirewallSicherheitskontrolle, die zwischen Nutzern und einem Large Language Model sitzt und Prompts, Retrieval-Kontext und Ausgaben in Echtzeit inspiziert, um regelwidrigen Traffic zu blockieren oder umzuschreiben.
LLM-GuardrailsMechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
LLM-System-Prompt-LeakAngriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
LLMjackingAngriff, bei dem Angreifer gestohlene Cloud-Anmeldedaten nutzen, um gehostete Large-Language-Model-Dienste zu missbrauchen, dem Opfer hohe Inferenzkosten aufzubürden oder den Zugang weiterzuverkaufen.
MCP-AngriffeAngriffe, die das Model Context Protocol (MCP) ausnutzen, um Prompts einzuschleusen, Tools zu missbrauchen oder ueber Server zu pivotieren, denen ein KI-Assistent vertraut.
Membership-Inference-AngriffPrivacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
MLSecOpsDisziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
Model Context Protocol (MCP)Offenes Protokoll, das Ende 2024 von Anthropic vorgestellt wurde und standardisiert, wie LLM-Clients über Server an externe Werkzeuge, Datenquellen und Prompts angebunden werden — wodurch MCP-Server zur zentralen Sicherheitsgrenze agentenbasierter KI werden.
Modell-ExtraktionAngriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
Modell-InversionPrivacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
Nightshade-AngriffDaten-Poisoning-Technik des Glaze-Teams der University of Chicago, die unmerkliche Störungen in Bilder einbringt, sodass Text-zu-Bild-Modelle, die damit trainiert werden, stark verzerrte Konzepte lernen.
OWASP LLM Top 10Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
Prompt InjectionAngriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
RAGRetrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.
RAG-SecurityDisziplin zur Absicherung von Retrieval-Augmented-Generation-Pipelines, sodass die Dokumente, Vector Stores und Retrieval-Schritte, die ein LLM speisen, nicht vergiftet, missbraucht oder zur Datenexfiltration genutzt werden können.
Shadow AINutzung von KI-Tools, -Modellen oder -Diensten durch Mitarbeitende ohne Wissen oder Freigabe der Security-, Privacy- oder Governance-Funktionen der Organisation.
Sicherheit agentenbasierter KIDisziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird.
Sicherheit von Vektor-DatenbankenKontrollen, die Vektor-Datenbanken in KI-Systemen vor Datenlecks, Poisoning, Tenant-Vermischung sowie Betriebs- und Supply-Chain-Kompromittierung schuetzen.
Synthetische MedienJegliche Audio-, Bild-, Video- oder Textinhalte, die nicht aus der physischen Welt aufgenommen, sondern von generativer KI erzeugt oder wesentlich verändert wurden.
Token SmugglingKlasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.
Uebertragbarer Adversarialer AngriffAngriff, bei dem gegen ein ML-Modell erzeugte adversarielle Beispiele auch andere, unbekannte Modelle taeuschen und so Black-Box-Angriffe ohne Zugriff auf das Ziel ermoeglichen.
Video-Deepfake-AngriffAngriff, der KI-generiertes Synthese-Video einer realen Person - oft in einer Live-Videokonferenz - nutzt, um betruegerische Transaktionen zu autorisieren oder Desinformation zu verbreiten.
Voice-Cloning-AngriffAngriff, bei dem KI-erzeugte Sprache eine reale Person imitiert, um Stimmauthentifizierung zu umgehen oder Opfer zu Zahlungen oder Handlungen zu draengen.