● 47 entries
KI- und ML-Sicherheit
- Adaptiver AngriffAngriff auf ein ML-System, der gezielt entworfen ist, eine bekannte Verteidigung zu umgehen oder zu brechen, statt eine generische, defense-agnostische Methode zu verwenden.
- Adversariales BeispielEine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
- AI Bill of Materials (AIBOM)Maschinenlesbares Inventar aller Komponenten eines KI-Systems — Datensätze, Basismodelle, Fine-Tuning-Daten, Bibliotheken, Prompts und Evaluierungsartefakte — für Sicherheit, Compliance und Accountability.
- AI-Incident-ResponseProzesse, Rollen und Playbooks, mit denen eine Organisation Vorfälle rund um KI-Systeme erkennt, eindämmt, untersucht, kommuniziert und wiederherstellt.
- AI-Modellkarte (Model Card)Standardisiertes Dokument, 2018 von Margaret Mitchell und Kollegen eingefuehrt, das Verwendungszweck, Trainingsdaten, Leistung, Grenzen und ethische Aspekte eines ML-Modells beschreibt.
- AI-Supply-Chain-RisikoSumme der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
- Backdoor-Angriff (ML)Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
- C2PACoalition for Content Provenance and Authenticity: offener Standard fuer kryptografisch signierte Metadaten, die Herkunft und Bearbeitung digitaler Medien festhalten.
- Daten-PoisoningAngriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
- DeepfakeSynthetisches Audio-, Bild- oder Videomaterial, das mit KI erzeugt wird und eine reale Person überzeugend etwas sagen oder tun lässt, was nie geschah.
- Embedding-AngriffeAngriffsklasse auf KI-Embedding-Vektoren, die das urspruengliche Input oder seine Semantik wiederherstellen, manipulieren oder missbrauchen — etwa Embedding Inversion und Similarity-Poisoning.
- Erkennung KI-generierter InhalteWerkzeuge und Techniken, die abschätzen, ob ein Text, Bild, Audio oder Video von einem KI-Modell statt von einem Menschen erzeugt wurde.
- Evasion-Angriff (ML)Angriff zur Inferenzzeit, bei dem ein Angreifer Eingaben so gestaltet, dass die beabsichtigte Entscheidung eines bereitgestellten ML-Modells — etwa Malware-Klassifikator oder Inhaltsfilter — umgangen wird.
- Excessive Agency (übermäßige Handlungsmacht)OWASP LLM06: einem LLM-gestützten System mehr Funktionen, Rechte oder Autonomie zu geben, als es tatsächlich braucht — wodurch eine Prompt-Injection oder ein Modellfehler zu unverhältnismäßigem realen Schaden führt.
- Indirekte Prompt InjectionVariante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
- KI-AlignmentForschungs- und Engineering-Arbeit, die sicherstellen soll, dass KI-Systeme Ziele verfolgen, Anweisungen befolgen und sich so verhalten, wie es ihre Entwickler und Nutzer beabsichtigen.
- KI-generierte DesinformationDurch generative KI erzeugte oder verstaerkte falsche oder irrefuehrende Inhalte, die Publikum taeuschen, Meinungen manipulieren oder Wahlen, Maerkte und Konflikte beeinflussen sollen.
- KI-generierte MalwareSchadcode, der von grossen Sprachmodellen geschrieben, mutiert oder unterstuetzt wird, wodurch die Einstiegshuerde sinkt und Varianten schneller entstehen.
- KI-GovernanceRichtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
- KI-HalluzinationFehlermodus, bei dem ein generatives KI-System flüssige, selbstbewusste Ausgaben erzeugt, die jedoch faktisch falsch, frei erfunden oder durch die Quellen nicht gedeckt sind.
- KI-JailbreakTechnik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
- KI-Red-TeamSpezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
- KI-SafetyDisziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.
- KI-WatermarkingTechniken, die ein erkennbares Signal in KI-generierte Inhalte einbetten, sodass deren Provenance, Ursprungsmodell oder Zugehörigkeit zu einem Trainingsdatensatz später verifiziert werden kann.
- LLM-FirewallSicherheitskontrolle, die zwischen Nutzern und einem Large Language Model sitzt und Prompts, Retrieval-Kontext und Ausgaben in Echtzeit inspiziert, um regelwidrigen Traffic zu blockieren oder umzuschreiben.
- LLM-GuardrailsMechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
- LLM-System-Prompt-LeakAngriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
- LLMjackingAngriff, bei dem Angreifer gestohlene Cloud-Anmeldedaten nutzen, um gehostete Large-Language-Model-Dienste zu missbrauchen, dem Opfer hohe Inferenzkosten aufzubürden oder den Zugang weiterzuverkaufen.
- MCP-AngriffeAngriffe, die das Model Context Protocol (MCP) ausnutzen, um Prompts einzuschleusen, Tools zu missbrauchen oder ueber Server zu pivotieren, denen ein KI-Assistent vertraut.
- Membership-Inference-AngriffPrivacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
- MLSecOpsDisziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- Model Context Protocol (MCP)Offenes Protokoll, das Ende 2024 von Anthropic vorgestellt wurde und standardisiert, wie LLM-Clients über Server an externe Werkzeuge, Datenquellen und Prompts angebunden werden — wodurch MCP-Server zur zentralen Sicherheitsgrenze agentenbasierter KI werden.
- Modell-ExtraktionAngriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
- Modell-InversionPrivacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
- Nightshade-AngriffDaten-Poisoning-Technik des Glaze-Teams der University of Chicago, die unmerkliche Störungen in Bilder einbringt, sodass Text-zu-Bild-Modelle, die damit trainiert werden, stark verzerrte Konzepte lernen.
- OWASP LLM Top 10Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- Prompt InjectionAngriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- RAGRetrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.
- RAG-SecurityDisziplin zur Absicherung von Retrieval-Augmented-Generation-Pipelines, sodass die Dokumente, Vector Stores und Retrieval-Schritte, die ein LLM speisen, nicht vergiftet, missbraucht oder zur Datenexfiltration genutzt werden können.
- Shadow AINutzung von KI-Tools, -Modellen oder -Diensten durch Mitarbeitende ohne Wissen oder Freigabe der Security-, Privacy- oder Governance-Funktionen der Organisation.
- Sicherheit agentenbasierter KIDisziplin zur Absicherung autonomer LLM-Agenten, die planen, Werkzeuge aufrufen und in realen Systemen handeln — wo Prompt-Injection zu Remote Code Execution und exzessive Handlungsmacht zu echtem Schaden wird.
- Sicherheit von Vektor-DatenbankenKontrollen, die Vektor-Datenbanken in KI-Systemen vor Datenlecks, Poisoning, Tenant-Vermischung sowie Betriebs- und Supply-Chain-Kompromittierung schuetzen.
- Synthetische MedienJegliche Audio-, Bild-, Video- oder Textinhalte, die nicht aus der physischen Welt aufgenommen, sondern von generativer KI erzeugt oder wesentlich verändert wurden.
- Token SmugglingKlasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.
- Uebertragbarer Adversarialer AngriffAngriff, bei dem gegen ein ML-Modell erzeugte adversarielle Beispiele auch andere, unbekannte Modelle taeuschen und so Black-Box-Angriffe ohne Zugriff auf das Ziel ermoeglichen.
- Video-Deepfake-AngriffAngriff, der KI-generiertes Synthese-Video einer realen Person - oft in einer Live-Videokonferenz - nutzt, um betruegerische Transaktionen zu autorisieren oder Desinformation zu verbreiten.
- Voice-Cloning-AngriffAngriff, bei dem KI-erzeugte Sprache eine reale Person imitiert, um Stimmauthentifizierung zu umgehen oder Opfer zu Zahlungen oder Handlungen zu draengen.