● Category
KI- und ML-Sicherheit
43 entries
- ai-security№ 866
Prompt Injection
Angriff, der die ursprünglichen Anweisungen eines LLM überschreibt, indem adversarieller Text in den Prompt eingeschleust wird, sodass das Modell Schutzmaßnahmen ignoriert oder vom Angreifer gewünschte Aktionen ausführt.
- ai-security№ 528
Indirekte Prompt Injection
Variante der Prompt Injection, bei der bösartige Anweisungen in Drittinhalten (Webseiten, Dokumenten, E-Mails) versteckt sind, die ein LLM später über Retrieval, Browsing oder Tools aufnimmt.
- ai-security№ 030
KI-Jailbreak
Technik, die ein ausgerichtetes KI-Modell dazu bringt, seine Sicherheitsrichtlinien zu umgehen und Inhalte oder Verhaltensweisen zu erzeugen, die der Betreiber eigentlich verbieten wollte.
- ai-security№ 281
Daten-Poisoning
Angriff auf ein ML-System, bei dem Angreifer Trainingsdaten einschleusen, verändern oder umlabeln, sodass das resultierende Modell fehlerhaft arbeitet oder versteckte Backdoors enthält.
- ai-security№ 703
Modell-Extraktion
Angriff, der Parameter, Verhalten oder Trainingsdaten eines vertraulichen Machine-Learning-Modells durch systematisches Anfragen seiner öffentlichen API rekonstruiert.
- ai-security№ 704
Modell-Inversion
Privacy-Angriff, der sensible Merkmale der Trainingsdaten eines Modells — etwa Gesichter oder Text — durch Ausnutzen der Ausgaben oder Gradienten rekonstruiert.
- ai-security№ 018
Adversariales Beispiel
Eine gezielt — oft für Menschen unmerklich — gestörte Eingabe, die ein ML-Modell zu einer falschen oder vom Angreifer gewählten Vorhersage zwingt.
- ai-security№ 393
Evasion-Angriff (ML)
Angriff zur Inferenzzeit, bei dem ein Angreifer Eingaben so gestaltet, dass die beabsichtigte Entscheidung eines bereitgestellten ML-Modells — etwa Malware-Klassifikator oder Inhaltsfilter — umgangen wird.
- ai-security№ 081
Backdoor-Angriff (ML)
Trainingszeit-Angriff, der ein verstecktes Verhalten in ein Modell einpflanzt: Bei sauberen Eingaben verhält es sich normal, beim Auftreten eines geheimen Triggers liefert es jedoch eine vom Angreifer gewählte Ausgabe.
- ai-security№ 666
Membership-Inference-Angriff
Privacy-Angriff, der durch Analyse des Modellverhaltens auf einem Datensatz bestimmt, ob dieser Datensatz Teil der Trainingsdaten war.
- ai-security№ 032
KI-Red-Team
Spezialteam, das Angreifer gegen KI-Systeme simuliert, um Sicherheits-, Safety- und Missbrauchsrisiken vor realen Angreifern aufzudecken.
- ai-security№ 691
MLSecOps
Disziplin, die Sicherheits- und Risikokontrollen über den gesamten ML-Lebenszyklus hinweg integriert — von der Datenerhebung über Training, Deployment und Monitoring bis zur Außerbetriebnahme.
- ai-security№ 777
OWASP LLM Top 10
Von OWASP gepflegte Liste der zehn kritischsten Sicherheitsrisiken für Anwendungen, die auf großen Sprachmodellen aufbauen.
- ai-security№ 028
KI-Halluzination
Fehlermodus, bei dem ein generatives KI-System flüssige, selbstbewusste Ausgaben erzeugt, die jedoch faktisch falsch, frei erfunden oder durch die Quellen nicht gedeckt sind.
- ai-security№ 024
KI-Alignment
Forschungs- und Engineering-Arbeit, die sicherstellen soll, dass KI-Systeme Ziele verfolgen, Anweisungen befolgen und sich so verhalten, wie es ihre Entwickler und Nutzer beabsichtigen.
- ai-security№ 033
KI-Safety
Disziplin, die unbeabsichtigte Schäden von KI-Systemen für Nutzer, Betreiber und Gesellschaft verhindern soll und technische, operative wie gesellschaftliche Aspekte umfasst.
- ai-security№ 027
KI-Governance
Richtlinien, Prozesse, Rollen und Kontrollen, mit denen Organisationen und Regulierer sicherstellen, dass KI-Systeme verantwortungsvoll und rechtmäßig entwickelt, bereitgestellt und betrieben werden.
- ai-security№ 297
Deepfake
Synthetisches Audio-, Bild- oder Videomaterial, das mit KI erzeugt wird und eine reale Person überzeugend etwas sagen oder tun lässt, was nie geschah.
- ai-security№ 1123
Synthetische Medien
Jegliche Audio-, Bild-, Video- oder Textinhalte, die nicht aus der physischen Welt aufgenommen, sondern von generativer KI erzeugt oder wesentlich verändert wurden.
- ai-security№ 035
KI-Watermarking
Techniken, die ein erkennbares Signal in KI-generierte Inhalte einbetten, sodass deren Provenance, Ursprungsmodell oder Zugehörigkeit zu einem Trainingsdatensatz später verifiziert werden kann.
- ai-security№ 1026
Shadow AI
Nutzung von KI-Tools, -Modellen oder -Diensten durch Mitarbeitende ohne Wissen oder Freigabe der Security-, Privacy- oder Governance-Funktionen der Organisation.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Maschinenlesbares Inventar aller Komponenten eines KI-Systems — Datensätze, Basismodelle, Fine-Tuning-Daten, Bibliotheken, Prompts und Evaluierungsartefakte — für Sicherheit, Compliance und Accountability.
- ai-security№ 898
RAG-Security
Disziplin zur Absicherung von Retrieval-Augmented-Generation-Pipelines, sodass die Dokumente, Vector Stores und Retrieval-Schritte, die ein LLM speisen, nicht vergiftet, missbraucht oder zur Datenexfiltration genutzt werden können.
- ai-security№ 1163
Token Smuggling
Klasse von Jailbreak-Techniken, die schädliche Anweisungen für ein LLM in Kodierungen, Sprachen oder Tokenfolgen verstecken, die der Sicherheitsfilter nicht als gefährlich erkennt.
- ai-security№ 729
Nightshade-Angriff
Daten-Poisoning-Technik des Glaze-Teams der University of Chicago, die unmerkliche Störungen in Bilder einbringt, sodass Text-zu-Bild-Modelle, die damit trainiert werden, stark verzerrte Konzepte lernen.
- ai-security№ 034
AI-Supply-Chain-Risiko
Summe der Bedrohungen aus Drittanbieter-Datensätzen, Basismodellen, Bibliotheken, Plug-ins und Infrastruktur, die Organisationen zum Bau und Betrieb von KI-Systemen kombinieren.
- ai-security№ 026
Erkennung KI-generierter Inhalte
Werkzeuge und Techniken, die abschätzen, ob ein Text, Bild, Audio oder Video von einem KI-Modell statt von einem Menschen erzeugt wurde.
- ai-security№ 029
AI-Incident-Response
Prozesse, Rollen und Playbooks, mit denen eine Organisation Vorfälle rund um KI-Systeme erkennt, eindämmt, untersucht, kommuniziert und wiederherstellt.
- ai-security№ 617
LLM-Firewall
Sicherheitskontrolle, die zwischen Nutzern und einem Large Language Model sitzt und Prompts, Retrieval-Kontext und Ausgaben in Echtzeit inspiziert, um regelwidrigen Traffic zu blockieren oder umzuschreiben.
- ai-security№ 618
LLM-Guardrails
Mechanismen, die einschränken, was eine LLM-basierte Anwendung empfangen oder ausgeben darf, und damit Safety-, Sicherheits- und Geschäftsregeln rund um das zugrunde liegende Modell durchsetzen.
- ai-security№ 657
MCP-Angriffe
Angriffe, die das Model Context Protocol (MCP) ausnutzen, um Prompts einzuschleusen, Tools zu missbrauchen oder ueber Server zu pivotieren, denen ein KI-Assistent vertraut.
- ai-security№ 1208
Voice-Cloning-Angriff
Angriff, bei dem KI-erzeugte Sprache eine reale Person imitiert, um Stimmauthentifizierung zu umgehen oder Opfer zu Zahlungen oder Handlungen zu draengen.
- ai-security№ 1203
Video-Deepfake-Angriff
Angriff, der KI-generiertes Synthese-Video einer realen Person - oft in einer Live-Videokonferenz - nutzt, um betruegerische Transaktionen zu autorisieren oder Desinformation zu verbreiten.
- ai-security№ 036
KI-generierte Desinformation
Durch generative KI erzeugte oder verstaerkte falsche oder irrefuehrende Inhalte, die Publikum taeuschen, Meinungen manipulieren oder Wahlen, Maerkte und Konflikte beeinflussen sollen.
- ai-security№ 037
KI-generierte Malware
Schadcode, der von grossen Sprachmodellen geschrieben, mutiert oder unterstuetzt wird, wodurch die Einstiegshuerde sinkt und Varianten schneller entstehen.
- ai-security№ 1168
Uebertragbarer Adversarialer Angriff
Angriff, bei dem gegen ein ML-Modell erzeugte adversarielle Beispiele auch andere, unbekannte Modelle taeuschen und so Black-Box-Angriffe ohne Zugriff auf das Ziel ermoeglichen.
- ai-security№ 014
Adaptiver Angriff
Angriff auf ein ML-System, der gezielt entworfen ist, eine bekannte Verteidigung zu umgehen oder zu brechen, statt eine generische, defense-agnostische Methode zu verwenden.
- ai-security№ 619
LLM-System-Prompt-Leak
Angriff, der den verborgenen System-Prompt oder die Anweisungen einer deployten LLM-Anwendung extrahiert und damit Logik, Geheimnisse und Tools offenlegt.
- ai-security№ 137
C2PA
Coalition for Content Provenance and Authenticity: offener Standard fuer kryptografisch signierte Metadaten, die Herkunft und Bearbeitung digitaler Medien festhalten.
- ai-security№ 897
RAG
Retrieval-Augmented Generation: LLM-Muster, das zur Anfragezeit relevante Dokumente aus einem Wissensspeicher abruft und in den Prompt einfuegt, um Antworten zu untermauern.
- ai-security№ 376
Embedding-Angriffe
Angriffsklasse auf KI-Embedding-Vektoren, die das urspruengliche Input oder seine Semantik wiederherstellen, manipulieren oder missbrauchen — etwa Embedding Inversion und Similarity-Poisoning.
- ai-security№ 1198
Sicherheit von Vektor-Datenbanken
Kontrollen, die Vektor-Datenbanken in KI-Systemen vor Datenlecks, Poisoning, Tenant-Vermischung sowie Betriebs- und Supply-Chain-Kompromittierung schuetzen.
- ai-security№ 031
AI-Modellkarte (Model Card)
Standardisiertes Dokument, 2018 von Margaret Mitchell und Kollegen eingefuehrt, das Verwendungszweck, Trainingsdaten, Leistung, Grenzen und ethische Aspekte eines ML-Modells beschreibt.