● Category
Sécurité de l'IA et du ML
43 entries
- ai-security№ 866
Injection de prompt
Attaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
- ai-security№ 528
Injection de prompt indirecte
Variante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil.
- ai-security№ 030
Jailbreak d'IA
Technique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
- ai-security№ 281
Empoisonnement de données
Attaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
- ai-security№ 703
Extraction de modèle
Attaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.
- ai-security№ 704
Inversion de modèle
Attaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.
- ai-security№ 018
Exemple adversarial
Entrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
- ai-security№ 393
Attaque d'évasion (ML)
Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu.
- ai-security№ 081
Attaque par porte dérobée (ML)
Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.
- ai-security№ 666
Attaque par inférence d'appartenance
Attaque de confidentialité qui détermine si un enregistrement précis faisait partie du jeu d'entraînement d'un modèle de ML, en analysant le comportement du modèle sur cet enregistrement.
- ai-security№ 032
Red Team IA
Équipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.
- ai-security№ 691
MLSecOps
Discipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.
- ai-security№ 777
OWASP LLM Top 10
Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
- ai-security№ 028
Hallucination de l'IA
Mode de défaillance dans lequel un système d'IA générative produit un contenu fluide et assuré mais factuellement faux, inventé ou non étayé par ses sources.
- ai-security№ 024
Alignement de l'IA
Ensemble de recherches et d'ingénierie visant à ce que les systèmes d'IA poursuivent des buts, suivent des instructions et se comportent conformément aux intentions de leurs développeurs et utilisateurs.
- ai-security№ 033
Safety de l'IA
Discipline visant à éviter que les systèmes d'IA causent des préjudices non intentionnels aux utilisateurs, opérateurs et à la société, sur les plans technique, opérationnel et sociétal.
- ai-security№ 027
Gouvernance de l'IA
Ensemble de politiques, processus, rôles et contrôles qu'organisations et régulateurs mobilisent pour garantir un développement, un déploiement et une exploitation responsables et conformes des systèmes d'IA.
- ai-security№ 297
Deepfake
Média audio, image ou vidéo synthétique généré par IA qui représente de manière convaincante une personne réelle disant ou faisant quelque chose qui n'a jamais eu lieu.
- ai-security№ 1123
Médias synthétiques
Tout contenu audio, image, vidéo ou texte produit ou modifié de manière substantielle par une IA générative plutôt que capté directement dans le monde physique.
- ai-security№ 035
Watermarking d'IA
Techniques qui intègrent un signal détectable dans des contenus générés par IA afin de vérifier ultérieurement leur provenance, leur modèle d'origine ou leur appartenance à un jeu d'entraînement.
- ai-security№ 1026
Shadow AI
Utilisation par les employés d'outils, modèles ou services d'IA sans la connaissance ni l'approbation des fonctions sécurité, vie privée ou gouvernance de l'organisation.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Inventaire lisible par la machine de chaque composant entrant dans un système d'IA — datasets, modèles de base, données de fine-tuning, bibliothèques, prompts, artefacts d'évaluation — utilisé pour la sécurité, la conformité et la responsabilité.
- ai-security№ 898
Sécurité RAG
Discipline visant à sécuriser les pipelines de génération augmentée par récupération afin que les documents, stores vectoriels et étapes de retrieval qui alimentent un LLM ne puissent pas être empoisonnés, détournés ou utilisés pour exfiltrer des données.
- ai-security№ 1163
Token smuggling
Famille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.
- ai-security№ 729
Attaque Nightshade
Technique d'empoisonnement de données conçue par l'équipe Glaze de l'Université de Chicago, qui ajoute des perturbations imperceptibles aux images afin que les modèles text-to-image entraînés dessus apprennent des concepts profondément déformés.
- ai-security№ 034
Risque de chaîne d'approvisionnement IA
Ensemble de menaces issues des datasets, modèles de base, bibliothèques, plug-ins et infrastructures tiers que les organisations combinent pour construire et déployer des systèmes d'IA.
- ai-security№ 026
Détection de contenus générés par IA
Outils et techniques qui estiment si un texte, une image, un audio ou une vidéo a été produit par un modèle d'IA plutôt que par un humain.
- ai-security№ 029
Réponse aux incidents IA
Ensemble de processus, rôles et playbooks qu'une organisation utilise pour détecter, contenir, enquêter, communiquer et se remettre d'incidents impliquant des systèmes d'IA.
- ai-security№ 617
Firewall LLM
Contrôle de sécurité qui se place entre les utilisateurs et un grand modèle de langage pour inspecter prompts, contexte récupéré et sorties en temps réel, et bloquer ou réécrire le trafic non conforme.
- ai-security№ 618
Guardrails LLM
Mécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
- ai-security№ 657
Attaques contre MCP
Attaques exploitant le Model Context Protocol (MCP) pour injecter des prompts, abuser des outils ou pivoter via des serveurs auxquels un assistant IA fait confiance.
- ai-security№ 1208
Attaque par Clonage de Voix
Attaque utilisant une voix synthetisee par IA imitant une personne reelle pour contourner l'authentification vocale ou pousser une victime a autoriser des paiements ou des actions.
- ai-security№ 1203
Attaque par Deepfake Video
Attaque utilisant une video synthetique generee par IA d'une personne reelle, souvent en visioconference en direct, pour autoriser des transactions frauduleuses ou propager de la desinformation.
- ai-security№ 036
Desinformation Generee par l'IA
Contenu faux ou trompeur produit ou amplifie par l'IA generative pour tromper le public, manipuler l'opinion ou influencer elections, marches et conflits.
- ai-security№ 037
Malware Genere par IA
Code malveillant ecrit, mute ou assiste par des grands modeles de langage, abaissant la barriere technique pour les attaquants et accelerant la production de variantes.
- ai-security№ 1168
Attaque Adversariale Transferable
Attaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible.
- ai-security№ 014
Attaque Adaptative
Attaque sur un systeme de machine learning specifiquement concue pour contourner ou casser une defense connue, plutot qu'utiliser une technique generique.
- ai-security№ 619
Fuite de System Prompt de LLM
Attaque qui extrait le system prompt ou les instructions cachees d'une application LLM en production, devoilant logique, secrets et outils associes.
- ai-security№ 137
C2PA
Coalition for Content Provenance and Authenticity : standard ouvert de metadonnees signees cryptographiquement decrivant comment un media numerique a ete cree et edite.
- ai-security№ 897
RAG
Retrieval-Augmented Generation : patron pour LLM qui recupere des documents pertinents depuis un magasin de connaissances au moment de la requete et les injecte dans le prompt pour ancrer la reponse.
- ai-security№ 376
Attaques sur embeddings
Famille d'attaques contre les vecteurs d'embeddings IA qui recuperent, alterent ou detournent l'entree originale ou sa semantique, incluant l'inversion d'embedding et l'empoisonnement par similarite.
- ai-security№ 1198
Securite des bases de donnees vectorielles
Ensemble de controles qui protegent les bases vectorielles utilisees par les systemes IA contre la fuite de donnees, l'empoisonnement, le cross-tenant et les compromissions operationnelles ou de supply chain.
- ai-security№ 031
Model Card IA
Document standardise, introduit par Margaret Mitchell et collegues en 2018, qui decrit l'usage prevu, les donnees d'entrainement, la performance, les limites et les considerations ethiques d'un modele ML.