● 47 entries

Sécurité de l'IA et du ML

Agence excessiveOWASP LLM06 : accorder à un système piloté par LLM plus de fonctionnalités, de permissions ou d'autonomie qu'il n'en a réellement besoin, de sorte qu'une injection de prompt ou une erreur du modèle se traduit par un impact réel disproportionné.
AI Bill of Materials (AIBOM)Inventaire lisible par la machine de chaque composant entrant dans un système d'IA — datasets, modèles de base, données de fine-tuning, bibliothèques, prompts, artefacts d'évaluation — utilisé pour la sécurité, la conformité et la responsabilité.
Alignement de l'IAEnsemble de recherches et d'ingénierie visant à ce que les systèmes d'IA poursuivent des buts, suivent des instructions et se comportent conformément aux intentions de leurs développeurs et utilisateurs.
Attaque AdaptativeAttaque sur un systeme de machine learning specifiquement concue pour contourner ou casser une defense connue, plutot qu'utiliser une technique generique.
Attaque Adversariale TransferableAttaque ou des exemples adversariaux concus contre un modele ML trompent aussi d'autres modeles non vus, permettant des attaques boite noire sans acces au modele cible.
Attaque d'évasion (ML)Attaque en phase d'inférence où l'adversaire fabrique des entrées qui contournent la décision attendue d'un modèle de ML déployé, comme un détecteur de malware ou un filtre de contenu.
Attaque NightshadeTechnique d'empoisonnement de données conçue par l'équipe Glaze de l'Université de Chicago, qui ajoute des perturbations imperceptibles aux images afin que les modèles text-to-image entraînés dessus apprennent des concepts profondément déformés.
Attaque par Clonage de VoixAttaque utilisant une voix synthetisee par IA imitant une personne reelle pour contourner l'authentification vocale ou pousser une victime a autoriser des paiements ou des actions.
Attaque par Deepfake VideoAttaque utilisant une video synthetique generee par IA d'une personne reelle, souvent en visioconference en direct, pour autoriser des transactions frauduleuses ou propager de la desinformation.
Attaque par inférence d'appartenanceAttaque de confidentialité qui détermine si un enregistrement précis faisait partie du jeu d'entraînement d'un modèle de ML, en analysant le comportement du modèle sur cet enregistrement.
Attaque par porte dérobée (ML)Attaque en phase d'entraînement qui implante un comportement caché : le modèle agit normalement sur des entrées propres, mais produit la sortie choisie par l'attaquant dès qu'un déclencheur secret apparaît.
Attaques contre MCPAttaques exploitant le Model Context Protocol (MCP) pour injecter des prompts, abuser des outils ou pivoter via des serveurs auxquels un assistant IA fait confiance.
Attaques sur embeddingsFamille d'attaques contre les vecteurs d'embeddings IA qui recuperent, alterent ou detournent l'entree originale ou sa semantique, incluant l'inversion d'embedding et l'empoisonnement par similarite.
C2PACoalition for Content Provenance and Authenticity : standard ouvert de metadonnees signees cryptographiquement decrivant comment un media numerique a ete cree et edite.
DeepfakeMédia audio, image ou vidéo synthétique généré par IA qui représente de manière convaincante une personne réelle disant ou faisant quelque chose qui n'a jamais eu lieu.
Desinformation Generee par l'IAContenu faux ou trompeur produit ou amplifie par l'IA generative pour tromper le public, manipuler l'opinion ou influencer elections, marches et conflits.
Détection de contenus générés par IAOutils et techniques qui estiment si un texte, une image, un audio ou une vidéo a été produit par un modèle d'IA plutôt que par un humain.
Empoisonnement de donnéesAttaque contre un système d'apprentissage automatique dans laquelle l'adversaire injecte, modifie ou réétiquette des données d'entraînement pour que le modèle résultant se comporte mal ou contienne des portes dérobées cachées.
Exemple adversarialEntrée volontairement perturbée — souvent imperceptiblement pour l'humain — afin qu'un modèle de machine learning produise une prédiction erronée ou choisie par l'attaquant.
Extraction de modèleAttaque qui reconstruit les paramètres, le comportement ou les données d'entraînement d'un modèle de machine learning confidentiel en interrogeant systématiquement son API publique.
Firewall LLMContrôle de sécurité qui se place entre les utilisateurs et un grand modèle de langage pour inspecter prompts, contexte récupéré et sorties en temps réel, et bloquer ou réécrire le trafic non conforme.
Fuite de System Prompt de LLMAttaque qui extrait le system prompt ou les instructions cachees d'une application LLM en production, devoilant logique, secrets et outils associes.
Gouvernance de l'IAEnsemble de politiques, processus, rôles et contrôles qu'organisations et régulateurs mobilisent pour garantir un développement, un déploiement et une exploitation responsables et conformes des systèmes d'IA.
Guardrails LLMMécanismes qui restreignent ce qu'une application LLM peut recevoir ou produire en appliquant des règles de safety, sécurité et métier autour du modèle sous-jacent.
Hallucination de l'IAMode de défaillance dans lequel un système d'IA générative produit un contenu fluide et assuré mais factuellement faux, inventé ou non étayé par ses sources.
Injection de promptAttaque qui détourne les instructions d'origine d'un LLM en insérant un texte adversarial dans le prompt, poussant le modèle à ignorer ses garde-fous ou exécuter les actions choisies par l'attaquant.
Injection de prompt indirecteVariante de l'injection de prompt où des instructions malveillantes sont cachées dans un contenu tiers (page web, document, e-mail) que le LLM ingère ensuite via la récupération, la navigation ou un outil.
Inversion de modèleAttaque de confidentialité qui reconstruit des caractéristiques sensibles des données d'entraînement d'un modèle — visages, texte — en exploitant ses sorties ou ses gradients.
Jailbreak d'IATechnique poussant un modèle d'IA aligné à contourner ses politiques de sécurité et à produire un contenu ou un comportement que l'opérateur avait pourtant interdit.
LLMjackingAttaque dans laquelle des adversaires utilisent des identifiants cloud volés pour accéder à des services de grands modèles de langage hébergés et en abuser, générant de lourdes factures d'inférence pour la victime ou revendant l'accès.
Malware Genere par IACode malveillant ecrit, mute ou assiste par des grands modeles de langage, abaissant la barriere technique pour les attaquants et accelerant la production de variantes.
Médias synthétiquesTout contenu audio, image, vidéo ou texte produit ou modifié de manière substantielle par une IA générative plutôt que capté directement dans le monde physique.
MLSecOpsDiscipline qui intègre des contrôles de sécurité et de risque sur tout le cycle de vie du machine learning, depuis la collecte des données jusqu'à l'entraînement, le déploiement, la supervision et le retrait.
Model Card IADocument standardise, introduit par Margaret Mitchell et collegues en 2018, qui decrit l'usage prevu, les donnees d'entrainement, la performance, les limites et les considerations ethiques d'un modele ML.
Model Context Protocol (MCP)Protocole ouvert introduit par Anthropic fin 2024 qui standardise la manière dont les clients LLM se connectent à des outils, sources de données et prompts externes via des serveurs, faisant des serveurs MCP une frontière de sécurité majeure pour l'IA agentique.
OWASP LLM Top 10Liste maintenue par l'OWASP recensant les dix risques de sécurité les plus critiques pour les applications bâties sur de grands modèles de langage.
RAGRetrieval-Augmented Generation : patron pour LLM qui recupere des documents pertinents depuis un magasin de connaissances au moment de la requete et les injecte dans le prompt pour ancrer la reponse.
Red Team IAÉquipe spécialisée qui simule des adversaires contre des systèmes d'IA pour révéler des risques de sécurité, de safety et d'usage abusif avant les vrais attaquants.
Réponse aux incidents IAEnsemble de processus, rôles et playbooks qu'une organisation utilise pour détecter, contenir, enquêter, communiquer et se remettre d'incidents impliquant des systèmes d'IA.
Risque de chaîne d'approvisionnement IAEnsemble de menaces issues des datasets, modèles de base, bibliothèques, plug-ins et infrastructures tiers que les organisations combinent pour construire et déployer des systèmes d'IA.
Safety de l'IADiscipline visant à éviter que les systèmes d'IA causent des préjudices non intentionnels aux utilisateurs, opérateurs et à la société, sur les plans technique, opérationnel et sociétal.
Sécurité de l'IA agentiqueDiscipline visant à sécuriser les agents LLM autonomes qui planifient, appellent des outils et agissent sur des systèmes réels, où l'injection de prompt devient exécution distante et l'agence excessive un véritable rayon d'impact.
Securite des bases de donnees vectoriellesEnsemble de controles qui protegent les bases vectorielles utilisees par les systemes IA contre la fuite de donnees, l'empoisonnement, le cross-tenant et les compromissions operationnelles ou de supply chain.
Sécurité RAGDiscipline visant à sécuriser les pipelines de génération augmentée par récupération afin que les documents, stores vectoriels et étapes de retrieval qui alimentent un LLM ne puissent pas être empoisonnés, détournés ou utilisés pour exfiltrer des données.
Shadow AIUtilisation par les employés d'outils, modèles ou services d'IA sans la connaissance ni l'approbation des fonctions sécurité, vie privée ou gouvernance de l'organisation.
Token smugglingFamille de jailbreaks qui dissimulent des instructions nuisibles pour un LLM dans des encodages, langues ou séquences de tokens que le filtre de sécurité ne reconnaît pas comme dangereux.
Watermarking d'IATechniques qui intègrent un signal détectable dans des contenus générés par IA afin de vérifier ultérieurement leur provenance, leur modèle d'origine ou leur appartenance à un jeu d'entraînement.