k-anonymat
Qu'est-ce que k-anonymat ?
k-anonymatModèle de confidentialité proposé par Latanya Sweeney exigeant que chaque enregistrement d'un jeu de données soit indistinguable d'au moins k-1 autres sur ses quasi-identifiants.
Le k-anonymat, formalisé par Sweeney en 2002, protège contre la ré-identification en garantissant que chaque combinaison de quasi-identifiants (âge, code postal, sexe...) apparaît dans au moins k enregistrements, formant des classes d'équivalence. On l'obtient par généralisation (remplacer des valeurs exactes par des plages ou catégories larges) et suppression (retirer les valeurs rares), au moyen d'algorithmes comme Mondrian ou Incognito. Bien qu'il réduise les attaques par liaison, il ne protège pas contre les attaques d'homogénéité ou de connaissance de contexte si l'attribut sensible est identique au sein d'une classe, ce qui a motivé les extensions l-diversité et t-proximité. Le choix de k équilibre utilité des données, appétence au risque et exigences réglementaires (considérant 26 du RGPD).
● Exemples
- 01
Un jeu médical généralisé de sorte que chaque combinaison âge/code postal corresponde à au moins cinq patients (k=5).
- 02
Généraliser la date de naissance à l'année seule pour satisfaire le k-anonymat lors d'une diffusion publique de recherche.
● Questions fréquentes
Qu'est-ce que k-anonymat ?
Modèle de confidentialité proposé par Latanya Sweeney exigeant que chaque enregistrement d'un jeu de données soit indistinguable d'au moins k-1 autres sur ses quasi-identifiants. Cette notion relève de la catégorie Confidentialité et protection des données en cybersécurité.
Que signifie k-anonymat ?
Modèle de confidentialité proposé par Latanya Sweeney exigeant que chaque enregistrement d'un jeu de données soit indistinguable d'au moins k-1 autres sur ses quasi-identifiants.
Comment fonctionne k-anonymat ?
Le k-anonymat, formalisé par Sweeney en 2002, protège contre la ré-identification en garantissant que chaque combinaison de quasi-identifiants (âge, code postal, sexe...) apparaît dans au moins k enregistrements, formant des classes d'équivalence. On l'obtient par généralisation (remplacer des valeurs exactes par des plages ou catégories larges) et suppression (retirer les valeurs rares), au moyen d'algorithmes comme Mondrian ou Incognito. Bien qu'il réduise les attaques par liaison, il ne protège pas contre les attaques d'homogénéité ou de connaissance de contexte si l'attribut sensible est identique au sein d'une classe, ce qui a motivé les extensions l-diversité et t-proximité. Le choix de k équilibre utilité des données, appétence au risque et exigences réglementaires (considérant 26 du RGPD).
Comment se défendre contre k-anonymat ?
Les défenses contre k-anonymat combinent habituellement des contrôles techniques et des pratiques opérationnelles, comme détaillé dans la définition ci-dessus.
Quels sont les autres noms de k-anonymat ?
Noms alternatifs courants : k-anonymisation.
● Termes liés
- privacy№ 274
Anonymisation des données
Transformation irréversible de données personnelles de sorte qu'aucune personne ne puisse être identifiée, directement ou indirectement, même en croisant d'autres sources.
- privacy№ 603
l-diversité
Extension du k-anonymat proposée par Machanavajjhala et al. exigeant que chaque classe d'équivalence contienne au moins l valeurs bien représentées pour chaque attribut sensible.
- privacy№ 1126
t-proximité
Modèle de confidentialité de Li, Li et Venkatasubramanian renforçant la l-diversité en limitant l'écart entre la distribution d'un attribut sensible dans chaque classe et sa distribution globale.
- privacy№ 317
Confidentialité différentielle
Cadre mathématique qui quantifie la perte de confidentialité lors de la publication de statistiques ou de l'entraînement de modèles, par ajout de bruit calibré bornant de manière prouvable la contribution de chaque individu.
- privacy№ 875
Pseudonymisation
Technique qui remplace les identifiants directs des données personnelles par des alias réversibles, de sorte que les données ne puissent plus être attribuées à une personne sans information supplémentaire conservée séparément.
- privacy№ 818
Informations personnelles identifiables (PII)
Toute donnée permettant d'identifier une personne, seule ou combinée à d'autres informations, comme un nom, un identifiant ou un enregistrement biométrique.