Ataque de inferência de pertença
O que é Ataque de inferência de pertença?
Ataque de inferência de pertençaAtaque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.
A inferência de pertença, formalizada por Shokri et al. (2017), explora a tendência dos modelos de ML para mostrarem maior confiança em exemplos vistos durante o treino. O atacante consulta o modelo alvo com uma amostra candidata e compara confiança, perda ou scores por classe contra modelos sombra treinados em dados semelhantes, inferindo a pertença. Muitas vezes basta acesso via API. É um bloco de construção de ameaças de privacidade mais amplas: confirmar que o registo médico, foto ou documento de uma pessoa foi usado no treino pode violar o RGPD, HIPAA ou o AI Act europeu. As defesas incluem privacidade diferencial, regularização (dropout), minimização de saídas e deduplicação cuidadosa dos dados.
● Exemplos
- 01
Determinar que o registo de um paciente específico foi usado para treinar o modelo diagnóstico de um hospital comparando valores de perda.
- 02
Identificar se um livro com copyright fez parte do corpus de pré-treino de um LLM através de testes de pertença.
● Perguntas frequentes
O que é Ataque de inferência de pertença?
Ataque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Ataque de inferência de pertença?
Ataque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.
Como funciona Ataque de inferência de pertença?
A inferência de pertença, formalizada por Shokri et al. (2017), explora a tendência dos modelos de ML para mostrarem maior confiança em exemplos vistos durante o treino. O atacante consulta o modelo alvo com uma amostra candidata e compara confiança, perda ou scores por classe contra modelos sombra treinados em dados semelhantes, inferindo a pertença. Muitas vezes basta acesso via API. É um bloco de construção de ameaças de privacidade mais amplas: confirmar que o registo médico, foto ou documento de uma pessoa foi usado no treino pode violar o RGPD, HIPAA ou o AI Act europeu. As defesas incluem privacidade diferencial, regularização (dropout), minimização de saídas e deduplicação cuidadosa dos dados.
Como se defender contra Ataque de inferência de pertença?
As defesas contra Ataque de inferência de pertença costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Ataque de inferência de pertença?
Nomes alternativos comuns: MIA, Ataque de pertença ao conjunto de treino.
● Termos relacionados
- ai-security№ 704
Inversão de modelo
Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.
- ai-security№ 703
Extração de modelo
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
● Veja também
- № 376Ataques a embeddings