Inversão de modelo
O que é Inversão de modelo?
Inversão de modeloAtaque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.
A inversão de modelo visa a confidencialidade dos dados de treino e não os parâmetros do modelo. Fredrikson et al. (2015) mostraram que uma otimização baseada em gradientes contra um classificador de reconhecimento facial podia reproduzir imagens reconhecíveis a partir de etiquetas de classe e scores de confiança. Variantes modernas extraem texto de treino de LLMs com prefixos cuidadosamente escolhidos, recuperando nomes, e-mails ou documentos proprietários memorizados. O ataque é mais eficaz contra modelos sobreajustados ou pouco regularizados e APIs que expõem sinais de confiança detalhados. As mitigações incluem privacidade diferencial no treino, minimização de saídas, deduplicação dos dados, regularização e não divulgar vetores internos de confiança.
● Exemplos
- 01
Reconstruir um rosto reconhecível a partir dos scores de confiança por classe de um modelo de reconhecimento facial.
- 02
Lançar um prefixo conhecido a um LLM para recuperar dados pessoais memorizados do seu corpus.
● Perguntas frequentes
O que é Inversão de modelo?
Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Inversão de modelo?
Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.
Como funciona Inversão de modelo?
A inversão de modelo visa a confidencialidade dos dados de treino e não os parâmetros do modelo. Fredrikson et al. (2015) mostraram que uma otimização baseada em gradientes contra um classificador de reconhecimento facial podia reproduzir imagens reconhecíveis a partir de etiquetas de classe e scores de confiança. Variantes modernas extraem texto de treino de LLMs com prefixos cuidadosamente escolhidos, recuperando nomes, e-mails ou documentos proprietários memorizados. O ataque é mais eficaz contra modelos sobreajustados ou pouco regularizados e APIs que expõem sinais de confiança detalhados. As mitigações incluem privacidade diferencial no treino, minimização de saídas, deduplicação dos dados, regularização e não divulgar vetores internos de confiança.
Como se defender contra Inversão de modelo?
As defesas contra Inversão de modelo costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Inversão de modelo?
Nomes alternativos comuns: Reconstrução dos dados de treino, Ataque de inferência de atributos.
● Termos relacionados
- ai-security№ 666
Ataque de inferência de pertença
Ataque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.
- ai-security№ 703
Extração de modelo
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.