Skip to content
Vol. 1 · Ed. 2026
CyberGlossary
Entry № 704

Inversão de modelo

O que é Inversão de modelo?

Inversão de modeloAtaque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.


A inversão de modelo visa a confidencialidade dos dados de treino e não os parâmetros do modelo. Fredrikson et al. (2015) mostraram que uma otimização baseada em gradientes contra um classificador de reconhecimento facial podia reproduzir imagens reconhecíveis a partir de etiquetas de classe e scores de confiança. Variantes modernas extraem texto de treino de LLMs com prefixos cuidadosamente escolhidos, recuperando nomes, e-mails ou documentos proprietários memorizados. O ataque é mais eficaz contra modelos sobreajustados ou pouco regularizados e APIs que expõem sinais de confiança detalhados. As mitigações incluem privacidade diferencial no treino, minimização de saídas, deduplicação dos dados, regularização e não divulgar vetores internos de confiança.

Exemplos

  1. 01

    Reconstruir um rosto reconhecível a partir dos scores de confiança por classe de um modelo de reconhecimento facial.

  2. 02

    Lançar um prefixo conhecido a um LLM para recuperar dados pessoais memorizados do seu corpus.

Perguntas frequentes

O que é Inversão de modelo?

Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes. Pertence à categoria Segurança de IA e ML da cibersegurança.

O que significa Inversão de modelo?

Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.

Como funciona Inversão de modelo?

A inversão de modelo visa a confidencialidade dos dados de treino e não os parâmetros do modelo. Fredrikson et al. (2015) mostraram que uma otimização baseada em gradientes contra um classificador de reconhecimento facial podia reproduzir imagens reconhecíveis a partir de etiquetas de classe e scores de confiança. Variantes modernas extraem texto de treino de LLMs com prefixos cuidadosamente escolhidos, recuperando nomes, e-mails ou documentos proprietários memorizados. O ataque é mais eficaz contra modelos sobreajustados ou pouco regularizados e APIs que expõem sinais de confiança detalhados. As mitigações incluem privacidade diferencial no treino, minimização de saídas, deduplicação dos dados, regularização e não divulgar vetores internos de confiança.

Como se defender contra Inversão de modelo?

As defesas contra Inversão de modelo costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.

Quais são outros nomes para Inversão de modelo?

Nomes alternativos comuns: Reconstrução dos dados de treino, Ataque de inferência de atributos.

Termos relacionados