Deteção de conteúdo gerado por IA
O que é Deteção de conteúdo gerado por IA?
Deteção de conteúdo gerado por IAFerramentas e técnicas que estimam se um texto, imagem, áudio ou vídeo foi produzido por um modelo de IA e não por um humano.
Os detetores combinam sinais estatísticos (perplexidade, burstiness, anomalias na distribuição de tokens), artefactos forenses (vestígios de compressão, ruído do sensor, inconsistências de iluminação), marcas de água embebidas (SynthID, C2PA, Adobe Content Credentials) e classificadores de ML treinados em saídas conhecidas de IA. Usos: trust and safety, integridade académica, jornalismo, segurança eleitoral, prevenção de fraude e conformidade com obrigações de divulgação do AI Act europeu e da Executive Order de IA dos EUA. A fiabilidade é desigual: os detetores degradam-se com paráfrase, tradução, compressão de imagem ou textos curtos e produzem falsos positivos que prejudicaram estudantes e autores. A boa prática combina marcas de água, credenciais, scores de classificador e juízo humano, sem depender de um único sinal.
● Exemplos
- 01
Uma plataforma de integridade académica sinaliza ensaios cujas probabilidades de tokens correspondem às típicas de um LLM.
- 02
Uma redação verifica as C2PA Content Credentials antes de publicar imagens enviadas pelos leitores.
● Perguntas frequentes
O que é Deteção de conteúdo gerado por IA?
Ferramentas e técnicas que estimam se um texto, imagem, áudio ou vídeo foi produzido por um modelo de IA e não por um humano. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Deteção de conteúdo gerado por IA?
Ferramentas e técnicas que estimam se um texto, imagem, áudio ou vídeo foi produzido por um modelo de IA e não por um humano.
Como funciona Deteção de conteúdo gerado por IA?
Os detetores combinam sinais estatísticos (perplexidade, burstiness, anomalias na distribuição de tokens), artefactos forenses (vestígios de compressão, ruído do sensor, inconsistências de iluminação), marcas de água embebidas (SynthID, C2PA, Adobe Content Credentials) e classificadores de ML treinados em saídas conhecidas de IA. Usos: trust and safety, integridade académica, jornalismo, segurança eleitoral, prevenção de fraude e conformidade com obrigações de divulgação do AI Act europeu e da Executive Order de IA dos EUA. A fiabilidade é desigual: os detetores degradam-se com paráfrase, tradução, compressão de imagem ou textos curtos e produzem falsos positivos que prejudicaram estudantes e autores. A boa prática combina marcas de água, credenciais, scores de classificador e juízo humano, sem depender de um único sinal.
Como se defender contra Deteção de conteúdo gerado por IA?
As defesas contra Deteção de conteúdo gerado por IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Deteção de conteúdo gerado por IA?
Nomes alternativos comuns: Deteção de texto gerado por IA, Deteção de deepfakes.
● Termos relacionados
- ai-security№ 035
Marca de água de IA
Técnicas que incorporam um sinal detetável em conteúdo gerado por IA para que a sua proveniência, modelo de origem ou pertença ao conjunto de treino possam ser verificados depois.
- ai-security№ 1123
Média sintética
Qualquer conteúdo de áudio, imagem, vídeo ou texto produzido ou modificado substancialmente por IA generativa, em vez de captado diretamente do mundo físico.
- ai-security№ 297
Deepfake
Áudio, imagem ou vídeo sintético gerado por IA que retrata de forma convincente uma pessoa real a dizer ou fazer algo que nunca aconteceu.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
- ai-security№ 028
Alucinação de IA
Modo de falha em que um sistema de IA generativa produz conteúdo fluente e confiante mas factualmente errado, inventado ou sem suporte nas suas fontes.
- ai-security№ 033
Safety de IA
Disciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais.