● Category
Segurança de IA e ML
43 entries
- ai-security№ 866
Injeção de prompt
Ataque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
- ai-security№ 528
Injeção indireta de prompt
Variante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
- ai-security№ 030
Jailbreak de IA
Técnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
- ai-security№ 281
Envenenamento de dados
Ataque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
- ai-security№ 703
Extração de modelo
Ataque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
- ai-security№ 704
Inversão de modelo
Ataque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.
- ai-security№ 018
Exemplo adversarial
Entrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
- ai-security№ 393
Ataque de evasão (ML)
Ataque em tempo de inferência em que o adversário cria entradas que contornam a decisão pretendida de um modelo de ML implementado, como um classificador de malware ou um filtro de conteúdo.
- ai-security№ 081
Ataque de backdoor (ML)
Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.
- ai-security№ 666
Ataque de inferência de pertença
Ataque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
- ai-security№ 691
MLSecOps
Disciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 028
Alucinação de IA
Modo de falha em que um sistema de IA generativa produz conteúdo fluente e confiante mas factualmente errado, inventado ou sem suporte nas suas fontes.
- ai-security№ 024
Alinhamento de IA
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
- ai-security№ 033
Safety de IA
Disciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
- ai-security№ 297
Deepfake
Áudio, imagem ou vídeo sintético gerado por IA que retrata de forma convincente uma pessoa real a dizer ou fazer algo que nunca aconteceu.
- ai-security№ 1123
Média sintética
Qualquer conteúdo de áudio, imagem, vídeo ou texto produzido ou modificado substancialmente por IA generativa, em vez de captado diretamente do mundo físico.
- ai-security№ 035
Marca de água de IA
Técnicas que incorporam um sinal detetável em conteúdo gerado por IA para que a sua proveniência, modelo de origem ou pertença ao conjunto de treino possam ser verificados depois.
- ai-security№ 1026
Shadow AI
Uso por colaboradores de ferramentas, modelos ou serviços de IA sem o conhecimento ou aprovação das funções de segurança, privacidade ou governança da organização.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Inventário legível por máquina de cada componente de um sistema de IA — datasets, modelos base, dados de fine-tuning, bibliotecas, prompts e artefactos de avaliação — usado para segurança, conformidade e responsabilização.
- ai-security№ 898
Segurança RAG
Disciplina dedicada a proteger pipelines de retrieval-augmented generation para que os documentos, vector stores e passos de retrieval que alimentam um LLM não possam ser envenenados, abusados ou usados para exfiltrar dados.
- ai-security№ 1163
Token smuggling
Família de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.
- ai-security№ 729
Ataque Nightshade
Técnica de envenenamento de dados desenvolvida pela equipa Glaze da Universidade de Chicago que adiciona perturbações impercetíveis a imagens, fazendo com que modelos text-to-image treinados nelas aprendam conceitos profundamente distorcidos.
- ai-security№ 034
Risco de cadeia de fornecimento de IA
Conjunto de ameaças decorrentes dos datasets, modelos base, bibliotecas, plug-ins e infraestrutura de terceiros que as organizações combinam para construir e implementar sistemas de IA.
- ai-security№ 026
Deteção de conteúdo gerado por IA
Ferramentas e técnicas que estimam se um texto, imagem, áudio ou vídeo foi produzido por um modelo de IA e não por um humano.
- ai-security№ 029
Resposta a incidentes de IA
Conjunto de processos, papéis e playbooks que uma organização usa para detetar, conter, investigar, comunicar e recuperar de incidentes envolvendo sistemas de IA.
- ai-security№ 617
Firewall de LLM
Controlo de segurança que se coloca entre os utilizadores e um grande modelo de linguagem para inspecionar prompts, contexto recuperado e saídas em tempo real, bloqueando ou reescrevendo tráfego que viole a política.
- ai-security№ 618
Guardrails de LLM
Mecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
- ai-security№ 657
Ataques a MCP
Ataques que exploram o Model Context Protocol (MCP) para injetar prompts, abusar de ferramentas ou pivotar por servidores em que o assistente de IA confia.
- ai-security№ 1208
Ataque de Clonagem de Voz
Ataque que usa voz gerada por IA a imitar uma pessoa real para contornar autenticacao por voz ou enganar vitimas levando-as a autorizar pagamentos ou acoes.
- ai-security№ 1203
Ataque com Deepfake de Video
Ataque que usa video sintetico gerado por IA de uma pessoa real, muitas vezes em videochamada ao vivo, para autorizar transacoes fraudulentas ou difundir desinformacao.
- ai-security№ 036
Desinformacao Gerada por IA
Conteudo falso ou enganador produzido ou amplificado por IA generativa para enganar publicos, manipular a opiniao ou influenciar eleicoes, mercados e conflitos.
- ai-security№ 037
Malware Gerado por IA
Codigo malicioso escrito, mutado ou assistido por modelos de linguagem, que baixa a fasquia tecnica para atacantes e acelera a producao de variantes.
- ai-security№ 1168
Ataque Adversarial Transferivel
Ataque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo.
- ai-security№ 014
Ataque Adaptativo
Ataque a um sistema de ML especificamente concebido para contornar ou quebrar uma defesa conhecida, em vez de usar uma tecnica generica e independente da defesa.
- ai-security№ 619
Fuga de System Prompt de LLM
Ataque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas.
- ai-security№ 137
C2PA
Coalition for Content Provenance and Authenticity: padrao aberto de metadados assinados criptograficamente que regista como um conteudo digital foi criado e editado.
- ai-security№ 897
RAG
Retrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta.
- ai-security№ 376
Ataques a embeddings
Classe de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade.
- ai-security№ 1198
Seguranca de bases de dados vetoriais
Conjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain.
- ai-security№ 031
Model Card de IA
Documento padronizado, introduzido por Margaret Mitchell e colegas em 2018, que descreve o uso pretendido, dados de treino, desempenho, limitacoes e consideracoes eticas de um modelo de ML.