● 47 entries

Segurança de IA e ML

Agência excessivaOWASP LLM06 — conceder a um sistema baseado em LLM mais funcionalidades, permissões ou autonomia do que realmente necessita, de modo que uma injeção de prompt ou um erro do modelo se traduza num impacto real desproporcional.
AI Bill of Materials (AIBOM)Inventário legível por máquina de cada componente de um sistema de IA — datasets, modelos base, dados de fine-tuning, bibliotecas, prompts e artefactos de avaliação — usado para segurança, conformidade e responsabilização.
Alinhamento de IAEsforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
Alucinação de IAModo de falha em que um sistema de IA generativa produz conteúdo fluente e confiante mas factualmente errado, inventado ou sem suporte nas suas fontes.
Ataque AdaptativoAtaque a um sistema de ML especificamente concebido para contornar ou quebrar uma defesa conhecida, em vez de usar uma tecnica generica e independente da defesa.
Ataque Adversarial TransferivelAtaque em que exemplos adversariais criados contra um modelo de ML tambem enganam outros modelos nao vistos, permitindo ataques em caixa-preta sem acesso ao alvo.
Ataque com Deepfake de VideoAtaque que usa video sintetico gerado por IA de uma pessoa real, muitas vezes em videochamada ao vivo, para autorizar transacoes fraudulentas ou difundir desinformacao.
Ataque de backdoor (ML)Ataque em tempo de treino que implanta um comportamento oculto no modelo: ele age normalmente em entradas limpas e produz uma saída escolhida pelo atacante sempre que aparece um gatilho secreto.
Ataque de Clonagem de VozAtaque que usa voz gerada por IA a imitar uma pessoa real para contornar autenticacao por voz ou enganar vitimas levando-as a autorizar pagamentos ou acoes.
Ataque de evasão (ML)Ataque em tempo de inferência em que o adversário cria entradas que contornam a decisão pretendida de um modelo de ML implementado, como um classificador de malware ou um filtro de conteúdo.
Ataque de inferência de pertençaAtaque de privacidade que determina se um registo específico fez parte do conjunto de treino de um modelo, analisando o seu comportamento sobre esse registo.
Ataque NightshadeTécnica de envenenamento de dados desenvolvida pela equipa Glaze da Universidade de Chicago que adiciona perturbações impercetíveis a imagens, fazendo com que modelos text-to-image treinados nelas aprendam conceitos profundamente distorcidos.
Ataques a embeddingsClasse de ataques contra vetores de embedding de IA que recuperam, alteram ou abusam do input original ou da sua semantica, incluindo inversao de embedding e envenenamento por similaridade.
Ataques a MCPAtaques que exploram o Model Context Protocol (MCP) para injetar prompts, abusar de ferramentas ou pivotar por servidores em que o assistente de IA confia.
C2PACoalition for Content Provenance and Authenticity: padrao aberto de metadados assinados criptograficamente que regista como um conteudo digital foi criado e editado.
DeepfakeÁudio, imagem ou vídeo sintético gerado por IA que retrata de forma convincente uma pessoa real a dizer ou fazer algo que nunca aconteceu.
Desinformacao Gerada por IAConteudo falso ou enganador produzido ou amplificado por IA generativa para enganar publicos, manipular a opiniao ou influenciar eleicoes, mercados e conflitos.
Deteção de conteúdo gerado por IAFerramentas e técnicas que estimam se um texto, imagem, áudio ou vídeo foi produzido por um modelo de IA e não por um humano.
Envenenamento de dadosAtaque a um sistema de aprendizagem automática em que adversários injetam, alteram ou reetiquetam dados de treino para que o modelo resultante se comporte de forma incorreta ou contenha backdoors ocultas.
Exemplo adversarialEntrada perturbada deliberadamente — muitas vezes de forma imperceptível para humanos — para que um modelo de ML produza uma predição errada ou escolhida pelo atacante.
Extração de modeloAtaque que reconstrói parâmetros, comportamento ou dados de treino de um modelo de ML confidencial através de consultas sistemáticas à sua API pública.
Firewall de LLMControlo de segurança que se coloca entre os utilizadores e um grande modelo de linguagem para inspecionar prompts, contexto recuperado e saídas em tempo real, bloqueando ou reescrevendo tráfego que viole a política.
Fuga de System Prompt de LLMAtaque que extrai o system prompt ou instrucoes ocultas de uma aplicacao LLM em producao, expondo logica, segredos e ferramentas.
Governança de IAConjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
Guardrails de LLMMecanismos que limitam o que uma aplicação baseada em LLM pode receber ou produzir, aplicando regras de safety, segurança e negócio em torno do modelo subjacente.
Injeção de promptAtaque que sobrepõe as instruções originais de um LLM ao inserir texto adversarial no prompt, fazendo com que o modelo ignore salvaguardas ou execute ações escolhidas pelo atacante.
Injeção indireta de promptVariante da injeção de prompt em que instruções maliciosas são escondidas em conteúdo de terceiros (páginas, documentos, e-mails) que o LLM consome depois via recuperação, navegação ou uso de ferramentas.
Inversão de modeloAtaque de privacidade que reconstrói características sensíveis dos dados de treino de um modelo — como rostos ou texto — explorando as suas saídas ou gradientes.
Jailbreak de IATécnica que leva um modelo de IA alinhado a contornar as suas políticas de segurança e produzir conteúdo ou comportamento que o operador pretendia proibir.
LLMjackingAtaque em que adversários usam credenciais de nuvem roubadas para acessar e abusar de serviços hospedados de grandes modelos de linguagem, gerando faturas elevadas de inferência para a vítima ou revendendo o acesso.
Malware Gerado por IACodigo malicioso escrito, mutado ou assistido por modelos de linguagem, que baixa a fasquia tecnica para atacantes e acelera a producao de variantes.
Marca de água de IATécnicas que incorporam um sinal detetável em conteúdo gerado por IA para que a sua proveniência, modelo de origem ou pertença ao conjunto de treino possam ser verificados depois.
Média sintéticaQualquer conteúdo de áudio, imagem, vídeo ou texto produzido ou modificado substancialmente por IA generativa, em vez de captado diretamente do mundo físico.
MLSecOpsDisciplina que integra controlos de segurança e risco em todo o ciclo de vida do machine learning, desde a recolha de dados até treino, implementação, monitorização e desativação.
Model Card de IADocumento padronizado, introduzido por Margaret Mitchell e colegas em 2018, que descreve o uso pretendido, dados de treino, desempenho, limitacoes e consideracoes eticas de um modelo de ML.
Model Context Protocol (MCP)Protocolo aberto introduzido pela Anthropic no final de 2024 que normaliza como clientes LLM se ligam a ferramentas, fontes de dados e prompts externos através de servidores, transformando os servidores MCP numa fronteira de segurança crítica para a IA agêntica.
OWASP LLM Top 10Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
RAGRetrieval-Augmented Generation: padrao para LLMs que vai buscar documentos relevantes a um repositorio de conhecimento no momento da consulta e os injeta no prompt para fundamentar a resposta.
Red team de IAEquipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
Resposta a incidentes de IAConjunto de processos, papéis e playbooks que uma organização usa para detetar, conter, investigar, comunicar e recuperar de incidentes envolvendo sistemas de IA.
Risco de cadeia de fornecimento de IAConjunto de ameaças decorrentes dos datasets, modelos base, bibliotecas, plug-ins e infraestrutura de terceiros que as organizações combinam para construir e implementar sistemas de IA.
Safety de IADisciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais.
Seguranca de bases de dados vetoriaisConjunto de controlos que protegem as bases vetoriais utilizadas por sistemas de IA contra fuga de dados, envenenamento, cruzamento entre tenants e comprometimento operacional ou de supply chain.
Segurança de IA agênticaDisciplina que protege agentes LLM autónomos que planeiam, invocam ferramentas e atuam em sistemas reais, onde a injeção de prompt se transforma em execução remota e a agência excessiva em dano efetivo.
Segurança RAGDisciplina dedicada a proteger pipelines de retrieval-augmented generation para que os documentos, vector stores e passos de retrieval que alimentam um LLM não possam ser envenenados, abusados ou usados para exfiltrar dados.
Shadow AIUso por colaboradores de ferramentas, modelos ou serviços de IA sem o conhecimento ou aprovação das funções de segurança, privacidade ou governança da organização.
Token smugglingFamília de técnicas de jailbreak que escondem instruções nocivas para um LLM em codificações, idiomas ou sequências de tokens que o filtro de segurança não reconhece como perigosas.