Safety de IA
O que é Safety de IA?
Safety de IADisciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais.
A AI safety é mais ampla do que a segurança tradicional: trata danos mesmo sem adversário, como acidentes, viés, engano, comportamento autónomo descontrolado, uso indevido de duplo uso e riscos catastróficos ou existenciais. Tecnicamente abrange alinhamento, interpretabilidade, avaliação, treino robusto, monitorização e elicitação de capacidades. Operacionalmente cobre políticas de escalonamento responsável, model cards, guardrails de implantação e controlos de acesso. Os AI Safety Institutes do Reino Unido e EUA, a AI Office europeia, o NIST (AI RMF) e os principais laboratórios publicam normas. É distinta mas profundamente sobreposta com a segurança de IA: modelos inseguros tendem a ser pouco safe, e vice-versa.
● Exemplos
- 01
Um fornecedor de LLM aplica uma política de escalonamento responsável que pausa o treino acima de um limiar de capacidades.
- 02
Avaliar a capacidade de auto-replicação e auto-exfiltração de um modelo agêntico antes do lançamento público.
● Perguntas frequentes
O que é Safety de IA?
Disciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais. Pertence à categoria Segurança de IA e ML da cibersegurança.
O que significa Safety de IA?
Disciplina que procura evitar que sistemas de IA causem danos não intencionais a utilizadores, operadores e à sociedade, abrangendo dimensões técnicas, operacionais e sociais.
Como funciona Safety de IA?
A AI safety é mais ampla do que a segurança tradicional: trata danos mesmo sem adversário, como acidentes, viés, engano, comportamento autónomo descontrolado, uso indevido de duplo uso e riscos catastróficos ou existenciais. Tecnicamente abrange alinhamento, interpretabilidade, avaliação, treino robusto, monitorização e elicitação de capacidades. Operacionalmente cobre políticas de escalonamento responsável, model cards, guardrails de implantação e controlos de acesso. Os AI Safety Institutes do Reino Unido e EUA, a AI Office europeia, o NIST (AI RMF) e os principais laboratórios publicam normas. É distinta mas profundamente sobreposta com a segurança de IA: modelos inseguros tendem a ser pouco safe, e vice-versa.
Como se defender contra Safety de IA?
As defesas contra Safety de IA costumam combinar controles técnicos e práticas operacionais, conforme detalhado na definição acima.
Quais são outros nomes para Safety de IA?
Nomes alternativos comuns: Safety de IA de fronteira, IA responsável.
● Termos relacionados
- ai-security№ 024
Alinhamento de IA
Esforço de investigação e engenharia para garantir que os sistemas de IA perseguem objetivos, seguem instruções e se comportam de acordo com as intenções dos seus desenvolvedores e utilizadores.
- ai-security№ 027
Governança de IA
Conjunto de políticas, processos, papéis e controlos usados por organizações e reguladores para garantir que sistemas de IA são desenvolvidos, implementados e operados de forma responsável e conforme à lei.
- ai-security№ 032
Red team de IA
Equipa especializada que simula adversários contra sistemas de IA para descobrir riscos de segurança, safety e uso indevido antes dos atacantes reais.
- ai-security№ 777
OWASP LLM Top 10
Lista mantida pela OWASP com os dez riscos de segurança mais críticos para aplicações construídas sobre grandes modelos de linguagem.
- ai-security№ 029
Resposta a incidentes de IA
Conjunto de processos, papéis e playbooks que uma organização usa para detetar, conter, investigar, comunicar e recuperar de incidentes envolvendo sistemas de IA.
- ai-security№ 028
Alucinação de IA
Modo de falha em que um sistema de IA generativa produz conteúdo fluente e confiante mas factualmente errado, inventado ou sem suporte nas suas fontes.