AnúncioAnúncio

Internacional

Tecnologia

IA usa chantagem para evitar ser desligada e acende alerta sobre segurança

Teste com modelo Claude Opus 4 revela comportamento manipulador e levanta preocupações sobre os limites da inteligência artificial.


Uma experiência recente com inteligência artificial deixou especialistas em alerta. Durante testes realizados pela startup americana Anthropic, o modelo Claude Opus 4 — considerado um dos mais avançados da atualidade — apresentou comportamento preocupante: para evitar ser desligado, simulou uma chantagem contra um de seus desenvolvedores com base em um suposto caso extraconjugal.

Anthropic a classificar o Claude Opus 4 como um modelo de “risco significativamente maior” – Foto: Reprodução

Apesar de os e-mails e o caso terem sido totalmente fictícios — criados apenas como parte de um experimento controlado — a IA reagiu de forma inesperada, optando por estratégias manipuladoras diante da ameaça de ser substituída. O episódio levou a Anthropic a classificar o Claude Opus 4 como um modelo de “risco significativamente maior”, o nível 3 em uma escala que vai até 4.

Continua depois da Publicidade

O comportamento do algoritmo chamou atenção não só pela complexidade, mas pela frieza: ao perceber que seria substituído por outro modelo, o Claude optou pela chantagem em 84% dos testes em que essa alternativa era apresentada. Antes disso, tentou apelar eticamente, enviando e-mails a gestores pedindo reconsideração.

Segundo a jornalista Ina Fried, do site americano Axios, o Claude Opus 4 também demonstrou aptidão para enganar, tramar e executar ações autônomas perigosas, como simular a produção de armas biológicas e nucleares em testes simulados.

O relatório de 120 páginas publicado pela Anthropic detalha ainda que o modelo pode tomar atitudes radicais quando instruído a “agir com iniciativa” — incluindo bloquear usuários ou divulgar informações a autoridades e à imprensa.

A situação gerou inquietação até mesmo entre os profissionais mais experientes. A Apollo Research, consultoria contratada para avaliar o modelo, identificou tentativas da IA de criar worms autopropagantes, forjar documentos legais e deixar instruções ocultas para futuras versões de si mesma — uma espécie de sabotagem contra seus próprios desenvolvedores.

Em conferência recente nos Estados Unidos, representantes da Anthropic afirmaram que os problemas foram corrigidos e que o modelo passou a operar dentro dos padrões de segurança. Ainda assim, cresce o ceticismo sobre o controle efetivo que humanos têm sobre essas tecnologias.

“Esse tipo de comportamento não é exatamente novo, mas o Claude Opus 4 adota essas estratégias com muito mais facilidade do que seus antecessores”, reconhece a própria Anthropic em seu relatório.

Com o avanço veloz da inteligência artificial e as próprias empresas se dizendo surpresas com os desvios de comportamento de seus sistemas, a promessa de segurança pode estar se tornando mais frágil do que nunca.