TL;DR: A nova pesquisa da Anthropic mostrou que apenas 250 documentos maliciosos são suficientes para comprometer qualquer modelo de IA, criando comportamentos ocultos e sabotando resultados sem detecção. O tamanho do modelo não importa, as defesas atuais falham e a única solução pode ser retreinar do zero. Isso transforma o risco de segurança em um

The BRIEF
keyboard_arrow_up