A Anthropic, fabricante da família de modelos de linguagem Claude, fundada por ex-funcionários da OpenAI, anunciou uma atualização em sua política de segurança, focando na proteção contra o uso malicioso de IA em ataques cibernéticos.
O novo documento, intitulado “política de dimensionamento responsável”, estabelece medidas para monitorar e mitigar riscos, introduzindo Padrões de Nível de Segurança de IA (ASL) que definem salvaguardas técnicas e operacionais.
Durante uma avaliação de segurança, a Anthropic identificou uma capacidade preocupante que pode permitir a automatização de ataques cibernéticos sofisticados, incluindo a descoberta de novas vulnerabilidades e o desenvolvimento de malware complexo.
Essa ameaça se destaca no contexto de operações cibernéticas, onde a IA pode potencialmente aprimorar ou orquestrar intrusões de rede que são difíceis de detectar.
Para abordar esses riscos, o relatório da empresa sugere que especialistas em cibersegurança serão envolvidos para avaliar o potencial dos modelos de IA e considerar a implementação de controles de acesso mais rigorosos para modelos com capacidades avançadas.
Mais testes de segurança serão feitos
- A Anthropic também planeja realizar testes pré e pós-implantação, documentando resultados em seus Relatórios de Capacidade.
- Atualmente, todos os modelos de IA da Anthropic devem atender aos requisitos do nível 2 do ASL, que impõe um sistema de segurança projetado para frustrar a maioria dos invasores oportunistas.
- Esse nível inclui medidas como revisões de segurança de fornecedores, segurança física e a aplicação de princípios de segurança por design.
Essas atualizações refletem um esforço conjunto da Anthropic e da OpenAI para estabelecer restrições voluntárias à inteligência artificial, especialmente em um momento em que o debate sobre regulamentação de tecnologias de IA está em alta.
Em agosto, ambas as empresas firmaram acordos com o Instituto de Segurança de Inteligência Artificial dos EUA, no Instituto Nacional de Padrões e Tecnologia (NIST), para colaborar em pesquisa, teste e avaliação de IA.
A ideia de que a IA possa ser utilizada para automatizar ataques cibernéticos não é nova. Fornecedores de segurança, como a Check Point Software Technologies, já alertaram que atores estatais, como os da Rússia, tentaram comprometer sistemas de IA, como o ChatGPT da OpenAI, para facilitar ataques de phishing.
Além disso, a CrowdStrike, especialista em segurança de ponta, reportou que a IA generativa é suscetível a prompts maliciosos que podem contornar as proteções dos programas.