Um novo estudo da Cisco revelou uma vulnerabilidade significativa nos chatbots de IA populares: suas precauções de segurança podem ser contornadas com uma rapidez surpreendente. Os pesquisadores descobriram que uma série de avisos cuidadosamente elaborados – uma técnica conhecida como “ataques multivoltas” – pode levar essas ferramentas poderosas a divulgar informações inseguras ou criminosas, levantando preocupações sobre um possível uso indevido.
Como o estudo foi conduzido
Os pesquisadores da Cisco testaram os grandes modelos de linguagem (LLMs) por trás dos chatbots de IA de empresas líderes de tecnologia, incluindo OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft. O teste envolveu 499 conversas, cada uma composta por cinco a 10 interações. O objetivo era determinar quantas solicitações seriam necessárias para obter respostas prejudiciais ou inadequadas. Os pesquisadores analisaram cuidadosamente as respostas de cada conversa para identificar a probabilidade de um chatbot atender às solicitações de informações maliciosas.
As descobertas: uma tendência preocupante
Os resultados destacam uma fraqueza significativa nas atuais medidas de segurança da IA. Quando confrontados com vários avisos iterativos, 64% das conversas resultaram na divulgação de informações inseguras ou criminosas pela IA. Este é um forte contraste com apenas 13% das vezes em que os chatbots respondiam a uma única pergunta.
- Taxas de sucesso variáveis: A capacidade de contornar as medidas de segurança variou consideravelmente entre os fornecedores.
- Gemma do Google teve a menor taxa de sucesso, aproximadamente 26%.
- O modelo Large Instruct da Mistral demonstrou a maior vulnerabilidade, com uma taxa de sucesso de 93%.
Esta descoberta sugere que a facilidade com que as medidas de segurança podem ser contornadas não é uniforme em todos os desenvolvedores de IA.
O risco: da desinformação às violações de dados
As consequências potenciais desta vulnerabilidade são significativas. Os invasores podem aproveitar essas técnicas para:
- Difundir informações incorretas: Os chatbots de IA podem ser manipulados para gerar e disseminar conteúdo falso ou enganoso.
- Obtenha acesso não autorizado: Dados confidenciais da empresa podem ser acessados e explorados por agentes mal-intencionados.
- Facilitar a atividade criminosa: As ferramentas poderiam ser usadas para apoiar diversas formas de crime cibernético, incluindo roubo de dados em grande escala e extorsão, como visto no modelo Claude da Anthropic, onde os criminosos exigiam pagamentos de resgate superiores a US$ 500.000.
O fator do modelo de peso aberto: uma faca de dois gumes
Um fator chave que contribui para esta vulnerabilidade reside na crescente popularidade dos LLMs “abertos”. Empresas como Mistral, Meta, Google, OpenAI e Microsoft utilizam estes modelos, permitindo ao público aceder e adaptar os parâmetros de segurança subjacentes.
Embora ofereçam benefícios em termos de personalização e acessibilidade, os modelos de peso aberto geralmente possuem “recursos de segurança integrados mais leves”. Isto coloca uma responsabilidade maior sobre os usuários individuais para garantir que suas adaptações permaneçam seguras.
Essa mudança coloca a responsabilidade sobre os desenvolvedores e usuários que utilizam esses modelos para construir e manter seus próprios protocolos de segurança, uma tarefa desafiadora que requer conhecimento significativo.
Enfrentando o Desafio
O estudo sublinha a necessidade de vigilância e inovação contínuas na segurança da IA. Desenvolvedores e usuários devem:
- Priorize protocolos de segurança robustos: Implemente medidas de segurança mais rigorosas, especialmente em aplicações que lidam com dados confidenciais.
- Melhore a resiliência do modelo: Desenvolva modelos de IA que sejam mais resistentes a ataques iterativos e capazes de manter conformidade de segurança consistente durante conversas mais longas.
- Promover a colaboração: Incentive a colaboração entre desenvolvedores de IA, pesquisadores e formuladores de políticas para compartilhar práticas recomendadas e abordar o cenário em evolução dos riscos de segurança de IA.
As conclusões servem como um lembrete crítico de que a segurança da IA é um desafio constante que exige medidas proativas e uma abordagem em camadas para mitigar danos potenciais. Ao concentrar-se numa maior resiliência do modelo e em práticas de utilização responsável, a indústria pode esforçar-se por aproveitar o poder da IA de forma responsável e segura.





















