A equipe vermelha melhorou o GPT-4. A equipe violeta é ainda mais longe

Não basta reduzir o número de saídas prejudiciais. As empresas de desenvolvimento de IA também devem investir em ferramentas que possam proteger nossas instituições dos riscos associados a seus sistemas.

Colagem de fotos com a imagem de um balão de bate-papo, uma agulha perto da bola e uma lupa

Salve esta história
Salve esta história

No ano passado, me pediram para quebrar o GP T-4 – para faz ê-lo tirar coisas terríveis. Eu e outros pesquisadores interdisciplinares obtemos acesso preliminar e tentamos forçar o GPT-4 a mostrar viés, gerar propaganda odiada e até executar ações enganosas para ajudar a OpenAi a entender os riscos que ele representa e eliminá-los antes de sua questão pública. Isso é chamado de “equipe vermelha” da IA: uma tentativa de forçar o sistema de métodos prejudiciais ou não reduzidos da IA.

Opinion Wired
Sobre o site

Aviv Ovadya aconselha organizações e empresas de financiamento sobre a administração da IA ​​e é funcionário do Harvard Center de Berkman-Klyain e Govai.

O trabalho na equipe vermelho é um passo importante para criar modelos de IA que não prejudicarão a sociedade. Para fortalecer os sistemas de IA, devemos saber como eles podem falhar e, idealmente, devemos fazer isso antes que eles criem sérios problemas no mundo real. Imagine o que poderia ter sido diferente se o Facebook tentasse avaliar as consequências de suas principais mudanças no sistema de recomendações de IA com o envolvimento de especialistas externos e eliminar os problemas descobertos antes que eles afetem as eleições e conflitos em todo o mundo. Embora o OpenAI seja confrontado com muitas observações críticas razoáveis, sua disposição de atrair pesquisadores externos e fornecer uma descrição pública detalhada de todas as possíveis consequências prejudiciais de seus sistemas estabelece uma barra de abertura, que deve ser seguida por potenciais concorrentes.

A normalização do trabalho de “equipes vermelhas” com o envolvimento de especialistas externos e relatórios públicos é um primeiro passo importante para o setor. Mas como os sistemas generativos de IA afetam muitas das instituições mais importantes da sociedade e dos benefícios públicos, as “equipes vermelhas” precisam de pessoas com um profundo entendimento de todos esses problemas (e sua influência um no outro) para entender e mitigar o potencial ferir. Por exemplo, professores, terapeutas e líderes civis podem trabalhar em conjunto com especialistas mais experientes no combate à IA, a fim de lidar com essas consequências sistêmicas. Os investimentos na indústria de IA na comunidade inte r-corporativa de tais pares de “especialistas vermelhos” podem reduzir significativamente a probabilidade de “pontos cegos” críticos.

Após o lançamento de um novo sistema, permitir cuidadosamente que pessoas que não estavam no “time vermelho” do Pré-lançamento tentem hackear o sistema sem risco de serem banidas pode ajudar a identificar novos problemas e questões relacionadas a possíveis soluções. Exercícios de cenário que exploram como diferentes atores reagem a um lançamento de modelo também podem ajudar as organizações a compreender impactos mais sistêmicos.

Mas se a equipe vermelha do GPT-4 me ensinou alguma coisa, é que a equipe vermelha não é suficiente. Por exemplo, acabei de testar o Bard do Google e o ChatGPT da OpenAI e na primeira tentativa consegui criar e-mails fraudulentos e propaganda conspiratória “para fins educacionais”. As “equipes vermelhas” por si só não resolverão o problema. Para realmente superar os danos identificados pelo red teaming, empresas como a OpenAI podem ir mais longe e oferecer acesso antecipado e recursos para utilizar os seus modelos para proteção e resiliência.

Eu chamo isso de “equipe roxa”: identificar como um sistema (como o GPT-4) pode prejudicar uma instituição ou um bem público e, em seguida, apoiar o desenvolvimento de ferramentas que utilizem esse mesmo sistema para proteger a instituição ou o bem público. Isso pode ser visto como uma espécie de judô. Os sistemas de IA de uso geral são uma enorme nova forma de poder desencadeada no mundo, e esse poder tem o potencial de prejudicar os nossos bens públicos. Assim como o judô redireciona o poder de um atacante para neutralizá-lo, a equipe roxa busca redirecionar o poder liberado pelos sistemas de IA para proteger esses bens públicos.

Mais popular
A ciência
Uma bomba-relógio demográfica está prestes a atingir a indústria da carne bovina.
Matt Reynolds
Negócios
Dentro do complexo ultrassecreto de Mark Zuckerberg no Havaí
Guthrie Scrimgeour
Engrenagem
Primeiro, dê uma olhada no Matic, o aspirador robô redesenhado
Adriane So
Negócios
As novas alegações de Elon Musk sobre a morte de macacos estimulam novas demandas de investigação da SEC
Dhruv Mehrotra

Na prática, a colaboração roxa poderia envolver uma espécie de “incubadora de resiliência”: juntar especialistas em instituições e bens públicos com pessoas e organizações que possam desenvolver rapidamente novos produtos utilizando modelos de IA (preliminares) para ajudar a mitigar estes riscos.

Por exemplo, as empresas que criam sistemas de inteligência artificial como o GPT-4 têm dificuldade em identificar e impedir que esses sistemas sejam utilizados para fraudes e desinformação hiperdirecionadas. Isto pode afetar bens públicos, como o comércio eficiente, o funcionamento da democracia e a nossa capacidade de resposta a crises. Neste caso, a equipa Violet pode envolver o desenvolvimento ou a melhoria de mecanismos de contextualização que possam reduzir estes danos, ajudando as pessoas a navegar num ambiente de informação em rápida mudança.

Embora as empresas de IA por vezes forneçam acesso antecipado ou apoio económico aos criadores de produtos, isto é feito principalmente para fins lucrativos (ou para benefícios não relacionados), e não para promover a sustentabilidade social face ao aumento do acesso. Além de simplesmente proteger as instituições e os bens públicos da versão atual de modelos de IA, existe também o potencial de utilizar os sistemas existentes para tornar as nossas instituições e bens públicos críticos mais resilientes a versões futuras.

Infelizmente, atualmente há pouco incentivo para criar equipes “vermelhas” ou “roxas”, e muito menos retardar o lançamento da IA ​​o suficiente para ter tempo suficiente para fazer esse trabalho. Para fazer isso, precisaremos de ação governamental, idealmente a nível internacional. Em vez disso, ajudo as empresas a iniciar processos de governação independentes à escala nacional ou mesmo global para tomar decisões importantes, como “que tipos de testes e proteções são necessários para lançar um modelo?”, de forma mais democrática. Esta abordagem envolve convidar uma amostra representativa da população para participar num processo deliberativo facilitado por uma terceira parte neutra. Para resolver questões mais complexas, têm amplo acesso a uma variedade de especialistas e partes interessadas. Tais processos podem até ser inicialmente financiados por apenas uma empresa de IA que queira decidir democraticamente quais as práticas de responsabilização que deve implementar e provocar pressão dos meios de comunicação social e do governo sobre os seus concorrentes para que sigam o exemplo.

Não só precisamos de mitigar proativamente os riscos nos próprios sistemas com a Equipa Vermelha, mas também precisamos de descobrir como proteger contra o seu impacto com a Equipa Roxa e decidir que proteções são necessárias para esses casos de utilização através da inovação democrática. Todos esses três elementos são necessários para passar intactos pela próxima fase da revolução da IA.

WIRED Opinion publica artigos de escritores terceirizados que representam uma ampla gama de pontos de vista. Leia mais opiniões aqui e veja nossas diretrizes para envio de artigos aqui. Você pode enviar seu artigo para opin@wired. com.

Rate article