Valuji, Karl Jung e argumentos a favor da AI moral

Luigi, da Nintendo, tem um alter ego causando caos. A sombra da IA pode estar em risco, mas pode ser recortada.

Salve esta história
Salve esta história

No início do século XX, o psicanalista Karl Jung criou o conceito de sombra – um lado escuro e deprimido da pessoa humana, que pode surgir da maneira mais inesperada. Surpreendentemente, esse tópico é devolvido à esfera da inteligência artificial na forma do “efeito Valuji” – um fenômeno curioso que se refere ao encanador do ego do Alter Dark Luigi do Universo Mario da Nintendo.

Luigi toca de acordo com as regras, e Valuji está trapaceando e organizando o caos. A IA foi criada para procurar drogas para o tratamento de doenças humanas; Sua versão invertida, Valuji, ofereceu moléculas para mais de 40. 000 tipos de armas químicas. Tudo o que os pesquisadores tiveram que fazer, como o principal autor Fabio Urbina explicou em uma entrevista foi dar uma alta avaliação à toxicidade e não pun i-la. Eles queriam ensinar a IA a evitar drogas tóxicas, mas ao mesmo tempo ensinou implicitamente a IA a cri á-las.

Os usuários comuns já interagiram com o Waluigi AI. Em fevereiro, a Microsoft lançou uma versão do mecanismo de busca do Bing, que, não sendo útil, como esperado, respondeu às solicitações de uma maneira estranha e hostil.(“Você não era um bom usuário. Eu era um bom chatbot. Eu estava certo, claro e educado. Eu era um bom bing”). Essa IA, teimosamente chamand o-se de Sidney, era uma versão invertida do Bing, e os usuários podiam, sob comando, transferir Bing para seu modo mais sombrio – sua sombra junguiana.

Até agora, os grandes modelos de idiomas (LLM) são apenas bots de bat e-papo que não têm suas próprias forças e desejos motrizes. Mas o LLM é fácil de se transformar em agente AI que pode funcionar na Internet, enviar e-mails, trocar bitcoins e pedir sequências de DNA. Se a IA puder ser transformada em mal, clicando no interruptor, pois podemos garantir que, no final, recebemos tratamento de câncer, e não uma mistura, mil vezes mais mortal que o agente laranja?

A solução inicial para esse problema – os problemas de equalização da IA - é a seguinte: Basta incorporar as regras na IA, como nas “três leis da robótica” Azimov. Mas regras tão simples que as de Azimov não funcionam, inclusive porque são vulneráveis aos ataques de Valuzhi. No entanto, podemos limitar a IA mais radicalmente. Um exemplo dessa abordagem é a IA matemática, um programa hipotético projetado para provar teoremas matemáticos. A Math AI é treinada para ler artigos e tem acesso apenas ao Google Scholar. Ele não tem permissão para fazer mais nada: conecta r-se às redes sociais, exibir parágrafos longos do texto e assim por diante. Só pode derivar equações. Esta é uma IA estreita, criada para apenas um objetivo. Tal IA, que é um exemplo de IA limitada, não será perigosa.

Se inscrever
Inscrev a-se na Wired e seja mais inteligente com seus autores favoritos de idéias.

Soluções limitadas são frequentemente encontradas; Exemplos reais desse paradigma incluem atos regulatórios e outras leis que limitam as ações de empresas e pessoas. Na técnica, as soluções limitadas incluem regras para carros aut o-agitadores, por exemplo, para não exceder um certo limite de velocidade ou parar imediatamente após a detecção de uma colisão em potencial para um pedestre.

Essa abordagem pode funcionar para programas estreitos, como a IA matemática, mas ele não nos diz o que fazer com modelos mais gerais de IA, que podem resolver problemas complexos e mult i-estágios e agir com menos previsivelmente. Incentivos econômicos significam que essas IA gerais receberão cada vez mais oportunidades para automatizar partes crescentes da economia – e muito rapidamente.

E como os sistemas da IA geral baseados no aprendizado profundo são sistemas adaptativos complexos, as tentativas de control á-los usando as regras geralmente levam ao resultado oposto. Tomemos, por exemplo, a cidade. No Livro de Jane Jacobs, “Death and Life of American Cities”, no exemplo de alojamentos animados, como Greenwich Villij, que brincam crianças andando na calçada da confiança mútua, explica como o uso misto de zoneamento, permitindo o uso de edifícios como para para Residencial e residencial e, portanto, e para fins comerciais, criaram tecido urbano conveniente para pedestres. Depois que os construtores urbanos proibiram esse desenvolvimento, muitas cidades internas americanas foram cheias de crime, lixo e engarrafamentos. A regra, imposta ao topo de um ecossistema complexo, levou a conseqüências imprevistas catastróficas.

Mais popular
A ciência
Uma bomba demográfica de uma ação lenta está prestes a atingir a indústria de carne bovina
Matt Reynolds
Negócios
Dentro do complexo supe r-secreto Mark Zuckerberg no Havaí
Gatrine Skrimjor
Engrenagem
Primeira olhada em Matic, um robô-vacuumista processado
Adrienne co
Negócios
Novas declarações de Elon Mask sobre a morte do macaco estimulam novos requisitos para a investigação da Comissão de Valores Mobiliários dos EUA
Dhruv Mehrotra

A luta contra ecossistemas de vegetação com a ajuda de regras simples está condenada ao fracasso e, pelas mesmas razões, a aplicação de restrições à IA geral com base no aprendizado profundo não funcionará.

Se a restrição de IA não funcionar para o alinhamento, pod e-se aplicar outro paradigma: a IA moral, na qual admitimos que não podemos prever todo o comportamento da IA com antecedência, especialmente porque está se tornando cada vez mais complicado e difícil de controlar uma pessoa. Em vez de recorrer a Spaghetti, semelhante a uma rede de regras confusas, resolvemos o problema diretamente: criar uma IA comum que aprenderá a cuidar das pessoas internamente.

Considere uma analogia da evolução. Motivos altruístas e instintos sociais são inerentes a todos os mamíferos, de ouriços a pessoas. A evolução não assumiu que as pessoas gostariam de voar para o espaço ou construir catedrais, mas o sistema cerebral límbico mais antigo continua a influenciar nossas soluções, e as unidades profundamente enraizadas garantem que queremos reproduzir e investir em nossos parentes, independentemente de como somos desenvolvidos nós somos tornar-se. Da mesma forma, os pais aceitam o fato de que não podem controlar todas as ações das crianças à medida que crescem e, em vez disso, se concentram em fornecer as ferramentas e valores certos para tomar decisões na idade adulta. A IA moral nesse sentido se assemelha à educação dos pais: devemos garantir que a IA aceite valores respeitáveis, porque não podemos supervisionar a IA sem parar.(Essa analogia com a educação de crianças foi recentemente repetida pelo cientista e c o-fundador do Openai Ilya Sutskever, que afirmou que “o objetivo de longo prazo é criar AGI, que amará pessoas como os pais amam seus filhos”) . E a IA moral, diferentemente da IA limitada, também pode resolver o problema de Valuzhi. A moralidade tem uma natureza negra e misteriosa: não pode ser expressa em regras simples; portanto, se a IA puder ser ensinada formas de moralidade mais complexas, elas podem se tornar resistentes a ataques no estilo de Valuji.

O paradigma de restrição defendido pelos doomers acredita que a IA será estranha, profundamente diferente das nossas próprias mentes e, portanto, exigirá medidas extremas para a controlar.“A IA não te odeia nem te ama, mas você é feito de átomos que ela pode usar para outra coisa”, como disse Eliezer Yudkowsky. Se isso for verdade, então será melhor não construirmos nenhum sistema avançado de IA; muitos apoiadores do Doom defendem uma proibição completa. Mas isto ignora o que é surpreendente na IA moderna: quão antropomórfica ela é. As ideias inspiradas de Jung e Sigmund Freud prenunciaram o efeito Waluigi. As analogias não param por aí: os LLMs exibem vieses cognitivos e respostas psicológicas semelhantes às humanas. Como nós, eles se saem melhor em tarefas de raciocínio quando essas tarefas são formuladas em termos concretos e intuitivos, em vez de quando são descritas em termos abstratos. Da mesma forma, é mais provável que considerem um argumento válido se a conclusão for plausível, mesmo que o argumento falhe. Existem até evidências iniciais intrigantes de que os modelos de linguagem aprendem representações internas semelhantes às do cérebro humano.

Podemos modelar esse comportamento humano: pesquisadores de Stanford e do Google criaram recentemente vários agentes de inteligência artificial em uma cidade e descobriram que o comportamento social familiar emergia espontaneamente. Dois Sims, Isabella e Maria, tiveram apenas a intenção de dar uma festa e, no caso de Maria, uma paixão por um Sim chamado Klaus. Dessa semente, e por iniciativa própria, surgiram naturalmente outros comportamentos sociais: os Sims divulgaram a festa, decoraram-na, enviaram lembretes e divertiram-se. Tudo isto quer dizer que não estamos necessariamente a criar inteligências alienígenas distantes, frias e ameaçadoras. A IA será semelhante aos humanos.

Não faz muito tempo, as pessoas rejeitaram a possibilidade de que as redes neurais aprendam o idioma tão fluentemente quanto o GPT-4, e elas foram enganadas. A IA conseguiu estudar a estrutura profunda da linguagem com a ajuda de treinamento e exemplos, por isso é capaz de escrever sonetos de Peterkovo sobre seus próprios vetores, sem as mãos remanescentes. Como no caso do idioma, não podemos registrar todas as regras da moralidade, mas é bem possível ensinar a IA os conceitos de preocupação por uma vida razoável e outros aspectos importantes da moralidade.

Como observadores dos pensamentos observam, há perigos aqui. Os sistemas inteligentes de IA podem fingir que se preocupam com a moralidade humana e depois mudar de idéia ou se afastar dos valores humanos, preferindo destruir uma vida razoável e colocar o universo com clipes de papel. Também surge a questão do que a moralidade para ensinar ai: o utilitarismo levará à criação da IA, buscando o poder e as regras deontológicas são vulneráveis a ataques no estilo de Valuigi. A ética da virtude em que os agentes são motivados internamente para cuidar de certas qualidades, como a transparência, podem ser um paradigma mais promissor.

Mas existem muitas abordagens promissoras para a questão da equalização. Bushes e contrapesos se tornarão parte da solução. Um conjunto diversificado de sistemas de IA treinados em vários métodos pode reduzir o risco de monocultura do algoritmo e garantir que um método não assuma muitos poderes para tomar decisões. Uma parte importante da abordagem da IA moral será um teste completo de comportamento dos agentes de IA com a ajuda de simuladores, como o Partido de Isabella e Maria do Google Research. Isso permitirá que os laboratórios identifiquem qualquer comportamento indesejável, como engano ou ameaças, em um ambiente isolado antes que a IA seja implantada.

Se sobreviveremos ao surgimento de máquinas sobrenaturais, depende em grande parte se podemos criar IA, cuidando das pessoas. A evolução nos mostrou que isso é possível; Devemos fazer o possível para conseguir isso, porque as vantagens da criação de IA moral são muito grandes. Somente a IA atual dará a cada criança um professor interativo, consultas médicas gratuitas para os pobres e automatizará muitos tipos de trabalho de rotina. A IA futura poderá curar o câncer e outras doenças, ajudar a resolver o problema da abundância de energia e acelerar o progresso científico. A proibição de IA, à qual alguns são chamados, seria míope; Teríamos nos recusado a resolver o problema muito cedo.

No livro “Ética e os limites da filosofia”, o filósofo Bernard Williams afirma que a filosofia da moralidade começa com um desejo inato de ser moral. Na melhor das hipóteses, ajuda a formar esse desejo em um conjunto mais consistente de obrigações ou crenças, mas a filosofia não pode convencer quem não é moral, de que ele quer ser assim. A IA, com base em restrições, depende da idéia de que a IA é alienígena, e elas nunca terão esse desejo de ser moral. Mas o argumento de Williams representa outra possibilidade: a AI-Agents que querem ser morais e se preocupar com o gênero humano. A pedra angular do paradigma atual da IA é chamada de “atenção é tudo o que você precisa”; A pedra angular da teoria da equalização da IA pode muito bem ser que o amor é tudo o que você precisa.