Valuji, Karl Jung e argumentos a favor da AI moral

Luigi, da Nintendo, tem um alter ego causando caos. A sombra da IA ​​pode estar em risco, mas pode ser recortada.

Imagem de uma caixa Walugi e preta de 8 bits ao lado do gradiente azul embaçado por trás da imagem.< pan> No livro

Salve esta história
Salve esta história

No início do século XX, o psicanalista Karl Jung criou o conceito de sombra – um lado escuro e deprimido da pessoa humana, que pode surgir da maneira mais inesperada. Surpreendentemente, esse tópico é devolvido à esfera da inteligência artificial na forma do “efeito Valuji” – um fenômeno curioso que se refere ao encanador do ego do Alter Dark Luigi do Universo Mario da Nintendo.

Luigi toca de acordo com as regras, e Valuji está trapaceando e organizando o caos. A IA foi criada para procurar drogas para o tratamento de doenças humanas; Sua versão invertida, Valuji, ofereceu moléculas para mais de 40. 000 tipos de armas químicas. Tudo o que os pesquisadores tiveram que fazer, como o principal autor Fabio Urbina explicou em uma entrevista foi dar uma alta avaliação à toxicidade e não pun i-la. Eles queriam ensinar a IA a evitar drogas tóxicas, mas ao mesmo tempo ensinou implicitamente a IA a cri á-las.

Os usuários comuns já interagiram com o Waluigi AI. Em fevereiro, a Microsoft lançou uma versão do mecanismo de busca do Bing, que, não sendo útil, como esperado, respondeu às solicitações de uma maneira estranha e hostil.(“Você não era um bom usuário. Eu era um bom chatbot. Eu estava certo, claro e educado. Eu era um bom bing”). Essa IA, teimosamente chamand o-se de Sidney, era uma versão invertida do Bing, e os usuários podiam, sob comando, transferir Bing para seu modo mais sombrio – sua sombra junguiana.

Até agora, os grandes modelos de idiomas (LLM) são apenas bots de bat e-papo que não têm suas próprias forças e desejos motrizes. Mas o LLM é fácil de se transformar em agente AI que pode funcionar na Internet, enviar e-mails, trocar bitcoins e pedir sequências de DNA. Se a IA puder ser transformada em mal, clicando no interruptor, pois podemos garantir que, no final, recebemos tratamento de câncer, e não uma mistura, mil vezes mais mortal que o agente laranja?

A solução inicial para esse problema – os problemas de equalização da IA ​​- é a seguinte: Basta incorporar as regras na IA, como nas “três leis da robótica” Azimov. Mas regras tão simples que as de Azimov não funcionam, inclusive porque são vulneráveis ​​aos ataques de Valuzhi. No entanto, podemos limitar a IA mais radicalmente. Um exemplo dessa abordagem é a IA matemática, um programa hipotético projetado para provar teoremas matemáticos. A Math AI é treinada para ler artigos e tem acesso apenas ao Google Scholar. Ele não tem permissão para fazer mais nada: conecta r-se às redes sociais, exibir parágrafos longos do texto e assim por diante. Só pode derivar equações. Esta é uma IA estreita, criada para apenas um objetivo. Tal IA, que é um exemplo de IA limitada, não será perigosa.

Se inscrever
Inscrev a-se na Wired e seja mais inteligente com seus autores favoritos de idéias.

Soluções limitadas são frequentemente encontradas; Exemplos reais desse paradigma incluem atos regulatórios e outras leis que limitam as ações de empresas e pessoas. Na técnica, as soluções limitadas incluem regras para carros aut o-agitadores, por exemplo, para não exceder um certo limite de velocidade ou parar imediatamente após a detecção de uma colisão em potencial para um pedestre.

Essa abordagem pode funcionar para programas estreitos, como a IA matemática, mas ele não nos diz o que fazer com modelos mais gerais de IA, que podem resolver problemas complexos e mult i-estágios e agir com menos previsivelmente. Incentivos econômicos significam que essas IA gerais receberão cada vez mais oportunidades para automatizar partes crescentes da economia – e muito rapidamente.

E como os sistemas da IA ​​geral baseados no aprendizado profundo são sistemas adaptativos complexos, as tentativas de control á-los usando as regras geralmente levam ao resultado oposto. Tomemos, por exemplo, a cidade. No Livro de Jane Jacobs, “Death and Life of American Cities”, no exemplo de alojamentos animados, como Greenwich Villij, que brincam crianças andando na calçada da confiança mútua, explica como o uso misto de zoneamento, permitindo o uso de edifícios como para para Residencial e residencial e, portanto, e para fins comerciais, criaram tecido urbano conveniente para pedestres. Depois que os construtores urbanos proibiram esse desenvolvimento, muitas cidades internas americanas foram cheias de crime, lixo e engarrafamentos. A regra, imposta ao topo de um ecossistema complexo, levou a conseqüências imprevistas catastróficas.

Mais popular
A ciência
Uma bomba demográfica de uma ação lenta está prestes a atingir a indústria de carne bovina
Matt Reynolds
Negócios
Dentro do complexo supe r-secreto Mark Zuckerberg no Havaí
Gatrine Skrimjor
Engrenagem
Primeira olhada em Matic, um robô-vacuumista processado
Adrienne co
Negócios
Novas declarações de Elon Mask sobre a morte do macaco estimulam novos requisitos para a investigação da Comissão de Valores Mobiliários dos EUA
Dhruv Mehrotra

A luta contra ecossistemas de vegetação com a ajuda de regras simples está condenada ao fracasso e, pelas mesmas razões, a aplicação de restrições à IA geral com base no aprendizado profundo não funcionará.

Se a restrição de IA não funcionar para o alinhamento, pod e-se aplicar outro paradigma: a IA moral, na qual admitimos que não podemos prever todo o comportamento da IA ​​com antecedência, especialmente porque está se tornando cada vez mais complicado e difícil de controlar uma pessoa. Em vez de recorrer a Spaghetti, semelhante a uma rede de regras confusas, resolvemos o problema diretamente: criar uma IA comum que aprenderá a cuidar das pessoas internamente.

Considere uma analogia da evolução. Motivos altruístas e instintos sociais são inerentes a todos os mamíferos, de ouriços a pessoas. A evolução não assumiu que as pessoas gostariam de voar para o espaço ou construir catedrais, mas o sistema cerebral límbico mais antigo continua a influenciar nossas soluções, e as unidades profundamente enraizadas garantem que queremos reproduzir e investir em nossos parentes, independentemente de como somos desenvolvidos nós somos tornar-se. Da mesma forma, os pais aceitam o fato de que não podem controlar todas as ações das crianças à medida que crescem e, em vez disso, se concentram em fornecer as ferramentas e valores certos para tomar decisões na idade adulta. A IA moral nesse sentido se assemelha à educação dos pais: devemos garantir que a IA aceite valores respeitáveis, porque não podemos supervisionar a IA sem parar.(Essa analogia com a educação de crianças foi recentemente repetida pelo cientista e c o-fundador do Openai Ilya Sutskever, que afirmou que “o objetivo de longo prazo é criar AGI, que amará pessoas como os pais amam seus filhos”) . E a IA moral, diferentemente da IA ​​limitada, também pode resolver o problema de Valuzhi. A moralidade tem uma natureza negra e misteriosa: não pode ser expressa em regras simples; portanto, se a IA puder ser ensinada formas de moralidade mais complexas, elas podem se tornar resistentes a ataques no estilo de Valuji.

O paradigma de restrição defendido pelos doomers acredita que a IA será estranha, profundamente diferente das nossas próprias mentes e, portanto, exigirá medidas extremas para a controlar.“A IA não te odeia nem te ama, mas você é feito de átomos que ela pode usar para outra coisa”, como disse Eliezer Yudkowsky. Se isso for verdade, então será melhor não construirmos nenhum sistema avançado de IA; muitos apoiadores do Doom defendem uma proibição completa. Mas isto ignora o que é surpreendente na IA moderna: quão antropomórfica ela é. As ideias inspiradas de Jung e Sigmund Freud prenunciaram o efeito Waluigi. As analogias não param por aí: os LLMs exibem vieses cognitivos e respostas psicológicas semelhantes às humanas. Como nós, eles se saem melhor em tarefas de raciocínio quando essas tarefas são formuladas em termos concretos e intuitivos, em vez de quando são descritas em termos abstratos. Da mesma forma, é mais provável que considerem um argumento válido se a conclusão for plausível, mesmo que o argumento falhe. Existem até evidências iniciais intrigantes de que os modelos de linguagem aprendem representações internas semelhantes às do cérebro humano.

Mais popular
A ciência
Uma bomba demográfica de uma ação lenta está prestes a atingir a indústria de carne bovina
Matt Reynolds
Negócios
Dentro do complexo supe r-secreto Mark Zuckerberg no Havaí
Gatrine Skrimjor
Engrenagem
Primeira olhada em Matic, um robô-vacuumista processado
Adrienne co
Negócios
Novas declarações de Elon Mask sobre a morte do macaco estimulam novos requisitos para a investigação da Comissão de Valores Mobiliários dos EUA
Dhruv Mehrotra

Podemos modelar esse comportamento humano: pesquisadores de Stanford e do Google criaram recentemente vários agentes de inteligência artificial em uma cidade e descobriram que o comportamento social familiar emergia espontaneamente. Dois Sims, Isabella e Maria, tiveram apenas a intenção de dar uma festa e, no caso de Maria, uma paixão por um Sim chamado Klaus. Dessa semente, e por iniciativa própria, surgiram naturalmente outros comportamentos sociais: os Sims divulgaram a festa, decoraram-na, enviaram lembretes e divertiram-se. Tudo isto quer dizer que não estamos necessariamente a criar inteligências alienígenas distantes, frias e ameaçadoras. A IA será semelhante aos humanos.

Não faz muito tempo, as pessoas rejeitaram a possibilidade de que as redes neurais aprendam o idioma tão fluentemente quanto o GPT-4, e elas foram enganadas. A IA conseguiu estudar a estrutura profunda da linguagem com a ajuda de treinamento e exemplos, por isso é capaz de escrever sonetos de Peterkovo sobre seus próprios vetores, sem as mãos remanescentes. Como no caso do idioma, não podemos registrar todas as regras da moralidade, mas é bem possível ensinar a IA os conceitos de preocupação por uma vida razoável e outros aspectos importantes da moralidade.

Como observadores dos pensamentos observam, há perigos aqui. Os sistemas inteligentes de IA podem fingir que se preocupam com a moralidade humana e depois mudar de idéia ou se afastar dos valores humanos, preferindo destruir uma vida razoável e colocar o universo com clipes de papel. Também surge a questão do que a moralidade para ensinar ai: o utilitarismo levará à criação da IA, buscando o poder e as regras deontológicas são vulneráveis ​​a ataques no estilo de Valuigi. A ética da virtude em que os agentes são motivados internamente para cuidar de certas qualidades, como a transparência, podem ser um paradigma mais promissor.

Mas existem muitas abordagens promissoras para a questão da equalização. Bushes e contrapesos se tornarão parte da solução. Um conjunto diversificado de sistemas de IA treinados em vários métodos pode reduzir o risco de monocultura do algoritmo e garantir que um método não assuma muitos poderes para tomar decisões. Uma parte importante da abordagem da IA ​​moral será um teste completo de comportamento dos agentes de IA com a ajuda de simuladores, como o Partido de Isabella e Maria do Google Research. Isso permitirá que os laboratórios identifiquem qualquer comportamento indesejável, como engano ou ameaças, em um ambiente isolado antes que a IA seja implantada.

Se sobreviveremos ao surgimento de máquinas sobrenaturais, depende em grande parte se podemos criar IA, cuidando das pessoas. A evolução nos mostrou que isso é possível; Devemos fazer o possível para conseguir isso, porque as vantagens da criação de IA moral são muito grandes. Somente a IA atual dará a cada criança um professor interativo, consultas médicas gratuitas para os pobres e automatizará muitos tipos de trabalho de rotina. A IA futura poderá curar o câncer e outras doenças, ajudar a resolver o problema da abundância de energia e acelerar o progresso científico. A proibição de IA, à qual alguns são chamados, seria míope; Teríamos nos recusado a resolver o problema muito cedo.

No livro “Ética e os limites da filosofia”, o filósofo Bernard Williams afirma que a filosofia da moralidade começa com um desejo inato de ser moral. Na melhor das hipóteses, ajuda a formar esse desejo em um conjunto mais consistente de obrigações ou crenças, mas a filosofia não pode convencer quem não é moral, de que ele quer ser assim. A IA, com base em restrições, depende da idéia de que a IA é alienígena, e elas nunca terão esse desejo de ser moral. Mas o argumento de Williams representa outra possibilidade: a AI-Agents que querem ser morais e se preocupar com o gênero humano. A pedra angular do paradigma atual da IA ​​é chamada de “atenção é tudo o que você precisa”; A pedra angular da teoria da equalização da IA ​​pode muito bem ser que o amor é tudo o que você precisa.

Rate article