Idiomas generalizados que ainda não podemos traduzir online

Pessoas que falam idiomas ausentes no Google traduzem, a Siri e a Wikipedia enfrentarão crises futuras, o que forçará as organizações humanitárias a procurar uma saída da situação.

A imagem pode conter eletrônica

Salve esta história
Salve esta história

Na era da Internet, quando nos deparamos com uma barreira de idiomas, existem muitos recursos da Internet para resolv ê-lo: aplicação para tradução, sites de dicionário, versão da Wikipedia em outros idiomas, bem como uma opção simples “clique para traduzir”. Mas hoje no mundo existem cerca de 7000 idiomas. Para os 10 melhores, dizem centenas de milhões de pessoas para o terceiro – 1000 ou menos.

Gretchen McCalokh é um lingüista constante. É um dos criadores do podcast Lingthusasm, que diz com entusiasmo a Linguística. Seu livro “Porque Internet: Entendendo as Novas Regras da Linguagem” será lançado em julho de 2019 na Penguin Publishing House.

Mas no meio nebuloso, existem várias centenas de idiomas, que falam milhões de pessoas. Esses idiomas médios ainda são bastante difundidos, mas seu apoio na Internet é muito diferente. Por exemplo, o idioma sueco, no qual dizem 9, 6 milhões de pessoas, a terceira maior Wikipedia com mais de 3 milhões de artigos, suporte no Google Translate, Bing tradutor, Facebook, Siri, Legendas no YouTube e assim por diante. Mas também há Odia, o idioma oficial do Estado de Odisha na Índia, que fala 38 milhões de pessoas e que não está representado no Google tradutor. E Oromo, o idioma, que fala cerca de 34 milhões de pessoas, principalmente na Etiópia, nas quais existem apenas 772 artigos sobre a Wikipedia.

Por que as línguas gregas, tchecas, húngaras e suecas, que falam de 8 a 13 milhões de pessoas, têm o apoio do Google Translate e uma ampla presença na Wikipedia, enquanto idiomas como Bodzhpuri (51 milhões), Fula (24 milhões), Silcheti (11 milhões), Kechua (9 milhões) e Kirundi (9 milhões), definhando na obscuridade tecnológica?

Isto deve-se em parte ao facto de o grego, o checo, o húngaro e o sueco estarem entre as 24 línguas oficiais da União Europeia, o que significa que uma pequena equipa de tradutores traduz todos os anos muitos dos documentos oficiais do Parlamento Europeu. Documentos traduzidos por humanos fornecem uma excelente base para o que os linguistas chamam de corpus paralelo – um grande corpo de texto equivalente, frase por frase, em vários idiomas. Os sistemas de tradução automática usam corpora paralelos para identificar correspondências regulares entre idiomas: se “regering” ou “κυβέρνηση”, “kormány” ou “vláda” ocorrem frequentemente em paralelo com “governo”, então a máquina conclui que essas palavras são equivalentes.

Para que a tradução automática seja suficientemente eficiente, é necessário ter um enorme corpus paralelo para cada idioma. Idealmente, este corpus conteria documentos de uma ampla variedade de géneros: não apenas procedimentos parlamentares, mas também reportagens, romances, guiões de filmes, etc. Uma máquina não será capaz de traduzir bem publicações informais nas redes sociais se apenas tiver sido treinada em documentos legais formais. As ferramentas de tradução já estão a raspar o fundo do poço dos corpora paralelos: em muitas línguas, o maior texto traduzido paralelamente é a Bíblia, levando às circunstâncias peculiares de o Google traduzir sílabas sem sentido em profecias de destruição.

As ferramentas de tradução já estão explorando o fundo do poço dos corpora paralelos: em muitas línguas, o maior texto traduzido paralelamente é a Bíblia.

Além dos documentos da UE, os idiomas suecos, gregos, húngaros e tcheco têm os recursos de idiomas mais ricos criados para séculos uma pessoa. Estes são os idiomas de estados nacionais inteiros, com registros de programas nacionais de televisão e rádio que podem ser usados ​​como base para modelos de texto que se transformam em fala. Suas operadoras têm uma renda tão descartável que força a empresa de mídia a traduzir romances populares e fazer legendas para filmes e programas de televisão estrangeiros. Eles vivem em países nos quais, segundo empresas tecnológicas, seus clientes podem viver ou pelo menos sair de férias, o que significa que vale a pena localizar interfaces e adicion á-las como opções de tradução. Nesses países, existem sistemas de ortografia e dicionários ordenados que podem ser usados ​​para verificar modelos de texto ortográficos e preditivos. Eles têm operadoras de Internet de alto grau que podem participar de projetos como a Wikipedia.(No caso da língua sueca, eles podem até criar um bot para criar automaticamente os artigos básicos da Wikipedia sobre rios, montanhas e outros objetos naturais).

Os recursos do idioma não parecem exatamente assim. As pessoas devem decidir sobre sua criação, e essas pessoas precisam ser alimentadas, regadas, treinar e manter, sejam governos, empresas ou o tipo de riqueza pessoal que permite que as pessoas se envolvam em hobbies intelectuais trabalhosos. A criação de corporações paralelas e outros recursos do idioma leva anos, se é que existe, e custa dezenas de milhões de dólares em cada idioma.

Enquanto isso, sabemos que desastres ocorrem periodicamente no mundo: terremotos, inundações, furacões, ciclones, doenças, fome, incêndios. Alguns deles ocorrerão em áreas onde as pessoas falam em grande linguagem com bons recursos, e as organizações se apressam em seu auxílio. Mas há uma alta probabilidade de que algumas das crises mundiais futuras ocorram em áreas onde as pessoas falam em uma dessas médias, mas pequenos idiomas. Nesses casos, as organizações que prestam assistência e os governos enfrentarão uma barreira do idioma.

Rate article