A aula ChatGPT de Wu Enda explodiu: IA desistiu de escrever palavras ao contrário, mas entendeu o mundo inteiro

Fonte: Qubit See More

Inesperadamente, ainda hoje, o ChatGPT ainda cometerá erros de baixo nível?

God Wu Enda apontou isso na última aula:

ChatGPT não inverte palavras!

Por exemplo, deixe-o inverter a palavra pirulito e a saída é pilollol, o que é completamente confuso.

Oh, isso é realmente um pouco arregalado.

Tanto que depois que os internautas que assistiram à aula postaram no Reddit, eles imediatamente atraíram um grande número de curiosos, e a popularidade das postagens disparou para 6k.

E este não é um bug acidental. Os internautas descobriram que o ChatGPT é realmente incapaz de concluir esta tarefa, e o resultado do nosso teste pessoal é o mesmo.

△ ChatGPT medido (GPT-3.5)

Nem mesmo muitos produtos, incluindo Bard, Bing e Wenxin Yiyan.

△ Bardo Medido

△Testar o coração e a mente de uma palavra

Algumas pessoas seguiram e reclamaram que o ChatGPT é péssimo em lidar com essas tarefas simples de palavras.

Por exemplo, jogar Wordle, o popular jogo de palavras anteriormente, foi um desastre e nunca foi bem feito.

Eh? Por que?

A chave é o token

A razão para esse fenômeno está no token. Tokens são as sequências de caracteres mais comuns em texto, e modelos grandes usam tokens para processar texto.

Pode ser uma palavra inteira ou um fragmento de uma palavra. O modelo grande entende a relação estatística entre esses tokens e é bom para gerar o próximo token.

Portanto, ao lidar com a pequena tarefa de inversão de palavras, ele pode apenas virar cada token, não a letra.

Isso é ainda mais óbvio no contexto chinês: uma palavra é um símbolo ou uma palavra é um símbolo.

Para o exemplo inicial, alguém tentou entender o processo de raciocínio do ChatGPT.

Para uma compreensão mais intuitiva, a OpenAI até lançou um Tokenizer GPT-3.

Por exemplo, para a palavra pirulito, o GPT-3 irá entendê-la em três partes: I, oll, ipop.

De acordo com a conclusão da experiência, essas regras não escritas nasceram.

  • 1 token ≈ 4 caracteres em inglês ≈ 3/4 palavras;
  • 100 fichas ≈ 75 palavras;
  • 1-2 sentenças ≈ 30 fichas;
  • Um parágrafo ≈ 100 tokens, 1500 palavras ≈ 2048 tokens;

Como as palavras são divididas também depende do idioma. De acordo com estatísticas anteriores, o número de tokens usados em chinês é 1,2 a 2,7 vezes maior que o do inglês.

Quanto maior a proporção de token para char (token para palavra), maior será o custo de processamento. Portanto, o processamento de tokenize chinês é mais caro que o inglês.

Pode-se entender que token é o caminho para o grande modelo entender o mundo real dos seres humanos. É muito simples e também reduz bastante a complexidade de memória e tempo.

No entanto, há um problema com a tokenização de palavras, o que tornará difícil para o modelo aprender representações de entrada significativas.A representação mais intuitiva é que ele não consegue entender o significado das palavras.

Naquela época, os Transformers foram otimizados de acordo. Por exemplo, uma palavra complexa e incomum foi dividida em um token significativo e um token independente.

Assim como annoyingly é dividido em "annoying" e "ly", o primeiro mantém sua semântica, enquanto o último aparece com frequência.

Isso também contribuiu para os efeitos impressionantes do ChatGPT e de outros produtos de modelo em grande escala hoje, que podem entender muito bem a linguagem humana.

Quanto a uma tarefa tão pequena como incapaz de lidar com a inversão de palavras, há naturalmente uma solução.

A maneira mais simples e direta é separar as palavras sozinho~

Ou você pode deixar o ChatGPT passo a passo, primeiro tokenizar cada letra.

Ou deixe-o escrever um programa que inverta as letras e, em seguida, o resultado do programa estará correto. (cabeça de cachorro)

No entanto, o GPT-4 também pode ser usado e não há esse problema na medição real.

△ Medido GPT-4

Em suma, o token é a pedra angular para a IA entender a linguagem natural.

Como uma ponte para a IA entender a linguagem natural humana, a importância do token está se tornando cada vez mais óbvia.

Tornou-se um fator determinante do desempenho dos modelos de IA e também é um padrão de faturamento para modelos grandes.

tem até literatura simbólica

Como mencionado acima, o token pode facilitar o modelo para capturar informações semânticas ** mais refinadas **, como significado da palavra, ordem das palavras, estrutura gramatical, etc. Sua ordem e posição são cruciais em tarefas de modelagem de sequência, como modelagem de linguagem, tradução automática, geração de texto, etc.

Somente quando o modelo entender com precisão a posição e o contexto de cada token na sequência, ele poderá prever melhor o conteúdo e fornecer uma saída razoável.

Portanto, a qualidade e a quantidade do token têm impacto direto no efeito do modelo.

Desde o início deste ano, quando mais e mais modelos grandes são lançados, o número de tokens será enfatizado. Por exemplo, conforme mencionado nos detalhes de exposição do Google PaLM 2, ele usa 3,6 trilhões de tokens para treinamento.

E muitos figurões da indústria também disseram que o token é realmente a chave!

Andrej Karpathy, um cientista de IA que saltou de Tesla para OpenAI este ano, disse em seu discurso:

Mais tokens podem fazer o modelo pensar melhor.

E enfatizou que o desempenho do modelo não é determinado apenas pelo tamanho dos parâmetros.

Por exemplo, a escala de parâmetros do LLaMA é muito menor que a do GPT-3 (65B vs 175B), mas como usa mais tokens para treinamento (1,4T vs 300B), o LLaMA é mais poderoso.

E em virtude de seu impacto direto no desempenho do modelo, token também é o padrão de cobrança para modelos de IA.

Tome como exemplo o padrão de preços da OpenAI. Eles faturam em unidades de tokens de 1 K. Diferentes modelos e diferentes tipos de tokens têm preços diferentes.

Resumindo, depois de entrar no portão do campo de modelo grande de IA, você descobrirá que o token é um ponto de conhecimento inevitável.

Bem, até gerou literatura simbólica...

No entanto, vale ressaltar que o que o token deve ser traduzido no mundo chinês ainda não foi totalmente determinado.

A tradução literal de "token" é sempre um pouco estranha.

O GPT-4 acha melhor chamá-lo de "elemento de palavra" ou "token", o que você acha?

Link de referência: [1] [2] [3]

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)