Inesperadamente, ainda hoje, o ChatGPT ainda cometerá erros de baixo nível?
God Wu Enda apontou isso na última aula:
ChatGPT não inverte palavras!
Por exemplo, deixe-o inverter a palavra pirulito e a saída é pilollol, o que é completamente confuso.
Oh, isso é realmente um pouco arregalado.
Tanto que depois que os internautas que assistiram à aula postaram no Reddit, eles imediatamente atraíram um grande número de curiosos, e a popularidade das postagens disparou para 6k.
E este não é um bug acidental. Os internautas descobriram que o ChatGPT é realmente incapaz de concluir esta tarefa, e o resultado do nosso teste pessoal é o mesmo.
△ ChatGPT medido (GPT-3.5)
Nem mesmo muitos produtos, incluindo Bard, Bing e Wenxin Yiyan.
△ Bardo Medido
△Testar o coração e a mente de uma palavra
Algumas pessoas seguiram e reclamaram que o ChatGPT é péssimo em lidar com essas tarefas simples de palavras.
Por exemplo, jogar Wordle, o popular jogo de palavras anteriormente, foi um desastre e nunca foi bem feito.
Eh? Por que?
A chave é o token
A razão para esse fenômeno está no token. Tokens são as sequências de caracteres mais comuns em texto, e modelos grandes usam tokens para processar texto.
Pode ser uma palavra inteira ou um fragmento de uma palavra. O modelo grande entende a relação estatística entre esses tokens e é bom para gerar o próximo token.
Portanto, ao lidar com a pequena tarefa de inversão de palavras, ele pode apenas virar cada token, não a letra.
Isso é ainda mais óbvio no contexto chinês: uma palavra é um símbolo ou uma palavra é um símbolo.
Para o exemplo inicial, alguém tentou entender o processo de raciocínio do ChatGPT.
Para uma compreensão mais intuitiva, a OpenAI até lançou um Tokenizer GPT-3.
Por exemplo, para a palavra pirulito, o GPT-3 irá entendê-la em três partes: I, oll, ipop.
De acordo com a conclusão da experiência, essas regras não escritas nasceram.
1 token ≈ 4 caracteres em inglês ≈ 3/4 palavras;
100 fichas ≈ 75 palavras;
1-2 sentenças ≈ 30 fichas;
Um parágrafo ≈ 100 tokens, 1500 palavras ≈ 2048 tokens;
Como as palavras são divididas também depende do idioma. De acordo com estatísticas anteriores, o número de tokens usados em chinês é 1,2 a 2,7 vezes maior que o do inglês.
Quanto maior a proporção de token para char (token para palavra), maior será o custo de processamento. Portanto, o processamento de tokenize chinês é mais caro que o inglês.
Pode-se entender que token é o caminho para o grande modelo entender o mundo real dos seres humanos. É muito simples e também reduz bastante a complexidade de memória e tempo.
No entanto, há um problema com a tokenização de palavras, o que tornará difícil para o modelo aprender representações de entrada significativas.A representação mais intuitiva é que ele não consegue entender o significado das palavras.
Naquela época, os Transformers foram otimizados de acordo. Por exemplo, uma palavra complexa e incomum foi dividida em um token significativo e um token independente.
Assim como annoyingly é dividido em "annoying" e "ly", o primeiro mantém sua semântica, enquanto o último aparece com frequência.
Isso também contribuiu para os efeitos impressionantes do ChatGPT e de outros produtos de modelo em grande escala hoje, que podem entender muito bem a linguagem humana.
Quanto a uma tarefa tão pequena como incapaz de lidar com a inversão de palavras, há naturalmente uma solução.
A maneira mais simples e direta é separar as palavras sozinho~
Ou você pode deixar o ChatGPT passo a passo, primeiro tokenizar cada letra.
Ou deixe-o escrever um programa que inverta as letras e, em seguida, o resultado do programa estará correto. (cabeça de cachorro)
No entanto, o GPT-4 também pode ser usado e não há esse problema na medição real.
△ Medido GPT-4
Em suma, o token é a pedra angular para a IA entender a linguagem natural.
Como uma ponte para a IA entender a linguagem natural humana, a importância do token está se tornando cada vez mais óbvia.
Tornou-se um fator determinante do desempenho dos modelos de IA e também é um padrão de faturamento para modelos grandes.
tem até literatura simbólica
Como mencionado acima, o token pode facilitar o modelo para capturar informações semânticas ** mais refinadas **, como significado da palavra, ordem das palavras, estrutura gramatical, etc. Sua ordem e posição são cruciais em tarefas de modelagem de sequência, como modelagem de linguagem, tradução automática, geração de texto, etc.
Somente quando o modelo entender com precisão a posição e o contexto de cada token na sequência, ele poderá prever melhor o conteúdo e fornecer uma saída razoável.
Portanto, a qualidade e a quantidade do token têm impacto direto no efeito do modelo.
Desde o início deste ano, quando mais e mais modelos grandes são lançados, o número de tokens será enfatizado. Por exemplo, conforme mencionado nos detalhes de exposição do Google PaLM 2, ele usa 3,6 trilhões de tokens para treinamento.
E muitos figurões da indústria também disseram que o token é realmente a chave!
Andrej Karpathy, um cientista de IA que saltou de Tesla para OpenAI este ano, disse em seu discurso:
Mais tokens podem fazer o modelo pensar melhor.
E enfatizou que o desempenho do modelo não é determinado apenas pelo tamanho dos parâmetros.
Por exemplo, a escala de parâmetros do LLaMA é muito menor que a do GPT-3 (65B vs 175B), mas como usa mais tokens para treinamento (1,4T vs 300B), o LLaMA é mais poderoso.
E em virtude de seu impacto direto no desempenho do modelo, token também é o padrão de cobrança para modelos de IA.
Tome como exemplo o padrão de preços da OpenAI. Eles faturam em unidades de tokens de 1 K. Diferentes modelos e diferentes tipos de tokens têm preços diferentes.
Resumindo, depois de entrar no portão do campo de modelo grande de IA, você descobrirá que o token é um ponto de conhecimento inevitável.
Bem, até gerou literatura simbólica...
No entanto, vale ressaltar que o que o token deve ser traduzido no mundo chinês ainda não foi totalmente determinado.
A tradução literal de "token" é sempre um pouco estranha.
O GPT-4 acha melhor chamá-lo de "elemento de palavra" ou "token", o que você acha?
Link de referência:
[1]
[2]
[3]
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
A aula ChatGPT de Wu Enda explodiu: IA desistiu de escrever palavras ao contrário, mas entendeu o mundo inteiro
Fonte: Qubit See More
Inesperadamente, ainda hoje, o ChatGPT ainda cometerá erros de baixo nível?
God Wu Enda apontou isso na última aula:
Por exemplo, deixe-o inverter a palavra pirulito e a saída é pilollol, o que é completamente confuso.
Tanto que depois que os internautas que assistiram à aula postaram no Reddit, eles imediatamente atraíram um grande número de curiosos, e a popularidade das postagens disparou para 6k.
Nem mesmo muitos produtos, incluindo Bard, Bing e Wenxin Yiyan.
Algumas pessoas seguiram e reclamaram que o ChatGPT é péssimo em lidar com essas tarefas simples de palavras.
Por exemplo, jogar Wordle, o popular jogo de palavras anteriormente, foi um desastre e nunca foi bem feito.
A chave é o token
A razão para esse fenômeno está no token. Tokens são as sequências de caracteres mais comuns em texto, e modelos grandes usam tokens para processar texto.
Pode ser uma palavra inteira ou um fragmento de uma palavra. O modelo grande entende a relação estatística entre esses tokens e é bom para gerar o próximo token.
Portanto, ao lidar com a pequena tarefa de inversão de palavras, ele pode apenas virar cada token, não a letra.
De acordo com a conclusão da experiência, essas regras não escritas nasceram.
Como as palavras são divididas também depende do idioma. De acordo com estatísticas anteriores, o número de tokens usados em chinês é 1,2 a 2,7 vezes maior que o do inglês.
Pode-se entender que token é o caminho para o grande modelo entender o mundo real dos seres humanos. É muito simples e também reduz bastante a complexidade de memória e tempo.
No entanto, há um problema com a tokenização de palavras, o que tornará difícil para o modelo aprender representações de entrada significativas.A representação mais intuitiva é que ele não consegue entender o significado das palavras.
Naquela época, os Transformers foram otimizados de acordo. Por exemplo, uma palavra complexa e incomum foi dividida em um token significativo e um token independente.
Assim como annoyingly é dividido em "annoying" e "ly", o primeiro mantém sua semântica, enquanto o último aparece com frequência.
Isso também contribuiu para os efeitos impressionantes do ChatGPT e de outros produtos de modelo em grande escala hoje, que podem entender muito bem a linguagem humana.
Quanto a uma tarefa tão pequena como incapaz de lidar com a inversão de palavras, há naturalmente uma solução.
A maneira mais simples e direta é separar as palavras sozinho~
Em suma, o token é a pedra angular para a IA entender a linguagem natural.
Como uma ponte para a IA entender a linguagem natural humana, a importância do token está se tornando cada vez mais óbvia.
Tornou-se um fator determinante do desempenho dos modelos de IA e também é um padrão de faturamento para modelos grandes.
tem até literatura simbólica
Como mencionado acima, o token pode facilitar o modelo para capturar informações semânticas ** mais refinadas **, como significado da palavra, ordem das palavras, estrutura gramatical, etc. Sua ordem e posição são cruciais em tarefas de modelagem de sequência, como modelagem de linguagem, tradução automática, geração de texto, etc.
Somente quando o modelo entender com precisão a posição e o contexto de cada token na sequência, ele poderá prever melhor o conteúdo e fornecer uma saída razoável.
Portanto, a qualidade e a quantidade do token têm impacto direto no efeito do modelo.
Desde o início deste ano, quando mais e mais modelos grandes são lançados, o número de tokens será enfatizado. Por exemplo, conforme mencionado nos detalhes de exposição do Google PaLM 2, ele usa 3,6 trilhões de tokens para treinamento.
E muitos figurões da indústria também disseram que o token é realmente a chave!
Andrej Karpathy, um cientista de IA que saltou de Tesla para OpenAI este ano, disse em seu discurso:
Por exemplo, a escala de parâmetros do LLaMA é muito menor que a do GPT-3 (65B vs 175B), mas como usa mais tokens para treinamento (1,4T vs 300B), o LLaMA é mais poderoso.
Tome como exemplo o padrão de preços da OpenAI. Eles faturam em unidades de tokens de 1 K. Diferentes modelos e diferentes tipos de tokens têm preços diferentes.
Bem, até gerou literatura simbólica...
A tradução literal de "token" é sempre um pouco estranha.
O GPT-4 acha melhor chamá-lo de "elemento de palavra" ou "token", o que você acha?