Testando o “mais inteligente do mundo” Grok3

Grupo Aipu Waton (1)

Introdução

Você acha que o Grok3 será o "ponto final" dos modelos pré-treinados?

Elon Musk e a equipe XAI lançaram oficialmente a versão mais recente de Grok, Grok3, durante uma transmissão ao vivo. Antes deste evento, uma quantidade significativa de informações relacionadas, juntamente com o hype promocional 24/7 de Musk, aumentou as expectativas globais para que o GROK3 com níveis sem precedentes. Apenas uma semana atrás, Musk declarou com confiança durante uma transmissão ao vivo enquanto comentava o Deepseek R1: "Xai está prestes a lançar um modelo melhor de IA". A partir dos dados apresentados ao vivo, o GROK3 supostamente superou todos os modelos atuais de mainstream em benchmarks para matemática, ciência e programação, com Musk até alegando que o GROK3 será usado para tarefas computacionais relacionadas às missões da SpaceX, prevendo "avanços no nível do Prêmio Nobel em três anos" "". No entanto, essas são atualmente apenas afirmações de Musk. Após o lançamento, testei a versão beta mais recente do Grok3 e fiz a pergunta clássica de truques para modelos grandes: "que é maior, 9.11 ou 9.9?" Lamentavelmente, sem qualificadores ou marcas, o chamado Grok3 mais inteligente ainda não pôde responder a essa pergunta corretamente. Grok3 não conseguiu identificar com precisão o significado da questão.

 

Este teste chamou rapidamente uma atenção considerável de muitos amigos e, coincidentemente, vários testes semelhantes no exterior mostraram Grok3 lutando com questões básicas de física/matemática como "Qual bola cai primeiro da torre inclinada de Pisa?" Assim, tem sido rotulado com humor como "um gênio que não está disposto a responder a perguntas simples".

640

Grok3 é bom, mas não é melhor que R1 ou O1-Pro.

O GROK3 experimentou "falhas" em muitos testes de conhecimento comum na prática. Durante o evento de lançamento do XAI, Musk demonstrou usar o GROK3 para analisar as classes e efeitos de personagens do caminho do jogo do Exile 2, que ele alegava jogar com frequência, mas a maioria das respostas fornecidas pelo GROK3 estava incorreta. Musk durante a transmissão ao vivo não percebeu essa questão óbvia.

 

Esse erro não apenas forneceu mais evidências para os internautas estrangeiros zombarem de Musk por "encontrar um substituto" nos jogos, mas também levantaram preocupações significativas com relação à confiabilidade do GROK3 em aplicações práticas. Para tal "gênio", independentemente de suas capacidades reais, sua confiabilidade em cenários de aplicação extremamente complexos, como tarefas de exploração de Marte, permanece em dúvida.

 

Atualmente, muitos testadores que receberam acesso a Grok3 semanas atrás, e aqueles que acabaram de testar os recursos do modelo por algumas horas ontem, todos apontam para uma conclusão comum: "Grok3 é bom, mas não é melhor que R1 ou O1-Pro".

640 (1)

Uma perspectiva crítica sobre "interromper a nvidia"

No PPT oficialmente apresentado durante o lançamento, o GROK3 mostrou-se "muito à frente" na arena do chatbot, mas essas técnicas gráficas de maneira inteligente usou: o eixo vertical na tabela de classificação listou apenas os resultados listados na faixa de 1400-1300, fazendo com que a diferença original de 1% nos resultados dos testes apareça excepcionalmente nessa apresentação.

640

Nos resultados reais de pontuação do modelo, o GROK3 está apenas 1-2% à frente de Deepseek R1 e GPT-4.0, o que corresponde a experiências de muitos usuários em testes práticos que encontraram "nenhuma diferença notável". A GROK3 excede apenas seus sucessores em 1%a 2%.

640

Embora o GROK3 tenha pontuado mais alto do que todos os modelos publicamente testados publicamente, muitos não levam isso a sério: afinal, Xai foi criticado anteriormente por "manipulação de pontuação" na era Grok2. À medida que a tabela de classificação penalizou o estilo de comprimento da resposta, as pontuações diminuíram bastante, levando os especialistas do setor a criticar frequentemente o fenômeno da "alta capacidade de pontuação, mas baixa habilidade".

 

Seja através da tabela de classificação "manipulação" ou truques de design em ilustrações, eles revelam a obsessão de Xai e Musk pela noção de "liderar o pacote" nas capacidades do modelo. Musk pagou um preço íngreme por essas margens: durante o lançamento, ele se gabava de usar 200.000 GPUs H100 (alegando "mais de 100.000" durante a transmissão ao vivo) e alcançar um tempo total de treinamento de 200 milhões de horas. Isso levou alguns a acreditar que representa outro benefício significativo para a indústria da GPU e a considerar o impacto de Deepseek no setor como "tolo". Notavelmente, alguns acreditam que o poder computacional será o futuro do treinamento modelo.

 

No entanto, alguns internautas compararam o consumo de GPUs de 2000 H800 em dois meses para produzir V3 Deepseek, calculando que o consumo real de energia de treinamento do GROK3 é 263 vezes o de V3. A diferença entre o Deepseek V3, que marcou 1402 pontos, e Grok3 é pouco menos de 100 pontos. Após o lançamento desses dados, muitos rapidamente perceberam que, por trás do título de Grok3, como o "mais forte" do mundo ", existe um claro efeito marginal da utilidade - a lógica de modelos maiores que geram desempenho mais forte começou a mostrar retornos decrescentes.

640 (2)

Mesmo com "alta capacidade, mas baixa habilidade", o GROK2 possuía grandes quantidades de dados de primeira parte de alta qualidade da plataforma X (Twitter) para suportar o uso. No entanto, no treinamento do GROK3, XAI encontrou naturalmente o "teto" que o OpenAi atualmente enfrenta - a falta de dados de treinamento premium expõe rapidamente a utilidade marginal das capacidades do modelo.

 

Os desenvolvedores de Grok3 e Musk são provavelmente os primeiros a entender e identificar profundamente esses fatos, e é por isso que Musk mencionou continuamente nas mídias sociais que os usuários da versão estão experimentando agora é "ainda apenas a versão beta" e que "a versão completa será lançada nos próximos meses". Musk assumiu o papel de gerente de produto da GROK3, sugerindo que os usuários fornecem feedback sobre vários problemas encontrados na seção de comentários.

 

No entanto, em um dia, o desempenho de Grok3, sem dúvida, levantou alarmes para aqueles que esperam confiar no "músculo computacional maciço" para treinar modelos grandes mais fortes: com base em informações publicamente disponíveis na Microsoft, o GPT-4 do OpenAI tem um tamanho de parâmetro de 1,8 trilhão de parâmetros, mais de dez vezes o do GPT-3. Os rumores sugerem que o tamanho do parâmetro do GPT-4.5 pode ser ainda maior.

 

À medida que os tamanhos dos parâmetros do modelo aumentam, os custos de treinamento também estão disparando. Com a presença do GROK3, os candidatos como o GPT-4.5 e outros que desejam continuar “queimando dinheiro” para alcançar um melhor desempenho do modelo através do tamanho do parâmetro devem considerar o teto que agora está claramente à vista e contemplar como superá-lo. Nesse momento, Ilya Sutskever, ex-cientista-chefe do Openai, havia declarado anteriormente em dezembro passado: "O pré-treinamento com o qual estamos familiarizados chegará ao fim", que ressurgiu em discussões, levando esforços para encontrar o verdadeiro caminho para o treinamento de grandes modelos.

640 (3)

O ponto de vista de Ilya soou o alarme no setor. Ele previu com precisão a exaustão iminente de novos dados acessíveis, levando a uma situação em que o desempenho não pode continuar sendo aprimorado através da aquisição de dados, comparando -os à exaustão de combustíveis fósseis. Ele indicou que "como petróleo, conteúdo gerado pelo ser humano na Internet é um recurso limitado". Nas previsões de Sutskever, a próxima geração de modelos, pós-treinamento, possuirá "verdadeira autonomia" e capacidades de raciocínio "semelhantes ao cérebro humano".

 

Ao contrário dos modelos pré-treinados de hoje que dependem principalmente da correspondência de conteúdo (com base no conteúdo do modelo aprendido anteriormente), os sistemas futuros de IA poderão aprender e estabelecer metodologias para resolver problemas de maneira semelhante ao "pensamento" do cérebro humano. Um humano pode alcançar proficiência fundamental em um assunto com apenas literatura profissional básica, enquanto um modelo grande de IA exige milhões de pontos de dados para atingir apenas a eficácia mais básica de nível básico. Mesmo quando a redação é alterada ligeiramente, essas questões fundamentais podem não ser entendidas corretamente, ilustrando que o modelo não melhorou genuinamente na inteligência: as perguntas básicas e insolúveis mencionadas no início do artigo representam um exemplo claro desse fenômeno.

微信图片 _20240614024031.jpg1

Conclusão

No entanto, além da força bruta, se o Grok3 realmente conseguir revelar ao setor que "modelos pré-treinados estão se aproximando do seu fim", isso levaria implicações significativas para o campo.

Talvez depois que o frenesi em torno do Grok3 diminua gradualmente, testemunhamos mais casos como o exemplo de Fei-FEI Li de "ajustar modelos de alto desempenho em um conjunto de dados específico por apenas US $ 50", descobrindo o verdadeiro caminho para a AGI.

Encontre a solução de cabo ELV

Cabos de controle

Para BMS, ônibus, Industrial, Cabo de instrumentação.

Sistema de cabeamento estruturado

Rede e dados, cabo de fibra óptica, cordão de remendo, módulos, painel frontal

2024 Revisão de Exposições e Eventos

16 de abril a 18 de anos, 2024 Ensino do Oriente Médio em Dubai

16 de abril a 18 de ano, 2024 Securika em Moscou

9 de maio, 2024 Novos produtos de lançamento de produtos e tecnologias em Xangai

22 de outubro a 25 de outubro de 2024 Security China em Pequim

9 de novembro a 20 de novembro, 2024 Conecte World KSA


Horário de postagem: fevereiro-19-2025