Testando o Grok3 “Mais Inteligente do Mundo”

GRUPO AIPU WATON (1)

Introdução

Você acha que o Grok3 será o "ponto final" dos modelos pré-treinados?

Elon Musk e a equipe da xAI lançaram oficialmente a versão mais recente do Grok, o Grok3, durante uma transmissão ao vivo. Antes do evento, uma quantidade significativa de informações relacionadas, somada ao hype promocional 24 horas por dia, 7 dias por semana, de Musk, elevou as expectativas globais para o Grok3 a níveis sem precedentes. Há apenas uma semana, Musk declarou com confiança durante uma transmissão ao vivo, ao comentar sobre o DeepSeek R1: "O xAI está prestes a lançar um modelo de IA melhor". A partir dos dados apresentados ao vivo, o Grok3 supostamente superou todos os modelos convencionais atuais em benchmarks de matemática, ciência e programação, com Musk chegando a afirmar que o Grok3 será usado para tarefas computacionais relacionadas às missões da SpaceX a Marte, prevendo "avanços ao nível do Prêmio Nobel dentro de três anos". No entanto, essas são apenas afirmações de Musk por enquanto. Após o lançamento, testei a versão beta mais recente do Grok3 e fiz a clássica pergunta capciosa para modelos grandes: "Qual é maior, 9,11 ou 9,9?" Infelizmente, sem quaisquer qualificadores ou marcações, o chamado Grok3 mais inteligente ainda não conseguiu responder a esta pergunta corretamente. Grok3 não conseguiu identificar com precisão o significado da pergunta.

 

Este teste rapidamente atraiu considerável atenção de muitos amigos e, coincidentemente, vários testes semelhantes no exterior mostraram Grok3 com dificuldades em questões básicas de física/matemática, como "Qual bola cai primeiro da Torre de Pisa?". Por isso, ele foi rotulado com humor como "um gênio que não quer responder a perguntas simples".

640

Grok3 é bom, mas não é melhor que R1 ou o1-Pro.

Na prática, Grok3 apresentou "falhas" em muitos testes de conhecimento comum. Durante o evento de lançamento do xAI, Musk demonstrou o uso do Grok3 para analisar as classes de personagens e os efeitos do jogo Path of Exile 2, que ele afirmava jogar com frequência, mas a maioria das respostas fornecidas por Grok3 estava incorreta. Musk não percebeu esse problema óbvio durante a transmissão ao vivo.

 

Esse erro não só forneceu mais evidências para internautas estrangeiros zombarem de Musk por "encontrar um substituto" nos jogos, como também levantou preocupações significativas quanto à confiabilidade do Grok3 em aplicações práticas. Para tal "gênio", independentemente de suas capacidades reais, sua confiabilidade em cenários de aplicação extremamente complexos, como tarefas de exploração de Marte, permanece em dúvida.

 

Atualmente, muitos testadores que receberam acesso ao Grok3 semanas atrás, e aqueles que testaram os recursos do modelo por algumas horas ontem, todos apontam para uma conclusão comum: "O Grok3 é bom, mas não é melhor que o R1 ou o o1-Pro".

640 (1)

Uma Perspectiva Crítica sobre "Interromper a Nvidia"

No PPT apresentado oficialmente durante o lançamento, o Grok3 mostrou estar "muito à frente" na Chatbot Arena, mas ele usou técnicas gráficas de forma inteligente: o eixo vertical na tabela de classificação listou apenas resultados na faixa de pontuação de 1400-1300, fazendo com que a diferença original de 1% nos resultados do teste parecesse excepcionalmente significativa nesta apresentação.

640

Nos resultados reais de pontuação do modelo, o Grok3 está apenas 1% a 2% à frente do DeepSeek R1 e do GPT-4.0, o que corresponde às experiências de muitos usuários em testes práticos que não encontraram "nenhuma diferença perceptível". O Grok3 supera seus sucessores em apenas 1% a 2%.

640

Embora o Grok3 tenha obtido uma pontuação mais alta do que todos os modelos testados publicamente atualmente, muitos não levam isso a sério: afinal, o xAI já foi criticado por "manipulação de pontuação" na era Grok2. Como a tabela de classificação penalizou o estilo de resposta, as pontuações diminuíram significativamente, levando especialistas do setor a frequentemente criticar o fenômeno de "pontuação alta, mas baixa capacidade".

 

Seja por meio de "manipulação" de tabelas de classificação ou truques de design em ilustrações, eles revelam a obsessão da xAI e de Musk com a noção de "liderar o grupo" em recursos de modelos. Musk pagou um preço alto por essas margens: durante o lançamento, ele se gabou de usar 200.000 GPUs H100 (alegando "mais de 100.000" durante a transmissão ao vivo) e atingir um tempo total de treinamento de 200 milhões de horas. Isso levou alguns a acreditar que representa mais um avanço significativo para a indústria de GPUs e a considerar o impacto do DeepSeek no setor como "tolo". Notavelmente, alguns acreditam que o poder computacional absoluto será o futuro do treinamento de modelos.

 

No entanto, alguns internautas compararam o consumo de 2.000 GPUs H800 ao longo de dois meses para produzir o DeepSeek V3, calculando que o consumo real de energia de treinamento do Grok3 é 263 vezes maior que o do V3. A diferença entre o DeepSeek V3, que marcou 1.402 pontos, e o Grok3 é de pouco menos de 100 pontos. Após a divulgação desses dados, muitos perceberam rapidamente que por trás do título do Grok3 como "o mais forte do mundo" existe um claro efeito de utilidade marginal — a lógica de modelos maiores gerando desempenho mais forte começou a apresentar retornos decrescentes.

640 (2)

Mesmo com "alta pontuação, mas baixa capacidade", o Grok2 contava com vastas quantidades de dados próprios de alta qualidade da plataforma X (Twitter) para dar suporte ao uso. No entanto, no treinamento do Grok3, o xAI naturalmente encontrou o "teto" que o OpenAI enfrenta atualmente — a falta de dados de treinamento premium expõe rapidamente a utilidade marginal das capacidades do modelo.

 

Os desenvolvedores do Grok3 e Musk são provavelmente os primeiros a compreender e identificar esses fatos profundamente, e é por isso que Musk tem mencionado constantemente nas redes sociais que a versão que os usuários estão experimentando agora "ainda é apenas o beta" e que "a versão completa será lançada nos próximos meses". Musk assumiu o papel de gerente de produto do Grok3, sugerindo que os usuários forneçam feedback sobre vários problemas encontrados na seção de comentários. Ele pode ser o gerente de produto mais seguido do planeta.

 

No entanto, em apenas um dia, o desempenho do Grok3 sem dúvida alertou aqueles que esperavam contar com "grande força computacional" para treinar modelos grandes e mais robustos: com base em informações públicas da Microsoft, o GPT-4 da OpenAI tem um tamanho de parâmetros de 1,8 trilhão, mais de dez vezes o do GPT-3. Rumores sugerem que o tamanho dos parâmetros do GPT-4.5 pode ser ainda maior.

 

À medida que os tamanhos dos parâmetros do modelo aumentam, os custos de treinamento também disparam. Com a presença do Grok3, concorrentes como o GPT-4.5 e outros que desejam continuar "queimando dinheiro" para alcançar melhor desempenho do modelo por meio do tamanho dos parâmetros devem considerar o teto que agora está claramente à vista e refletir sobre como superá-lo. Neste momento, Ilya Sutskever, ex-cientista-chefe da OpenAI, havia declarado em dezembro passado: "O pré-treinamento com o qual estamos familiarizados chegará ao fim", o que ressurgiu nas discussões, estimulando esforços para encontrar o verdadeiro caminho para o treinamento de grandes modelos.

640 (3)

O ponto de vista de Ilya soou o alarme na indústria. Ele previu com precisão o esgotamento iminente dos novos dados acessíveis, levando a uma situação em que o desempenho não poderá mais ser aprimorado por meio da aquisição de dados, comparando-o ao esgotamento dos combustíveis fósseis. Ele indicou que "assim como o petróleo, o conteúdo gerado por humanos na internet é um recurso limitado". Nas previsões de Sutskever, a próxima geração de modelos, após o pré-treinamento, possuirá "verdadeira autonomia" e capacidades de raciocínio "semelhantes às do cérebro humano".

 

Ao contrário dos modelos pré-treinados atuais, que dependem principalmente da correspondência de conteúdo (com base no conteúdo do modelo previamente aprendido), os futuros sistemas de IA serão capazes de aprender e estabelecer metodologias para resolver problemas de maneira semelhante ao "pensamento" do cérebro humano. Um ser humano pode atingir proficiência fundamental em um assunto com apenas literatura profissional básica, enquanto um modelo de IA de grande porte requer milhões de pontos de dados para atingir apenas a eficácia mais básica de nível básico. Mesmo com pequenas alterações na formulação, essas questões fundamentais podem não ser compreendidas corretamente, ilustrando que o modelo não melhorou genuinamente em inteligência: as questões básicas, porém insolúveis, mencionadas no início do artigo representam um exemplo claro desse fenômeno.

微信图片_20240614024031.jpg1

Conclusão

Entretanto, além da força bruta, se o Grok3 realmente conseguir revelar à indústria que "os modelos pré-treinados estão chegando ao fim", isso terá implicações significativas para o campo.

Talvez depois que o frenesi em torno do Grok3 diminuir gradualmente, testemunharemos mais casos como o exemplo de Fei-Fei Li de "ajustar modelos de alto desempenho em um conjunto de dados específico por apenas US$ 50", descobrindo, finalmente, o verdadeiro caminho para a AGI.

Encontre a solução de cabo ELV

Cabos de controle

Para BMS, BUS, Industrial, Cabo de Instrumentação.

Sistema de Cabeamento Estruturado

Rede e dados, cabo de fibra óptica, patch cord, módulos, painel frontal

Revisão de Exposições e Eventos de 2024

16 a 18 de abril de 2024 Middle-East-Energy em Dubai

16 a 18 de abril de 2024 Securika em Moscou

9 de maio de 2024 EVENTO DE LANÇAMENTO DE NOVOS PRODUTOS E TECNOLOGIAS em Xangai

22 a 25 de outubro de 2024 SEGURANÇA CHINA em Pequim

19 a 20 de novembro de 2024 MUNDO CONECTADO KSA


Data de publicação: 19 de fevereiro de 2025