DeepSeek: O Disruptivo Revolucionando o Cenário da IA

GRUPO AIPU WATON

Introdução

Ansiedade constante entre grandes modelos concorrentes, provedores de nuvem competindo por participação de mercado e fabricantes de chips que trabalham duro — o efeito DeepSeek persiste.

Com o fim do Festival da Primavera, a empolgação em torno do DeepSeek continua forte. O feriado recente destacou um significativo senso de competição dentro da indústria de tecnologia, com muitos discutindo e analisando esse "catfish". O Vale do Silício está vivenciando uma crise sem precedentes: defensores do código aberto estão expressando suas opiniões novamente, e até mesmo a OpenAI está reavaliando se sua estratégia de código fechado foi a melhor escolha. O novo paradigma de custos computacionais mais baixos desencadeou uma reação em cadeia entre gigantes de chips como a Nvidia, levando a perdas recordes de valor de mercado em um único dia na história do mercado de ações dos EUA, enquanto agências governamentais investigam a conformidade dos chips usados ​​pelo DeepSeek. Em meio a avaliações mistas do DeepSeek no exterior, internamente, ele está experimentando um crescimento extraordinário. Após o lançamento do modelo R1, o aplicativo associado teve um aumento no tráfego, indicando que o crescimento nos setores de aplicativos impulsionará o ecossistema geral de IA. O aspecto positivo é que o DeepSeek ampliará as possibilidades de aplicativos, sugerindo que confiar no ChatGPT não será tão caro no futuro. Essa mudança se refletiu nas atividades recentes da OpenAI, incluindo o fornecimento de um modelo de raciocínio chamado o3-mini para usuários gratuitos em resposta ao DeepSeek R1, bem como atualizações subsequentes que tornaram pública a cadeia de pensamento do o3-mini. Muitos usuários estrangeiros expressaram gratidão ao DeepSeek por esses desenvolvimentos, embora esta cadeia de pensamento sirva como um resumo.

Com otimismo, é evidente que o DeepSeek está unificando os players nacionais. Com foco na redução dos custos de treinamento, diversos fabricantes de chips upstream, provedores intermediários de nuvem e inúmeras startups estão aderindo ativamente ao ecossistema, aumentando a eficiência de custos para o uso do modelo DeepSeek. De acordo com os artigos do DeepSeek, o treinamento completo do modelo V3 requer apenas 2,788 milhões de horas de GPU H800, e o processo de treinamento é altamente estável. A arquitetura MoE (Mixture of Experts) é crucial para reduzir os custos de pré-treinamento em dez vezes em comparação com o Llama 3, com 405 bilhões de parâmetros. Atualmente, o V3 é o primeiro modelo reconhecido publicamente a demonstrar tamanha dispersão em MoE. Além disso, o MLA (Multi Layer Attention) funciona sinergicamente, particularmente em aspectos de raciocínio. "Quanto mais esparso o MoE, maior o tamanho do lote necessário durante o raciocínio para utilizar totalmente o poder computacional, sendo o tamanho do KVCache o principal fator limitante; o MLA reduz significativamente o tamanho do KVCache", observou um pesquisador da Chuanjing Technology em uma análise para a AI Technology Review. No geral, o sucesso do DeepSeek reside na combinação de várias tecnologias, não apenas de uma única. Especialistas do setor elogiam as capacidades de engenharia da equipe do DeepSeek, destacando sua excelência em treinamento paralelo e otimização de operadores, alcançando resultados inovadores ao refinar cada detalhe. A abordagem de código aberto do DeepSeek impulsiona ainda mais o desenvolvimento geral de modelos de grande porte, e prevê-se que, se modelos semelhantes se expandirem para imagens, vídeos e muito mais, isso estimulará significativamente a demanda em todo o setor.

Oportunidades para serviços de raciocínio de terceiros

Dados indicam que, desde o seu lançamento, o DeepSeek acumulou 22,15 milhões de usuários ativos diários (DAU) em apenas 21 dias, alcançando 41,6% da base de usuários do ChatGPT e ultrapassando os 16,95 milhões de usuários ativos diários do Doubao, tornando-se assim o aplicativo de crescimento mais rápido globalmente, liderando a App Store da Apple em 157 países/regiões. No entanto, enquanto os usuários afluíam em massa, os hackers cibernéticos têm atacado implacavelmente o aplicativo DeepSeek, causando uma sobrecarga significativa em seus servidores. Analistas do setor acreditam que isso se deve, em parte, ao fato de o DeepSeek implementar cartões para treinamento, sem ter poder computacional suficiente para o raciocínio. Uma fonte do setor informou à AI Technology Review: "Os problemas frequentes com os servidores podem ser resolvidos facilmente cobrando taxas ou financiando a compra de mais máquinas; em última análise, depende das decisões do DeepSeek". Isso representa uma compensação entre o foco em tecnologia e a produtização. O DeepSeek tem se baseado amplamente na quantização quântica para sua autossuficiência, tendo recebido pouco financiamento externo, o que resultou em uma pressão de fluxo de caixa relativamente baixa e um ambiente tecnológico mais puro. Atualmente, diante dos problemas mencionados, alguns usuários estão incentivando o DeepSeek nas redes sociais a elevar os limites de uso ou a introduzir recursos pagos para aumentar o conforto do usuário. Além disso, os desenvolvedores começaram a utilizar a API oficial ou APIs de terceiros para otimização. No entanto, a plataforma aberta do DeepSeek anunciou recentemente: "Os recursos atuais do servidor são escassos e as recargas de serviços da API foram suspensas".

 

Isso, sem dúvida, abre mais oportunidades para fornecedores terceirizados no setor de infraestrutura de IA. Recentemente, diversas gigantes nacionais e internacionais da nuvem lançaram as APIs do modelo DeepSeek — as gigantes estrangeiras Microsoft e Amazon estavam entre as primeiras a aderir no final de janeiro. A líder nacional, Huawei Cloud, deu o primeiro passo, lançando os serviços de raciocínio DeepSeek R1 e V3 em colaboração com a Flow, sediada em silício, em 1º de fevereiro. Relatórios da AI Technology Review indicam que os serviços da Flow, sediada em silício, tiveram um influxo de usuários, efetivamente "travando" a plataforma. As três grandes empresas de tecnologia — BAT (Baidu, Alibaba, Tencent) e ByteDance — também lançaram ofertas de baixo custo e por tempo limitado a partir de 3 de fevereiro, uma reminiscência da guerra de preços entre fornecedores de nuvem do ano passado, desencadeada pelo lançamento do modelo V2 da DeepSeek, onde a DeepSeek começou a ser apelidada de "açougueira de preços". As ações frenéticas dos fornecedores de nuvem ecoam os fortes laços anteriores entre o Microsoft Azure e o OpenAI, onde, em 2019, a Microsoft fez um investimento substancial de US$ 1 bilhão no OpenAI e colheu benefícios após o lançamento do ChatGPT em 2023. No entanto, essa relação próxima começou a se deteriorar depois que a Meta tornou o Llama de código aberto, permitindo que outros fornecedores fora do ecossistema do Microsoft Azure competissem com seus modelos de grande porte. Nesse caso, o DeepSeek não apenas ultrapassou o ChatGPT em termos de produto, como também introduziu modelos de código aberto após o lançamento do o1, semelhante ao entusiasmo em torno da retomada do GPT-3 pelo Llama.

 

Na realidade, os provedores de nuvem também estão se posicionando como gateways de tráfego para aplicativos de IA, o que significa que o aprofundamento dos laços com os desenvolvedores se traduz em vantagens preventivas. Relatórios indicam que a Baidu Smart Cloud tinha mais de 15.000 clientes utilizando o modelo DeepSeek por meio da plataforma Qianfan no dia do lançamento do modelo. Além disso, várias empresas menores estão oferecendo soluções, incluindo a Flow baseada em silício, a Luchen Technology, a Chuanjing Technology e vários provedores de infraestrutura de IA que lançaram suporte para modelos DeepSeek. A AI Technology Review descobriu que as oportunidades atuais de otimização para implantações localizadas do DeepSeek existem principalmente em duas áreas: uma é a otimização para as características de dispersão do modelo MoE usando uma abordagem de raciocínio misto para implantar o modelo MoE de 671 bilhões de parâmetros localmente, utilizando inferência híbrida de GPU/CPU. Além disso, a otimização do MLA é vital. No entanto, os dois modelos do DeepSeek ainda enfrentam alguns desafios na otimização da implantação. "Devido ao tamanho do modelo e aos inúmeros parâmetros, a otimização é de fato complexa, especialmente para implantações locais, onde alcançar um equilíbrio ideal entre desempenho e custo será desafiador", afirmou um pesquisador da Chuanjing Technology. O maior obstáculo reside na superação dos limites de capacidade de memória. "Adotamos uma abordagem de colaboração heterogênea para utilizar totalmente as CPUs e outros recursos computacionais, colocando apenas as partes não compartilhadas da matriz MoE esparsa na CPU/DRAM para processamento usando operadores de CPU de alto desempenho, enquanto as partes densas permanecem na GPU", explicou ele. Relatórios indicam que o framework de código aberto KTransformers da Chuanjing injeta principalmente várias estratégias e operadores na implementação original do Transformers por meio de um modelo, aumentando significativamente a velocidade de inferência usando métodos como CUDAGraph. O DeepSeek criou oportunidades para essas startups, à medida que os benefícios do crescimento se tornam aparentes; muitas empresas relataram um crescimento notável de clientes após o lançamento da API DeepSeek, recebendo consultas de clientes anteriores em busca de otimizações. Especialistas do setor observaram: "No passado, grupos de clientes relativamente consolidados eram frequentemente limitados aos serviços padronizados de empresas maiores, fortemente limitados por suas vantagens de custo devido à escala. No entanto, após concluir a implantação do DeepSeek-R1/V3 antes do Festival da Primavera, recebemos repentinamente solicitações de cooperação de vários clientes conhecidos, e até mesmo clientes anteriormente inativos iniciaram contato para apresentar nossos serviços DeepSeek." Atualmente, parece que o DeepSeek está tornando o desempenho da inferência de modelos cada vez mais crítico e, com a adoção mais ampla de modelos de grande porte, isso continuará a influenciar significativamente o desenvolvimento do setor de infraestrutura de IA. Se um modelo no nível do DeepSeek pudesse ser implantado localmente a um baixo custo, isso auxiliaria significativamente os esforços de transformação digital de governos e empresas. No entanto, os desafios persistem, pois alguns clientes podem ter grandes expectativas em relação aos recursos de modelos de grande porte, tornando mais evidente que o equilíbrio entre desempenho e custo se torna vital na implantação prática. 

Para avaliar se o DeepSeek é melhor que o ChatGPT, é essencial entender suas principais diferenças, pontos fortes e casos de uso. Aqui está uma comparação abrangente:

Característica/Aspecto Busca Profunda ChatGPT
Propriedade Desenvolvido por uma empresa chinesa Desenvolvido pela OpenAI
Modelo de origem Código aberto Proprietário
Custo Uso gratuito; opções de acesso à API mais baratas Preços de assinatura ou pagamento por uso
Personalização Altamente personalizável, permitindo que os usuários o ajustem e desenvolvam Personalização limitada disponível
Desempenho em Tarefas Específicas Destaca-se em certas áreas, como análise de dados e recuperação de informações Versátil, com forte desempenho em tarefas de escrita criativa e conversação
Suporte de idioma Forte foco na língua e cultura chinesas Amplo suporte a idiomas, mas centrado nos EUA
Custo de treinamento Custos de treinamento mais baixos, otimizados para eficiência Custos de treinamento mais elevados, exigindo recursos computacionais substanciais
Variação de resposta Pode oferecer respostas diferentes, possivelmente influenciadas pelo contexto geopolítico Respostas consistentes baseadas em dados de treinamento
Público-alvo Destinado a desenvolvedores e pesquisadores que desejam flexibilidade Destinado a usuários em geral que buscam recursos de conversação
Casos de uso Mais eficiente para geração de código e tarefas rápidas Ideal para gerar texto, responder perguntas e dialogar

Uma Perspectiva Crítica sobre "Interromper a Nvidia"

Atualmente, além da Huawei, vários fabricantes nacionais de chips, como Moore Threads, Muxi, Biran Technology e Tianxu Zhixin, também estão se adaptando aos dois modelos do DeepSeek. Um fabricante de chips declarou à AI Technology Review: "A estrutura do DeepSeek demonstra inovação, mas continua sendo um LLM. Nossa adaptação ao DeepSeek concentra-se principalmente em aplicações de raciocínio, tornando a implementação técnica bastante simples e rápida". No entanto, a abordagem MoE exige maiores demandas em termos de armazenamento e distribuição, além de garantir a compatibilidade na implantação com chips nacionais, apresentando inúmeros desafios de engenharia que precisam ser resolvidos durante a adaptação. "Atualmente, o poder computacional nacional não se compara ao da Nvidia em usabilidade e estabilidade, exigindo a participação da fábrica original para configuração do ambiente de software, solução de problemas e otimização fundamental do desempenho", afirmou um profissional do setor com base em sua experiência prática. Ao mesmo tempo, "devido à grande escala de parâmetros do DeepSeek R1, o poder computacional nacional necessita de mais nós para paralelização. Além disso, as especificações de hardware nacionais ainda estão um pouco defasadas; por exemplo, o Huawei 910B atualmente não suporta a inferência FP8 introduzida pelo DeepSeek". Um dos destaques do modelo DeepSeek V3 é a introdução de uma estrutura de treinamento de precisão mista FP8, que foi validada efetivamente em um modelo extremamente grande, marcando uma conquista significativa. Anteriormente, grandes players como Microsoft e Nvidia sugeriram trabalhos relacionados, mas ainda há dúvidas na indústria quanto à sua viabilidade. Entende-se que, em comparação com o INT8, a principal vantagem do FP8 é que a quantização pós-treinamento pode atingir uma precisão quase sem perdas, ao mesmo tempo em que melhora significativamente a velocidade de inferência. Em comparação com o FP16, o FP8 pode atingir uma aceleração de até duas vezes no H20 da Nvidia e mais de 1,5 vez no H100. Notavelmente, à medida que as discussões em torno da tendência de potência computacional doméstica, somadas aos modelos nacionais, ganham força, a especulação sobre se a Nvidia poderia ser interrompida e se o fosso CUDA poderia ser contornado está se tornando cada vez mais prevalente. Um fato inegável é que o DeepSeek de fato causou uma queda substancial no valor de mercado da Nvidia, mas essa mudança levanta questões sobre a integridade da potência computacional de ponta da Nvidia. Narrativas anteriormente aceitas sobre acumulação computacional orientada por capital estão sendo questionadas, mas continua difícil para a Nvidia ser totalmente substituída em cenários de treinamento. A análise do uso intensivo de CUDA pela DeepSeek mostra que a flexibilidade — como usar SM para comunicação ou manipular diretamente placas de rede — não é viável para GPUs comuns. Pontos de vista da indústria enfatizam que o fosso da Nvidia abrange todo o ecossistema CUDA, e não apenas o próprio CUDA, e as instruções PTX (Parallel Thread Execution) que a DeepSeek emprega ainda fazem parte do ecossistema CUDA. "No curto prazo, o poder computacional da Nvidia não pode ser ignorado — isso fica especialmente claro no treinamento; no entanto, a implantação de placas domésticas para raciocínio será relativamente mais fácil, então o progresso provavelmente será mais rápido. A adaptação de placas domésticas concentra-se principalmente na inferência; ninguém ainda conseguiu treinar um modelo do desempenho da DeepSeek em placas domésticas em escala", comentou um analista da indústria à AI Technology Review. No geral, do ponto de vista da inferência, as circunstâncias são encorajadoras para chips de grande porte domésticos. As oportunidades para fabricantes nacionais de chips no âmbito da inferência são mais evidentes devido aos requisitos excessivamente altos do treinamento, que dificultam a entrada. Analistas afirmam que simplesmente utilizar placas de inferência nacionais é suficiente; se necessário, adquirir uma máquina adicional é viável, enquanto os modelos de treinamento apresentam desafios únicos — gerenciar um número maior de máquinas pode se tornar oneroso e taxas de erro mais altas podem impactar negativamente os resultados do treinamento. O treinamento também possui requisitos específicos de escala de cluster, enquanto as demandas sobre clusters para inferência não são tão rigorosas, facilitando assim os requisitos de GPU. Atualmente, o desempenho da placa H20 da Nvidia não supera o da Huawei ou da Cambrian; sua força reside no clustering. Com base no impacto geral no mercado de poder computacional, o fundador da Luchen Technology, You Yang, observou em entrevista à AI Technology Review: "O DeepSeek pode prejudicar temporariamente o estabelecimento e o aluguel de clusters computacionais de treinamento ultragrandes. A longo prazo, ao reduzir significativamente os custos associados ao treinamento, raciocínio e aplicações de grandes modelos, a demanda do mercado provavelmente aumentará. Iterações subsequentes de IA baseadas nisso, portanto, impulsionarão continuamente a demanda sustentada no mercado de poder computacional." Além disso, "a crescente demanda da DeepSeek por serviços de raciocínio e ajuste fino é mais compatível com o cenário computacional doméstico, onde as capacidades locais são relativamente fracas, ajudando a mitigar o desperdício de recursos ociosos após o estabelecimento do cluster; isso cria oportunidades viáveis ​​para fabricantes em diferentes níveis do ecossistema computacional doméstico." A Luchen Technology colaborou com a Huawei Cloud para lançar as APIs de raciocínio da série DeepSeek R1 e serviços de geração de imagens em nuvem baseados em poder computacional doméstico. You Yang expressou otimismo sobre o futuro: "O DeepSeek inspira confiança em soluções produzidas internamente, incentivando maior entusiasmo e investimento em capacidades computacionais nacionais no futuro."

微信图片_20240614024031.jpg1

Conclusão

Se o DeepSeek é "melhor" que o ChatGPT depende das necessidades e objetivos específicos do usuário. Para tarefas que exigem flexibilidade, baixo custo e personalização, o DeepSeek pode ser superior. Para escrita criativa, consultas gerais e interfaces de conversação amigáveis, o ChatGPT pode assumir a liderança. Cada ferramenta atende a propósitos diferentes, portanto, a escolha dependerá muito do contexto em que são utilizadas.

Encontre a solução de cabo ELV

Cabos de controle

Para BMS, BUS, Industrial, Cabo de Instrumentação.

Sistema de Cabeamento Estruturado

Rede e dados, cabo de fibra óptica, patch cord, módulos, painel frontal

Revisão de Exposições e Eventos de 2024

16 a 18 de abril de 2024 Middle-East-Energy em Dubai

16 a 18 de abril de 2024 Securika em Moscou

9 de maio de 2024 EVENTO DE LANÇAMENTO DE NOVOS PRODUTOS E TECNOLOGIAS em Xangai

22 a 25 de outubro de 2024 SEGURANÇA CHINA em Pequim

19 a 20 de novembro de 2024 MUNDO CONECTADO KSA


Horário da publicação: 10 de fevereiro de 2025