Deepseek: o perturbador revolucionando a paisagem da IA

Grupo Aipu Waton

Introdução

Ansiedade contínua entre grandes modelos concorrentes, provedores de nuvem competindo pela participação de mercado e fabricantes de chips trabalhadores - o efeito Deepseek persiste.

Quando o festival da primavera chega ao fim, a emoção em torno de Deepseek permanece forte. O feriado recente destacou um senso significativo de concorrência dentro da indústria de tecnologia, com muitos discutindo e analisando esse "peixe -gato". O Vale do Silício está experimentando um senso de crise sem precedentes: os defensores do código aberto estão expressando suas opiniões novamente, e até o OpenAI está realizando se sua estratégia de código fechado foi a melhor escolha. O novo paradigma de custos computacionais mais baixos desencadeou uma reação em cadeia entre gigantes de chips como a NVIDIA, levando a uma recorde de perdas de valor de mercado único na história do mercado de ações dos EUA, enquanto as agências governamentais estão investigando a conformidade dos chips usados ​​pela Deepseek. Em meio a críticas mistas de Deepseek no exterior, internamente, está experimentando um crescimento extraordinário. Após o lançamento do modelo R1, o aplicativo associado viu um aumento no tráfego, indicando que o crescimento dos setores de aplicativos levará o ecossistema geral da IA. O aspecto positivo é que o Deepseek ampliará as possibilidades de aplicação, sugerindo que depender do ChatGPT não será tão caro no futuro. Essa mudança foi refletida nas atividades recentes da OpenAI, incluindo o fornecimento de um modelo de raciocínio chamado O3-mini para usuários livres em resposta ao Deepseek R1, bem como atualizações subsequentes que tornaram a cadeia de pensamento do público o3-mini. Muitos usuários no exterior expressaram gratidão à Deepseek por esses desenvolvimentos, embora essa cadeia de pensamentos sirva como um resumo.

Otimista, é evidente que o Deepseek está unificando jogadores domésticos. Com seu foco na redução dos custos de treinamento, vários fabricantes de chips a montante, provedores de nuvem intermediários e inúmeras startups estão se juntando ativamente ao ecossistema, aumentando a eficiência de custos para usar o modelo Deepseek. De acordo com os artigos da Deepseek, o treinamento completo do modelo V3 requer apenas 2,788 milhões de horas de GPU de H800, e o processo de treinamento é altamente estável. A arquitetura MOE (mistura de especialistas) é crucial para reduzir os custos de pré-treinamento em um fator de dez em comparação com a llama 3 com 405 bilhões de parâmetros. Atualmente, o V3 é o primeiro modelo reconhecido publicamente que demonstra uma escassidade tão alta no MOE. Além disso, o MLA (atenção de várias camadas) funciona sinergicamente, particularmente em aspectos de raciocínio. "Quanto mais escasso o MOE, maior o tamanho do lote necessário durante o raciocínio para utilizar totalmente o poder computacional, com o tamanho do KVCache sendo o principal fator limitante; o MLA reduz significativamente o tamanho do KVCache", observou um pesquisador da tecnologia Chuanjing em uma análise para a revisão da tecnologia de IA. No geral, o sucesso de Deepseek está na combinação de várias tecnologias, não apenas uma. Os especialistas do setor elogiam os recursos de engenharia da equipe Deepseek, observando sua excelência em treinamento paralelo e otimização do operador, alcançando resultados inovadores, refinando todos os detalhes. A abordagem de código aberto da Deepseek alimenta ainda mais o desenvolvimento geral de grandes modelos, e prevê-se que, se modelos semelhantes se expandirem em imagens, vídeos e muito mais, isso estimulará significativamente a demanda em toda a indústria.

Oportunidades para serviços de raciocínio de terceiros

Os dados indicam que, desde o seu lançamento, a DeepSeek acumulou 22,15 milhões de usuários ativos diários (DAU) dentro de apenas 21 dias, alcançando 41,6% da base de usuários do ChatGPT e superando 16,95 milhões de usuários ativos diários de Doubao, tornando-se o aplicativo mais rápido em crescimento globalmente, no topo da Apple Apport em 157 países/regiões. No entanto, enquanto os usuários reuniram -se em massa, os hackers cibernéticos atacam incansavelmente o aplicativo Deepseek, causando uma tensão significativa em seus servidores. Os analistas do setor acreditam que isso se deve parcialmente ao DeepSeek, implantando cartões para treinamento, sem poder computacional suficiente para o raciocínio. Um membro do setor informou a revisão da tecnologia de IA: "Os problemas frequentes do servidor podem ser resolvidos facilmente cobrando taxas ou financiamento para comprar mais máquinas; em última análise, depende das decisões da Deepseek". Isso apresenta um trade-off no foco na tecnologia versus a produção. A Deepseek baseou-se amplamente da quantização quântica para auto-sustento, tendo recebido pouco financiamento externo, resultando em pressão de fluxo de caixa relativamente baixa e em um ambiente tecnológico mais puro. Atualmente, à luz dos problemas acima mencionados, alguns usuários estão instando a VSEAK nas mídias sociais para elevar os limiares de uso ou introduzir recursos pagos para aprimorar o conforto do usuário. Além disso, os desenvolvedores começaram a utilizar a API oficial ou APIs de terceiros para otimização. No entanto, a plataforma aberta da Deepseek anunciou recentemente: "Os recursos atuais do servidor são escassos e as recargas de serviços da API foram suspensas".

 

Isso, sem dúvida, abre mais oportunidades para fornecedores de terceiros no setor de infraestrutura de IA. Recentemente, numerosos gigantes de nuvem nacional e internacional lançaram as APIs de modelo de Deepseek - o Overseas Giants Microsoft e Amazon foram os primeiros a participar no final de janeiro. O líder doméstico, Huawei Cloud, fez o primeiro passo, liberando os serviços de raciocínio Deepseek R1 e V3 em colaboração com o fluxo baseado em silício em 1º de fevereiro. Os relatórios da AI Technology Review indicam que os serviços da Flow de Silicon viram um influxo de usuários, efetivamente "travarem" a plataforma. As três grandes empresas de tecnologia-BAT (Baidu, Alibaba, Tencent) e Bytedance-também emitiram ofertas de baixo custo e tempo limitado a partir de 3 de fevereiro, remanescentes das guerras de preços do vendedor de nuvem do ano passado, inflamadas pelo lançamento do modelo V2 da Deepseek, onde o Deepseek começou a ser apelidado de "Price But" ". As ações frenéticas dos vendedores em nuvem ecoam os fortes laços anteriores entre o Microsoft Azure e o Openai, onde em 2019, a Microsoft fez um investimento substancial de US $ 1 bilhão no OpenAI e colheu benefícios após o lançamento do ChatGPT em 2023. No entanto, esse relacionamento próximo ao Microsoft Afray após a META Open LLLA, com o LLMA de outros vendores. Nesse caso, a Deepseek não apenas superou o ChatGPT em termos de calor do produto, mas também introduziu modelos de código aberto após a liberação do O1, semelhante à emoção em torno do renascimento do GPT-3 pelo Llama.

 

Na realidade, os provedores de nuvem também estão se posicionando como gateways de tráfego para aplicativos de IA, o que significa que o aprofundamento dos laços com os desenvolvedores se traduz em vantagens preventivas. Os relatórios indicam que o Baidu Smart Cloud tinha mais de 15.000 clientes utilizando o modelo Deepseek através da plataforma Qianfan no dia de lançamento do modelo. Além disso, várias empresas menores estão oferecendo soluções, incluindo fluxo baseado em silício, tecnologia Luchen, tecnologia Chuanjing e vários fornecedores de infra-IA que lançaram suporte para modelos DeepSeek. A IA Technology Review aprendeu que as oportunidades de otimização atuais para implantações localizadas da DeepSeek existem principalmente em duas áreas: uma está otimizando para as características da escassez do modelo MOE, usando uma abordagem de raciocínio misto para implantar o modelo MOE de 671 bilhões de parâmetros localmente enquanto utiliza a inferência Hybrid GPU/IPC. Além disso, a otimização do MLA é vital. No entanto, os dois modelos de Deepseek ainda enfrentam alguns desafios na otimização de implantação. "Devido ao tamanho do modelo e aos numerosos parâmetros, a otimização é realmente complexa, principalmente para implantações locais, onde alcançar um equilíbrio ideal entre desempenho e custo será um desafio", afirmou um pesquisador da tecnologia Chuanjing. O obstáculo mais significativo está na superação dos limites da capacidade de memória. "Adotamos uma abordagem de colaboração heterogênea para utilizar totalmente as CPUs e outros recursos computacionais, colocando apenas as partes não compartilhadas da matriz MOE esparsa na CPU/DRAM para processamento usando os operadores de CPU de alto desempenho, enquanto as porções densas permanecem na GPU", explicou-se ainda mais. Os relatórios indicam que a estrutura de código aberto de Chuanjing Ktransformers injeta principalmente várias estratégias e operadores na implementação original dos Transformers através de um modelo, aumentando significativamente a velocidade de inferência usando métodos como o CUDAGRAPH. A Deepseek criou oportunidades para essas startups, pois os benefícios de crescimento estão se tornando aparentes; Muitas empresas relataram crescimento notável do cliente após o lançamento da API Deepseek, recebendo consultas de clientes anteriores que procuram otimizações. Os insiders do setor observaram: "No passado, grupos de clientes um tanto estabelecidos eram frequentemente presos aos serviços padronizados de empresas maiores, fortemente vinculadas por suas vantagens de custo devido à escala. No entanto, após a conclusão da implantação de vários clientes e até os clientes do Festival de Spring, que recebemos repentinamente que recebemos os pedidos de cooperação, e os clientes de contatos anteriores a contaclitá-las. Atualmente, parece que o DeepSeek está tornando o desempenho da inferência do modelo cada vez mais crítico e, com a adoção mais ampla de grandes modelos, isso continuará influenciando significativamente o desenvolvimento na indústria da IA. Se um modelo de nível profundo pudesse ser implantado localmente a um baixo custo, ajudaria muito o governo e os esforços de transformação digital corporativa. No entanto, os desafios persistem, pois alguns clientes podem ter grandes expectativas em relação aos grandes recursos de modelo, tornando mais aparente que o equilíbrio e o custo e o custo se torna vital na implantação prática. 

Para avaliar se o DeepSeek é melhor que o ChatGPT, é essencial entender suas principais diferenças, pontos fortes e casos de uso. Aqui está uma comparação abrangente:

Recurso/aspecto Deepseek Chatgpt
Propriedade Desenvolvido por uma empresa chinesa Desenvolvido por openai
Modelo de origem Código aberto Proprietário
Custo Livre para usar; opções de acesso API mais baratas Preços de assinatura ou uso de pagamento por uso
Personalização Altamente personalizável, permitindo que os usuários ajustem e desenvolvam sobre isso Personalização limitada disponível
Desempenho em tarefas específicas Se destaca em determinadas áreas como análise de dados e recuperação de informações Versátil com forte desempenho em escrita criativa e tarefas de conversação
Suporte ao idioma Forte foco na língua e cultura chinesa Suporte amplo da linguagem, mas centrado nos EUA
Custo de treinamento Custos de treinamento mais baixos, otimizados para eficiência Custos de treinamento mais altos, exigindo recursos computacionais substanciais
Variação de resposta Pode oferecer respostas diferentes, possivelmente influenciadas pelo contexto geopolítico Respostas consistentes com base em dados de treinamento
Público -alvo Destinado a desenvolvedores e pesquisadores que desejam flexibilidade Destinado a usuários em geral que procuram recursos de conversação
Casos de uso Mais eficiente para geração de código e tarefas rápidas Ideal para gerar texto, responder a perguntas e participar do diálogo

Uma perspectiva crítica sobre "interromper a nvidia"

Atualmente, além da Huawei, vários fabricantes de chips domésticos como Moore Threads, Muxi, Biran Technology e Tianxu Zhixin também estão se adaptando aos dois modelos de Deepseek. Um fabricante de chips disse à AI Technology Review: "A estrutura da Deepseek demonstra inovação, mas continua sendo um LLM. Nossa adaptação a Deepseek está focada principalmente no raciocínio, tornando a implementação técnica razoavelmente direta e rápida". No entanto, a abordagem MOE requer maiores demandas em termos de armazenamento e distribuição, juntamente com a garantia de compatibilidade ao implantar com chips domésticos, apresentando vários desafios de engenharia que precisam de resolução durante a adaptação. "Atualmente, o poder computacional doméstico não corresponde à NVIDIA em usabilidade e estabilidade, exigindo participação original de fábrica para configuração do ambiente de software, solução de problemas e otimização de desempenho fundamental", disse um praticante do setor com base na experiência prática. Simultaneamente, "devido à grande escala de parâmetros do Deepseek R1, o poder computacional doméstico exige mais nós para paralelização. Além disso, as especificações domésticas de hardware ainda estão um pouco atrasadas; por exemplo, o Huawei 910b atualmente não pode apoiar a inferência FP8 introduzida pela Deepseek". Um dos destaques do modelo Deepseek V3 é a introdução de uma estrutura de treinamento de precisão mista FP8, que foi validada efetivamente em um modelo extremamente grande, marcando uma conquista significativa. Anteriormente, grandes players como a Microsoft e a NVIDIA sugeriram trabalhos relacionados, mas as dúvidas permanecem no setor em relação à viabilidade. Entende-se que, em comparação com o INT8, a principal vantagem do FP8 é que a quantização pós-treinamento pode atingir uma precisão quase sem perdas, enquanto aumenta significativamente a velocidade de inferência. Ao comparar com o FP16, o FP8 pode realizar até duas vezes a aceleração no H20 da NVIDIA e mais de 1,5 vezes a aceleração no H100. Notavelmente, à medida que as discussões em torno da tendência do poder computacional doméstico, além de modelos domésticos, ganham impulso, a especulação sobre se a NVIDIA poderia ser interrompida e se o fosso Cuda poderia ser contornado, está se tornando cada vez mais prevalente. Um fato inegável é que a Deepseek realmente causou uma queda substancial no valor de mercado da NVIDIA, mas essa mudança levanta questões sobre a integridade do poder computacional de ponta da NVIDIA. As narrativas aceitas anteriormente sobre o acúmulo computacional orientado a capital estão sendo desafiadas, mas permanece difícil para a NVIDIA ser totalmente substituída nos cenários de treinamento. A análise do profundo uso do CUDA de Deepseek mostra que a flexibilidade - como usar o SM para comunicação ou manipular diretamente as cartões de rede - não é viável para as GPUs regulares acomodarem. Os pontos de vista da indústria enfatizam que o fosso da NVIDIA abrange todo o ecossistema CUDA, em vez de apenas o próprio Cuda, e as instruções PTX (Execução de Threads Parallel) que a DeepSeek emprega ainda fazem parte do ecossistema CUDA. "No curto prazo, o poder computacional da NVIDIA não pode ser ignorado - isso é especialmente claro no treinamento; no entanto, a implantação de cartões domésticos para raciocínio será relativamente mais fácil, portanto, o progresso provavelmente será mais rápido. A adaptação dos cartões domésticos se concentra principalmente na inferência; Ninguém ainda conseguiu treinar um modelo de desempenho do Aiek em escala em escala", "uma análise da indústria. No geral, do ponto de vista da inferência, as circunstâncias são encorajadoras para grandes chips de modelo doméstico. As oportunidades para os fabricantes de chips domésticos no campo da inferência são mais evidentes devido aos requisitos excessivamente altos do treinamento, que dificultam a entrada. Os analistas afirmam que simplesmente aproveitar os cartões de inferência doméstica é suficiente; Se necessário, a aquisição de uma máquina adicional é viável, enquanto os modelos de treinamento coloca desafios exclusivos - gerenciar um número aumentado de máquinas pode se tornar onerosa e taxas de erro mais altas podem afetar negativamente os resultados do treinamento. O treinamento também possui requisitos específicos de escala de cluster, enquanto as demandas de clusters de inferência não são tão rigorosas, facilitando assim os requisitos da GPU. Atualmente, o desempenho da carta H20 da NVIDIA não supera a de Huawei ou Cambrian; Sua força está no agrupamento. Com base no impacto geral no mercado de energia computacional, o fundador da tecnologia Luchen, Youn, observou em uma entrevista à AI Technology Review, "o DeepSeek pode minar temporariamente o estabelecimento e o aluguel de um treinamento de TI ultra-grande, com base no mercado de TI, a longo prazo, a demanda por meio de um mercado que se baseia, em que a demanda por meio do mercado, que é possível que o mercado seja submetido a um pouco de atendimento ao longo do mercado. demanda sustentada no mercado de energia computacional ". Além disso, "a maior demanda de Deepseek por serviços de raciocínio e ajuste fino é mais compatível com o cenário computacional doméstico, onde as capacidades locais são relativamente fracas, ajudando a mitigar os resíduos dos recursos ociosos pós-cluster; isso cria oportunidades viáveis ​​para os fabricantes em diferentes níveis do ecossistema computacional doméstico". A Luchen Technology colaborou com a Huawei Cloud para lançar as APIs de raciocínio da série Deepseek R1 e os serviços de imagem em nuvem com base no poder computacional doméstico. Você Yang expressou otimismo sobre o futuro: "A Deepseek incutora confiança nas soluções produzidas no mercado interno, incentivando um maior entusiasmo e investimento em capacidades computacionais domésticas daqui para frente".

微信图片 _20240614024031.jpg1

Conclusão

Se o Deepseek é "melhor" que o ChatGPT depende das necessidades e objetivos específicos do usuário. Para tarefas que precisam de flexibilidade, baixo custo e personalização, a Deepseek pode ser superior. Para redação criativa, investigação geral e interfaces de conversação amigáveis, o ChatGPT pode assumir a liderança. Cada ferramenta serve a propósitos diferentes, portanto a escolha dependerá muito do contexto em que são usados.

Encontre a solução de cabo ELV

Cabos de controle

Para BMS, ônibus, Industrial, Cabo de instrumentação.

Sistema de cabeamento estruturado

Rede e dados, cabo de fibra óptica, cordão de remendo, módulos, painel frontal

2024 Revisão de Exposições e Eventos

16 de abril a 18 de anos, 2024 Ensino do Oriente Médio em Dubai

16 de abril a 18 de ano, 2024 Securika em Moscou

9 de maio, 2024 Novos produtos de lançamento de produtos e tecnologias em Xangai

22 de outubro a 25 de outubro de 2024 Security China em Pequim

9 de novembro a 20 de novembro, 2024 Conecte World KSA


Horário de postagem: fevereiro-10-2025