O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. Apesar das reivindicações de um custo de treinamento de US $ 6 milhões para o DeepSeek V3, um visual mais próximo revela um investimento muito mais substancial.
A auto-introdução de Deepseek: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê-lo", destaca sua ambição. Essa IA afetou significativamente o mercado, causando uma grande queda de ações da NVIDIA.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 é a chave para seu desempenho:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente, aumentando a precisão e a velocidade.
- Mistura de especialistas (MOE): Emprega 256 redes neurais, ativando oito para cada token, acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): Extrai repetidamente os principais detalhes, minimizando a perda de informações e aprimorando a compreensão das nuances.
imagem: ensigame.com
No entanto, a semiânica revelou a extensa infraestrutura da Deepseek: aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo unidades H800, H100 e H20) espalhadas por vários data centers. O investimento total do servidor é estimado em US $ 1,6 bilhão, com custos operacionais atingindo US $ 944 milhões.
A Deepseek, uma subsidiária da High-Flyer, possui seus data centers, oferecendo controle e implementação mais rápida da inovação. Seu status autofinanciado aumenta a agilidade. Altos salários (mais de US $ 1,3 milhão anualmente para alguns pesquisadores) atraem os principais talentos chineses.
imagem: ensigame.com
A reivindicação de custo de treinamento de US $ 6 milhões é enganosa, representando apenas o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento total da AI da Deepseek ultrapassa US $ 500 milhões. Sua estrutura enxuta facilita a inovação eficiente.
imagem: ensigame.com
O sucesso da Deepseek mostra o potencial de uma empresa de IA independente bem financiada. No entanto, sua narrativa "econômica" é exagerada; Bilhões em investimento, avanços tecnológicos e uma equipe forte são fatores cruciais. Apesar disso, os custos da Deepseek ainda prejudicam significativamente os concorrentes (por exemplo, US $ 5 milhões por R1 versus US $ 100 milhões para chatgpt4o).