Skip to main content
DeepSeek V3 é um modelo de linguagem de grande escala que combina eficiência computacional com desempenho de ponta:
  • Arquitetura MoE: Com 671 bilhões de parâmetros totais, apenas 37 bilhões são ativados por token, otimizando o uso de recursos.
  • Multi-Token Prediction (MTP): Permite a geração de múltiplos tokens simultaneamente, acelerando o tempo de inferência.
  • Precisão FP8: Utiliza treinamento em precisão mista FP8, reduzindo o consumo de memória sem comprometer a precisão.
  • Contexto Estendido: Suporta janelas de contexto de até 128.000 tokens, ideal para processamento de documentos longos e conversas complexas.
  • Desempenho Superior: Supera modelos como GPT-4o e Claude 3.5 em benchmarks de raciocínio matemático e geração de código.
  • Custo-Efetivo: Treinado com apenas 2,788 milhões de horas de GPU H800, representando uma fração do custo de modelos concorrentes.
DeepSeek V3 está disponível como código aberto, permitindo integração flexível em diversas aplicações empresariais e de pesquisa.