- Arquitetura MoE: Com 671 bilhões de parâmetros totais, apenas 37 bilhões são ativados por token, otimizando o uso de recursos.
- Multi-Token Prediction (MTP): Permite a geração de múltiplos tokens simultaneamente, acelerando o tempo de inferência.
- Precisão FP8: Utiliza treinamento em precisão mista FP8, reduzindo o consumo de memória sem comprometer a precisão.
- Contexto Estendido: Suporta janelas de contexto de até 128.000 tokens, ideal para processamento de documentos longos e conversas complexas.
- Desempenho Superior: Supera modelos como GPT-4o e Claude 3.5 em benchmarks de raciocínio matemático e geração de código.
- Custo-Efetivo: Treinado com apenas 2,788 milhões de horas de GPU H800, representando uma fração do custo de modelos concorrentes.
Models
DeepSeek V3
DeepSeek V3 é um modelo de IA de código aberto com arquitetura Mixture-of-Experts, oferecendo desempenho excepcional em tarefas de linguagem natural, código e matemática.
DeepSeek V3 é um modelo de linguagem de grande escala que combina eficiência computacional com desempenho de ponta:

