DeepSeek V3 é um modelo de linguagem de grande escala que combina eficiência computacional com desempenho de ponta:Documentation Index
Fetch the complete documentation index at: https://docs.muffinscorp.com/llms.txt
Use this file to discover all available pages before exploring further.
- Arquitetura MoE: Com 671 bilhões de parâmetros totais, apenas 37 bilhões são ativados por token, otimizando o uso de recursos.
- Multi-Token Prediction (MTP): Permite a geração de múltiplos tokens simultaneamente, acelerando o tempo de inferência.
- Precisão FP8: Utiliza treinamento em precisão mista FP8, reduzindo o consumo de memória sem comprometer a precisão.
- Contexto Estendido: Suporta janelas de contexto de até 128.000 tokens, ideal para processamento de documentos longos e conversas complexas.
- Desempenho Superior: Supera modelos como GPT-4o e Claude 3.5 em benchmarks de raciocínio matemático e geração de código.
- Custo-Efetivo: Treinado com apenas 2,788 milhões de horas de GPU H800, representando uma fração do custo de modelos concorrentes.

