Revisão Técnica do Artigo DeepSeek-R1: Redefinindo a IA de Raciocínio

1. Introdução e Impressões Gerais

O DeepSeek-R1 chamou a atenção por sua nova abordagem ao treinamento de grandes modelos de linguagem (LLMs). Comparado ao seu antecessor, DeepSeek-V3, este novo trabalho enfatiza um estilo "mais simples, porém mais elegante" em seu design experimental e teórico.

Ao avaliar o DeepSeek-R1, muitos pesquisadores se lembraram da evolução do AlphaGo, particularmente devido ao processo de treinamento R1-Zero → R1. O DeepSeek-R1 se destaca por seu alto desempenho em vários benchmarks desafiadores, superando ou igualando modelos de ponta como o OpenAI-o1-1217. Além disso, uma versão destilada de 32B (DeepSeek-R1-32B) apresentou resultados impressionantes, rivalizando com o OpenAI-o1-mini.

Em termos gerais, o DeepSeek-R1 mostra que é possível alcançar uma forte capacidade de raciocínio sem depender de um ajuste fino supervisionado (SFT) massivo no início. O modelo emprega, em vez disso, uma combinação de aprendizado por reforço (RL) com uma abordagem SFT leve, além de um modelo de recompensa baseado em regras que contorna algumas das armadilhas da modelagem de recompensa convencional.

2. Design de Recompensa: Abandonando PRM e ORM

2.1 Por que uma Recompensa Baseada em Regras?

Os autores optaram por recompensas baseadas em regras em vez de um modelo de recompensa parametrizado (PRM). Seus principais pontos são:

Rotulação Granular de Passos é Difícil Em tarefas de raciocínio geral, é difícil definir critérios claros e granulares para cada passo intermediário.
Custo e Precisão da Rotulação A automação da geração de rótulos geralmente é inferior, enquanto a anotação manual é muito cara para ser escalonável.
Evitar a Exploração da Recompensa Quando a função de recompensa é modelada por um sistema de aprendizado de máquina (PRM), o modelo pode aprender a manipular ou explorar essa recompensa (exploração da recompensa). O retraining contínuo de um PRM também aumenta a complexidade e as demandas de recursos.

Consequentemente, o DeepSeek-R1 usa sinais diretos baseados em regras, especialmente em tarefas de matemática ou programação, comparando as respostas finais com as verdades fundamentais ou usando compilação e casos de teste para verificar a correção. Eles também incorporam regras para verificar o formato de saída (por exemplo, se o raciocínio está contido em tags <think>...</think>) e a consistência da linguagem.

2.2 Descartando Recompensas de Saída Baseadas em Modelo (ORM)

O DeepSeek-R1 até abandona uma abordagem alternativa "ORM" — onde um modelo separado julga ou pontua as saídas — devido a preocupações semelhantes sobre alucinação, potencial exploração de recompensa e instabilidade. Apesar das vantagens dos métodos de "recompensa densa" em algumas tarefas, a equipe valoriza a simplicidade, estabilidade e robustez oferecidas por uma abordagem puramente baseada em regras.

3. Estratégia de Treinamento: De "Zero" a um Processo de Múltiplas Etapas

O treinamento do DeepSeek-R1 pode ser dividido em fases distintas:

DeepSeek-R1-Zero
- Ponto de Partida: Pegue o DeepSeek-V3-Base (ou um modelo base pré-treinado semelhante) e aplique RL diretamente, sem nenhum SFT inicial.
- Método: Use uma recompensa baseada em regras combinada com o algoritmo GRPO (Generalized Rejection Policy Optimization).
- Objetivo: Maximizar a correção em tarefas de matemática/programação e garantir certas regras de formatação.
- Resultados:
  - As saídas do modelo ficam mais longas durante o treinamento, mostrando sinais iniciais de introspecção ou autorreflexão em suas respostas.
  - No entanto, o texto pode ser difícil de ler e há alguma mistura de idiomas.
Transição para o DeepSeek-R1 Completo
- Embora o R1-Zero aumente com sucesso o desempenho do raciocínio, ele ainda luta com a legibilidade e a consistência linguística.
- A equipe então adiciona uma pequena quantidade de dados de alta qualidade para fazer SFT, melhorando assim a clareza e a coerência geral. Após essa inicialização a frio do SFT, eles retomam o RL para impulsionar ainda mais o desempenho.
O pipeline de treinamento final do R1 consiste em quatro etapas:
1. SFT Mínimo com Dados de Alta Qualidade
  - Colete alguns milhares de exemplos selecionados (por exemplo, dados CoT detalhados).
  - Execute um SFT curto para fazer o modelo "falar" de forma mais coerente.
2. RL Focado em Raciocínio
  - Mesmas recompensas baseadas em regras para tarefas de matemática/lógica como no R1-Zero.
  - Adiciona uma recompensa de consistência de linguagem para reduzir a mistura de vários idiomas em uma resposta.
3. Amostragem por Rejeição + SFT
  - Use amostragem por rejeição para filtrar as saídas do modelo da fase anterior, removendo respostas de baixa qualidade ou com formatação incorreta.
  - Incorpore tarefas que não são facilmente julgadas por uma abordagem simples baseada em regras usando verificação no estilo "LLM-como-juiz" (por exemplo, do DeepSeek-V3).
  - Combine ~60k–600k (dependendo da menção do conjunto de dados exato) amostras de raciocínio filtradas com ~20k–200k amostras não relacionadas ao raciocínio para fazer outra rodada de SFT (2 épocas).
4. RL para Cobertura Completa
  - Para diferentes tipos de tarefas, o modelo usa prompts e regras de recompensa diferentes.
  - Tarefas de matemática/lógica continuam a depender da pontuação original baseada em regras.
  - "Tarefas gerais" usam um modelo de recompensa padrão para utilidade e segurança.
No final, o DeepSeek-R1 alcança um equilíbrio entre desempenho de raciocínio e qualidades orientadas para o usuário, como clareza e inocuidade, igualando efetivamente os modelos de ponta em muitos benchmarks.

4. Observações: Perda KL e GRPO vs. PPO

O DeepSeek-R1 usa GRPO para sua fase de RL, distinguindo-o de métodos como PPO:

PPO comumente multiplica o termo de penalidade KL pela recompensa antes de calcular o gradiente de política final.
GRPO em vez disso subtrai um termo KL diretamente, normalmente com um estimador especializado (K3) para garantir menor variância.

Essa abordagem torna o treinamento mais estável, especialmente quando você só amostra tokens parciais. Ele evita a maior variância que vem do uso de estimativas de Monte Carlo diretas de KL.

5. Ecos do AlphaGo: Por que "Zero" Parece Familiar

Os leitores frequentemente observam paralelos com o AlphaGo porque os autores também tentaram MCTS (Monte Carlo Tree Search) e uma abordagem "Zero-like":

R1-Zero é paralelo ao AlphaGo Zero no sentido de que ele começa com dados mínimos ou nenhum dado supervisionado.
AlphaGo usou registros de jogos humanos para uma política supervisionada inicial, então o autojogo levou ao AlphaZero. Em contraste, DeepSeek faz um fluxo de trabalho quase invertido: R1-Zero primeiro faz RL do zero, depois adiciona algum SFT.

Por fim, as tentativas do DeepSeek de usar MCTS no raciocínio de linguagem encontraram obstáculos (grande fator de ramificação, dificuldade de treinar um modelo de valor granular, etc.), portanto, o MCTS não foi considerado bem-sucedido no pipeline final.

6. Resultados Experimentais e Benchmarks

Em uma gama de tarefas de alta dificuldade (raciocínio matemático, conclusão de código, QA complexa), o DeepSeek-R1 oferece desempenho comparável ao OpenAI-o1-1217 — colocando-o no grupo líder de LLMs com capacidade de raciocínio.

Enquanto isso, o R1-Zero intermediário já mostra ganhos substanciais em relação à linha de base em tarefas de raciocínio. No entanto, ele produz uma saída mais estranha ou com mistura de idiomas. Portanto, as etapas do SFT introduzidas posteriormente melhoram a experiência do usuário e a confiabilidade, enquanto continuam a preservar ou até mesmo melhorar as fortes capacidades de raciocínio do modelo.

7. Destilação do Conhecimento e Modelos Pequenos

Os autores observam que simplesmente destilar o DeepSeek-R1 em modelos menores (por exemplo, Qwen2.5-32B) pode produzir resultados que estão à par com o treinamento de RL de modelos pequenos mais caros. Este é um argumento convincente de que, em vez de executar um pipeline RL completo em um modelo pequeno, pode-se eficientemente coletar saídas de alta qualidade de um modelo mais capaz (como R1) e, em seguida, fazer um ajuste fino supervisionado nessas saídas.

Resultado:

O DeepSeek-R1-32B destilado teria atingido um desempenho próximo ao OpenAI-o1-mini a uma fração do custo de desenvolver um modelo pequeno do zero com RL.

8. Desafios e Direções Futuras

Habilidades de Uso Geral
- O DeepSeek-R1 concentra-se em tarefas de raciocínio, mas ainda fica aquém do DeepSeek-V3 em alguns domínios gerais. A equipe planeja melhorar a cobertura mais ampla do modelo, possivelmente usando dados CoT ou específicos do domínio mais extensos.
Mistura de Idiomas e Suporte Multilíngue
- Embora o R1 tenha verificações de consistência de linguagem para chinês e inglês, ele ainda luta com outros idiomas ou cenários de alternância de idiomas.
Sensibilidade à Engenharia de Prompts
- O R1 pode ser sensível a prompts de várias voltas ou de poucos exemplos. Os autores recomendam uma abordagem zero-shot, simplesmente especificando o formato de saída desejado para resultados ótimos.
Engenharia de Software e Avaliações Longas
- Como as tarefas de código podem levar mais tempo para serem verificadas, o RL em larga escala é mais difícil. O DeepSeek-R1 mostra melhorias nos testes de software, mas não um salto dramático em relação ao DeepSeek-V3. Os planos futuros incluem avaliação assíncrona para acelerar o RL em tarefas de programação.
Escalonamento para 600B e Além
- O artigo não demonstra totalmente se essa abordagem permanece estável e eficaz em escalas extremas (por exemplo, 600B parâmetros). Esta é outra área aberta que a equipe pode explorar.

9. Conclusão

O DeepSeek-R1 demonstra que o SFT massivo não é um pré-requisito absoluto para aumentar significativamente a capacidade de raciocínio de um modelo de linguagem. Ao utilizar uma recompensa baseada em regras simples, porém robusta, pulando ou minimizando o SFT no início e, em seguida, integrando um pequeno conjunto de dados selecionados e fases de RL repetidas, o R1 alcança um desempenho de ponta em benchmarks desafiadores.

O estudo também destaca como a destilação do conhecimento — extraindo saídas de um modelo mais forte (R1) para treinar um modelo menor — pode ser mais eficiente e produzir resultados superiores do que fazer o modelo menor passar diretamente por um treinamento RL extenso.

Embora o DeepSeek-R1 ainda tenha algumas lacunas em generalidade e permaneça sensível à solicitação, ele aponta o caminho para um futuro em que RL híbrido + SFT mínimo pode produzir LLMs poderosos, flexíveis e mais controláveis. Este artigo estabelece um marco promissor, mostrando que com as recompensas certas e fases de treinamento iterativas, os modelos podem "descobrir" a autorreflexão, o raciocínio estendido e o desempenho robusto sem anotação passo a passo em larga escala.