DeepSeek-R1 論文まとめ
DeepSeek-R1とは
DeepSeek-R1は、大規模な強化学習を用いてLLMの推論能力を向上させるために開発されたモデルです。事前学習済みのモデルをベースモデルとして使用し、強化学習によって推論能力を向上させています。DeepSeek-R1には、DeepSeek-R1-ZeroとDeepSeek-R1という2つのモデルがあります。
- DeepSeek-R1-Zero:
- ベースモデルに直接強化学習を適用することで、教師ありファインチューニングなしで優れた推論能力を発揮するモデルです。
- LLMの推論能力開発における新しいパラダイムを示唆する重要な発見です。
- DeepSeek-R1:
- DeepSeek-R1-Zeroで見られた可読性の低さや言語の混合といった問題に対処するため、強化学習の前に、少量の「コールドスタートデータ」を用いて事前学習を行います。このマルチステージトレーニングにより、DeepSeek-R1は推論性能をさらに向上させています。
- DeepSeek-R1は、数学やコーディングなどの推論タスクにおいて、高い精度を達成しています。