コンテンツにスキップ

deepseek

Inference-Time Scaling for Generalist Reward Modeling (1)

こんにちは!今回のエンジニアブログでは、DeepSeek AIと清華大学の研究者によって発表された論文 Inference-Time Scaling for Generalist Reward Modelingで提案された革新的なアプローチについてご紹介します。この研究は、大規模言語モデル(LLM)のアライメント技術における重要なブレークスルーとなる可能性を秘めています。

LLMアライメントの課題:汎用的報酬モデリング

大規模言語モデル(LLM)の性能を向上させ、人間の価値観と整合させるために、強化学習(特にRLHF: 人間のフィードバックからの強化学習)が広く採用されてきました。しかし、強化学習(RL)の成功はReward Signal(報酬信号)の質に大きく依存しています。

正解が明確に定義できる数学やコーディング問題では報酬を設計しやすいですが、実世界の多くの応用場面では、多様で複雑かつ主観的な評価基準が求められる「汎用的」なクエリに対応する必要があります。従来の報酬モデル(RM)には以下のような限界がありました:

  • スカラーRM:単純な数値スコアを出力するため表現力が乏しい
  • ペアワイズRM:応答ペア間の好みを評価するが、入力形式の柔軟性に欠ける

DeepSeekの革新的アプローチ:SPCTとDeepSeek-GRM

本研究ではこれらの課題に対し、以下の革新的技術を提案しています:

1. Self-Principled Critique Tuning (SPCT)

SPCTは生成的報酬モデル(GRM)の品質と推論時スケーラビリティを向上させるために設計された新しい学習手法です。この手法の特徴は、オンラインRLのプロセスを通じて、モデル自身が入力クエリと応答に基づいて適応的に原則(評価基準)と批判を生成する能力を育成する点にあります。

SPCTは2段階の学習プロセスで構成されています:

  1. 段階1: リジェクティブファインチューニング (RFT)
  2. 目的:事前学習済みLLMが多様な入力タイプに対して正しい形式で原則と批判を生成できるよう適応させる
  3. 方法:予測スコアがグラウンドトゥルースの報酬と一致しない軌跡を拒否し、残った「正しい」軌跡でモデルをファインチューニング

  4. 段階2: ルールベースのオンライン強化学習 (RL)

  5. 目的:効果的な推論時スケーリングを可能にするスケーラブルな報酬生成行動を促進
  6. 方法:GRPO (Generative Reward Policy Optimization)のフレームワークを活用し、GRMが生成した原則・批判・予測スコアをルールベースの報酬関数で評価

DeepSeek-R1 調査 (1)

DeepSeek Technology とは

DeepSeek は、中国のヘッジファンド High-Flyer が所有・出資する、オープンソースの LLM を開発する中国の人工知能企業です。2023年7月に High-Flyer の共同創業者である Liang Wenfeng によって設立されました。DeepSeek-R1 モデルは、OpenAI の GPT-4o や o1 などの他の現代の LLM に匹敵する応答を提供します。そのトレーニングコストは、他の LLM よりも大幅に低いと報告されています。

同社は、OpenAI の GPT-4 のトレーニングコストが 2023 年時点で 1億ドルであったのに対し、R1 のトレーニングコストは 600万ドルであったと主張しており、これは Meta の同等のモデルである LLaMA 3.1 で使用された計算能力の約1/10に相当します。より大規模で確立された競合他社に対する DeepSeek の成功は、「AI を覆す」ものとして評価されています。

DeepSeek のモデルは「オープンウェイト」であり、真のオープンソースソフトウェアよりも変更の自由度が低いという特徴があります。(オープンウェイト: AIモデルの学習済みパラメータ(ウェイト) が公開されていること)

DeepSeek-R1 とは

DeepSeek-R1 は、DeepSeek が開発した推論能力に特化した LLM です。OpenAI の o1 モデルに匹敵する性能を有しながら、より低いコストで運用できることが大きな特徴です。DeepSeek-R1 は、DeepSeek-V3 をベースに、強化学習 (RL) を用いた独自のトレーニング手法を採用することで、高度な推論能力を獲得しています。また、Mixture of Experts (MoE) アーキテクチャを採用することで、計算効率を向上させ、大規模なモデルでありながら、必要なパラメータのみを活性化することで、リソースの効率的な利用を実現しています。

DeepSeek-R1 論文まとめ

DeepSeek-R1とは

DeepSeek-R1は、大規模な強化学習を用いてLLMの推論能力を向上させるために開発されたモデルです。事前学習済みのモデルをベースモデルとして使用し、強化学習によって推論能力を向上させています。DeepSeek-R1には、DeepSeek-R1-ZeroDeepSeek-R1という2つのモデルがあります。

  • DeepSeek-R1-Zero:
    • ベースモデルに直接強化学習を適用することで、教師ありファインチューニングなしで優れた推論能力を発揮するモデルです。
    • LLMの推論能力開発における新しいパラダイムを示唆する重要な発見です。
  • DeepSeek-R1:
    • DeepSeek-R1-Zeroで見られた可読性の低さや言語の混合といった問題に対処するため、強化学習の前に、少量の「コールドスタートデータ」を用いて事前学習を行います。このマルチステージトレーニングにより、DeepSeek-R1は推論性能をさらに向上させています。
    • DeepSeek-R1は、数学やコーディングなどの推論タスクにおいて、高い精度を達成しています。