Inference-Time Scaling for Generalist Reward Modeling (1)
こんにちは!今回のエンジニアブログでは、DeepSeek AIと清華大学の研究者によって発表された論文 Inference-Time Scaling for Generalist Reward Modelingで提案された革新的なアプローチについてご紹介します。この研究は、大規模言語モデル(LLM)のアライメント技術における重要なブレークスルーとなる可能性を秘めています。
LLMアライメントの課題:汎用的報酬モデリング
大規模言語モデル(LLM)の性能を向上させ、人間の価値観と整合させるために、強化学習(特にRLHF: 人間のフィードバックからの強化学習)が広く採用されてきました。しかし、強化学習(RL)の成功はReward Signal(報酬信号)の質に大きく依存しています。
正解が明確に定義できる数学やコーディング問題では報酬を設計しやすいですが、実世界の多くの応用場面では、多様で複雑かつ主観的な評価基準が求められる「汎用的」なクエリに対応する必要があります。従来の報酬モデル(RM)には以下のような限界がありました:
- スカラーRM:単純な数値スコアを出力するため表現力が乏しい
- ペアワイズRM:応答ペア間の好みを評価するが、入力形式の柔軟性に欠ける
DeepSeekの革新的アプローチ:SPCTとDeepSeek-GRM
本研究ではこれらの課題に対し、以下の革新的技術を提案しています:
1. Self-Principled Critique Tuning (SPCT)
SPCTは生成的報酬モデル(GRM)の品質と推論時スケーラビリティを向上させるために設計された新しい学習手法です。この手法の特徴は、オンラインRLのプロセスを通じて、モデル自身が入力クエリと応答に基づいて適応的に原則(評価基準)と批判を生成する能力を育成する点にあります。
SPCTは2段階の学習プロセスで構成されています:
- 段階1: リジェクティブファインチューニング (RFT)
- 目的:事前学習済みLLMが多様な入力タイプに対して正しい形式で原則と批判を生成できるよう適応させる
-
方法:予測スコアがグラウンドトゥルースの報酬と一致しない軌跡を拒否し、残った「正しい」軌跡でモデルをファインチューニング
-
段階2: ルールベースのオンライン強化学習 (RL)
- 目的:効果的な推論時スケーリングを可能にするスケーラブルな報酬生成行動を促進
- 方法:GRPO (Generative Reward Policy Optimization)のフレームワークを活用し、GRMが生成した原則・批判・予測スコアをルールベースの報酬関数で評価
2. DeepSeek-GRM モデル
DeepSeek-GRMはSPCTを用いて学習されたGRMモデルです。推論時には並列サンプリングを活用し、単一の入力に対して複数の独立した原則、批判、スコアのセットを生成します。最終的な報酬スコアは、これらのサンプルに対する投票や集約によって決定されます。
3. メタ報酬モデル (MetaRM)
推論時スケーリングをさらに強化するために、DeepSeek-GRMとは別に学習されたポイントワイズのスカラーRMであるMetaRMが導入されています。MetaRMはDeepSeek-GRMが生成した個々のサンプルの正確さや品質を評価し、最終的な投票プロセスをガイドします。
システムアーキテクチャ図
flowchart TD
A[入力: クエリ+応答] --> B[DeepSeek-GRM 並列サンプリング]
B --> C[原則・批判の生成 k個のサンプル]
C --> D[個々のスコア予測 s₁, s₂, ..., sₖ]
C --> E[MetaRM]
E --> F[メタ報酬スコア]
D --> G[投票処理 MetaRMスコアでガイド]
F --> G
G --> H[最終報酬スコア]
style A fill:#f9f9f9,stroke:#333,stroke-width:2px
style B fill:#d4e6ff,stroke:#0066cc,stroke-width:2px
style C fill:#d4e6ff,stroke:#0066cc,stroke-width:2px
style D fill:#d4e6ff,stroke:#0066cc,stroke-width:2px
style E fill:#ffeecc,stroke:#ff9900,stroke-width:2px
style F fill:#ffeecc,stroke:#ff9900,stroke-width:2px
style G fill:#e6ffcc,stroke:#66cc00,stroke-width:2px
style H fill:#f9f9f9,stroke:#333,stroke-width:2px,stroke-dasharray: 5 5
実験結果:推論時スケーリングの有効性
研究チームはDeepSeek-GRMを複数のRMベンチマーク(Reward Bench, PPE, RMB, ReaLMistake)で評価し、以下の結果を得ました:
-
ベースラインとの比較: DeepSeek-GRMは既存の手法やモデル(LLM-as-a-Judge, DeepSeek-BTRM, CLoud-Gemma, DeepSeek-PairRM)を一貫して上回りました。
-
推論時スケーリングの効果: サンプリング数kを増やすにつれてモデルの性能が顕著に向上しました。
-
推論時vs.トレーニング時スケーリング: 最も驚くべき発見は、比較的小さなDeepSeek-GRM-27Bでも、十分な推論時サンプル(k=32)を用いることで、はるかに大きなパラメータ数を持つモデル(671BパラメータのDeepSeek-V3)に匹敵する性能を達成できる可能性が示された点です。
推論時スケーリングの性能向上(Reward Benchにおける精度)
研究の意義と影響
この研究が示す最も革新的な点は、推論時スケーリングがトレーニング時のモデルサイズスケーリングに匹敵する性能向上をもたらす可能性です。これは、AI開発における重要なパラダイムシフトを示唆しています:
-
アライメント技術の向上: SPCTとDeepSeek-GRMは、多様で複雑な人間の好みを捉えるための、よりスケーラブルで繊細なReward Signal(報酬信号)生成手段を提供します。
-
モデル開発戦略の刷新: これまでモデル性能向上の主要戦略はモデルサイズの拡大でしたが、本研究は推論時のリソース活用という代替的アプローチを示しました。
-
アクセシビリティの向上: より小さなモデルでも十分な推論時リソースによって競争力のある性能が得られれば、高性能AIへのアクセスをより民主化できます。
将来の展望
著者らは今後の研究方向性として以下を提案しています:
-
ツールの組み込み: コードインタープリターや検索エンジンなどの外部ツールをDeepSeek-GRMに統合し、より精密な評価を実現
-
原則と批判生成の分離: 原則生成を事前に行い保存することで、推論時の効率を改善
-
LLMオフライン評価への応用: GRMが生成する原則を活用し、特定のLLMの弱点を解釈可能な形で特定・分析
-
長期推論の活用: より長い思考連鎖をGRMに生成させることで性能向上の可能性を探求
まとめ
DeepSeek AIと清華大学の研究者によるSPCTとDeepSeek-GRMは、LLMアライメントにおける報酬モデリングの性能を向上させるための新たな道を切り開きました。特に注目すべきは、推論時の計算資源を調整可能な「ノブ」として活用するという発想です。
今後この技術がオープンソース化されれば、LLM開発とアライメント研究の両方で大きな影響を与える可能性を秘めています。より小さなモデルでも高い性能を達成できる可能性は、AIの持続可能な発展と民主化の観点からも重要な意味を持つと言えるでしょう。
(c) Lions Data, LLC.