DeepSeek-R1 調査 (1)
DeepSeek Technology とは
DeepSeek は、中国のヘッジファンド High-Flyer が所有・出資する、オープンソースの LLM を開発する中国の人工知能企業です。2023年7月に High-Flyer の共同創業者である Liang Wenfeng によって設立されました。DeepSeek-R1 モデルは、OpenAI の GPT-4o や o1 などの他の現代の LLM に匹敵する応答を提供します。そのトレーニングコストは、他の LLM よりも大幅に低いと報告されています。
同社は、OpenAI の GPT-4 のトレーニングコストが 2023 年時点で 1億ドルであったのに対し、R1 のトレーニングコストは 600万ドルであったと主張しており、これは Meta の同等のモデルである LLaMA 3.1 で使用された計算能力の約1/10に相当します。より大規模で確立された競合他社に対する DeepSeek の成功は、「AI を覆す」ものとして評価されています。
DeepSeek のモデルは「オープンウェイト」であり、真のオープンソースソフトウェアよりも変更の自由度が低いという特徴があります。(オープンウェイト: AIモデルの学習済みパラメータ(ウェイト) が公開されていること)
DeepSeek-R1 とは
DeepSeek-R1 は、DeepSeek が開発した推論能力に特化した LLM です。OpenAI の o1 モデルに匹敵する性能を有しながら、より低いコストで運用できることが大きな特徴です。DeepSeek-R1 は、DeepSeek-V3 をベースに、強化学習 (RL) を用いた独自のトレーニング手法を採用することで、高度な推論能力を獲得しています。また、Mixture of Experts (MoE) アーキテクチャを採用することで、計算効率を向上させ、大規模なモデルでありながら、必要なパラメータのみを活性化することで、リソースの効率的な利用を実現しています。
特徴
DeepSeek-R1 は、以下の特徴を有しています。
- 高度な推論能力:
- 数学、コーディング、科学的な質問など、論理的推論、思考の連鎖、リアルタイムの意思決定を必要とするタスクに優れています。例えば、高度な数学の問題を解いたり、洗練されたコードを生成したり、複雑な科学的な質問を分析したりすることができます。
- また、アメリカの数学競技 AIME で約 79.8% の Pass@1、MATH-500 データセットで約 97.3% の Pass@1 を達成しています。さらに、Codeforces のようなコーディングチャレンジシナリオでは、2,029 Elo レーティングに達し、以前のオープンソースの取り組みを上回っています。
- リアルタイムデータ処理:
- データをリアルタイムで処理・分析し、迅速な洞察を得ることが可能です。例えば、研究者は数週間かけて数値を計算する代わりに、数時間、あるいは数分以内に有意義な結果を生成することができます。
- マルチドメイン適用性:
- DeepSeek-R1 は、幅広い分野に適用可能であり、科学研究、金融、ソフトウェア開発など、様々な分野で活用することができます。
- 長いコンテキスト処理:
- 可変コンテキスト長をサポートし、詳細な分析を必要とする複雑なタスクを効率的に管理することができます。これは、Gemini 1.5 Pro の 100 万トークンには及ばないものの、128K トークンのコンテキスト長をサポートしており、Claude や GPT-4o を上回っています。
- ユーザーフレンドリーなインターフェース:
- AI やプログラミングの経験がほとんどない研究者でもアクセスできるように、直感的なインターフェースを備えています。
- コスト効率:
- DeepSeek-R1 の運用コストは、他の多くの選択肢よりも大幅に低く、Fireworks AI で DeepSeek-R1 を実行するコストは 8ドル/100万トークン (入力と出力の両方) であるのに対し、OpenAI o1 モデルを実行するコストは 15ドル/100万入力トークンと 60ドル/100万出力トークンです。DeepSeek API を使用する場合、入力トークンは 100 万トークンあたり 0.14ドル (キャッシュヒット時) または 0.55ドル (キャッシュミス時)、出力トークンは 100 万トークンあたり 2.19ドルです。
- この手頃な価格により、高度な AI 機能へのアクセスが民主化され、資金の限られたスタートアップや学術機関でも利用できるようになります。
- オープンソース:
- DeepSeek-R1 は、MIT ライセンスの下で配布されており、研究者や開発者はコードを検査および変更したり、商用目的でモデルを使用したり、独自のシステムに統合したりすることができます。
- AI コミュニティ全体が RL ベースのアプローチの実装方法を調べ、機能強化や特殊なモジュールを提供し、ライセンスの問題を少なくして独自のユースケースに拡張することができます。
アーキテクチャー
DeepSeek-R1 は、Mixture of Experts (MoE) フレームワークを採用しています。
- 6,710 億のパラメータ: 複数のエキスパートネットワークを包含しています。
- フォワードパスごとに 370 億のパラメータがアクティブ化: クエリを最も関連性の高いエキスパート「クラスタ」にルーティングすることで、計算オーバーヘッドを抑えています。
この構造は、マルチドメイン言語理解の基礎を築いた DeepSeek-V3 ベースモデル上に構築されています。MoE により、モデルは全体的な効率を維持しながら、異なる問題ドメインに特化することができます。さらに、DeepSeek-R1 は、以下の革新的な技術を採用しています。
- マルチヘッド潜在的注意 (MLA): Key-Value キャッシュを削減し、推論を最適化します。
- DeepSeekMoE: エキスパートのアクティブ化を処理するための特殊なアプローチであり、効率的な学習を保証します。
- 補助損失のない負荷分散: パフォーマンスを低下させることなく、トレーニングの非効率性を防ぎます。
- マルチトークン予測 (MTP): 複数の将来のトークンを同時に予測できるようにすることで、効率と推論速度を向上させます。
- fp8 精度トレーニング: メモリ使用量を 75% 削減します。
- PTX ハッキング: 古い Nvidia GPU の低レベルアセンブリコードをハッキングすることで、古い H800 GPU から可能な限りのパフォーマンスを引き出します。
トレーニング方法
DeepSeek-R1 は、強化学習 (RL) を重視した独自のトレーニングアプローチを採用しています。
- まず、厳選された思考の連鎖の例を含むデータセットを使用して、教師ありファインチューニング (SFT) を行います。
- 次に、グループ相対ポリシー最適化 (GRPO) を使用した RL によって、モデルは思考の連鎖による推論、自己検証、エラー修正などの推論スキルを自律的に開発します。3 GRPO は、個別の価値関数モデルを必要としないため、ファインチューニングプロセスをより効率的にします。
トレーニングは、以下の複数の段階で行われます。
- コールドスタートデータ: RL の「コールドスタート」問題を防ぐために、少量の高品質なデータを使用して SFT を行います。収束を加速し、より明確な思考の連鎖を生成することができます。DeepSeek-R1-Zero で発生した読みやすさと一貫性の問題に対処するために、コールドスタートのファインチューニングが導入されました。これにより、応答がより明確で構造化されたものになりました。
- 推論指向の RL: 推論能力を向上させるために、RL を使用します。モデルは、「Aha モーメント」をピボットトークンとして使用して、思考の連鎖中に回答を反映および再評価します。
- 拒否サンプリング: 高品質な推論データを収集するために、拒否サンプリングを使用します。
- SFT: 拒否サンプリングで収集したデータを使用して、SFT を行います。
- 追加の RL: さらに RL を使用して、モデルの性能を向上させます。
DeepSeek-R1 は、純粋な RL を使用して推論を改善しており、教師ありデータに依存していません。これは、従来のアプローチに挑戦し、人間の介入や労力を減らして推論モデルをトレーニングする新しい機会を開きます。DeepSeek-R1-Zero は、高度な推論能力を純粋な RL のみで開発できることを検証した最初のオープンソースモデルです。事前にラベル付けされたデータセットがないため、モデルは試行錯誤を通じて学習し、生成するソリューションからのフィードバックのみに基づいて動作、パラメータ、重みを調整します。DeepSeek-R1 は、14.8 兆の高品質なトークンでトレーニングされており、数学、プログラミング、多言語コンテンツに重点が置かれています。
DeepSeek-R1 Distilled Models
DeepSeek は、Llama と Qwen をベースとした、DeepSeek-R1 から蒸留されたモデルもリリースしています。これらのモデルは、リソースの限られたデバイスへの効率的な展開を可能にします。以下は、それぞれのモデルの性能です。
- Qwen ベースの蒸留モデル:
- DeepSeek-R1-Distill-Qwen-1.5B:
MATH-500
で 83.9% を達成しています。 - DeepSeek-R1-Distill-Qwen-7B:
MATH-500
で 92.8%、GPQA Diamond
で 49.1% を達成しています。 - DeepSeek-R1-Distill-Qwen-14B:
MATH-500
で 93.9%、GPQA Diamond
で 59.1% を達成しています。 - DeepSeek-R1-Distill-Qwen-32B:
AIME 2024
で 72.6%、MATH-500
で 94.3%、GPQA Diamond
で 62.1% を達成しています。 - Llama ベースの蒸留モデル:
- DeepSeek-R1-Distill-Llama-8B: ソースコードの推論とスペイン語の挨拶の認識においてわずかに改善が見られますが、論理的な問題解決能力は低下しています。
- DeepSeek-R1-Distill-Llama-70B:
MATH-500
で 94.5%、AIME 2024
で 86.7% を達成しています。 また、LiveCodeBench
で 57.5%、CodeForces
で 1633 レーティングを達成しています。
性能評価
DeepSeek-R1 は、様々なベンチマークで優れた性能を示しています。
- 推論タスク: AIME 2024 で 79.8% の Pass@1、MATH-500 で 97.3% の Pass@1 を達成し、OpenAI-o1–1217 と同等の性能を示しています。AIME 2024 では、OpenAI o1-1217 の 79.2% をわずかに上回る 79.8% を記録しています。MATH-500 では、OpenAI o1-1217 の 96.4% をわずかに上回る 97.3% を記録しています。
- コーディングタスク: Codeforces のコード競技タスクで専門家レベルの性能を示し、人間の参加者の 96.3% を上回っています。Codeforces ベンチマークでは、OpenAI o1-1217 が 96.6% でリードしていますが、DeepSeek-R1 は 96.3% と非常に競争力のある結果を出しています。SWE-bench Verified ベンチマークでは、DeepSeek-R1 は 49.2% と、OpenAI o1-1217 の 48.9% をわずかに上回る好成績を収めています。
- 知識: MMLU で 90.8%、GPQA Diamond で 71.5% を達成し、DeepSeek-V3 を上回っています。GPQA Diamond では、OpenAI o1-1217 が 75.7% であるのに対し、DeepSeek-R1 は 71.5% となっています。MMLU では、OpenAI o1-1217 が 91.8% であるのに対し、DeepSeek-R1 は 90.8% となっています。
- その他のタスク: 創造的な文章作成、一般的な質問への回答、長いコンテキストの理解などでも優れた性能を発揮します。AlpacaEval 2.0 や ArenaHard などの創造的なタスクや長いコンテキストのタスクでは、他のすべてのモデルを上回るパフォーマンスを発揮しています。
- LMArena でのランキング: DeepSeek-R1 は、LMArena で総合3位、コーディングと数学で1位にランクインしています。また、「Hard Prompt with Style Control」カテゴリーでは o1 と並んで1位になっています。
注目すべき点として、推論チェーンが長いほど、一般的に性能が向上することが挙げられます。これは、Microsoft の Med-Prompt フレームワークの洞察や、OpenAI のテスト時の計算量と推論の深さに関する観察結果と一致しています。
競合製品
DeepSeek-R1 の主な競合製品としては、以下のものが挙げられます。
- OpenAI o1: DeepSeek-R1 の直接の競合相手であり、多くのベンチマークで同等の性能を示しています。ただし、DeepSeek-R1 は o1 よりもコスト効率に優れています。
- Claude 3: Anthropic が開発した最先端の言語モデルであり、特に長いテキストの要約や分析に優れています。Claude 3.5 Sonnet は、DeepSeek-R1 よりも洗練された応答を生成することができますが、DeepSeek-R1 は Claude 3.5 Sonnet よりも「スマート」で「認識力が高い」と考えるユーザーもいます。
- Google Gemini Advanced: Google の次世代大規模言語モデルファミリーの一部であり、生成AIとマルチモーダル理解の進歩を組み合わせています。
- LM-Kit.NET: .NET アプリケーションに生成 AI をシームレスに統合するために設計されたエンタープライズグレードのツールキットです。
- Qwen2.5-Max: Alibaba の高度な Mixture-of-Experts (MoE) モデルであり、20 兆を超えるトークンでトレーニングされ、教師ありファインチューニング (SFT) と人間のフィードバックからの強化学習 (RLHF) によって強化されています。
Arena-Hard
、LiveBench
、LiveCodeBench
、GPQA-Diamond
などの主要なベンチマークで DeepSeek V3 を上回っています。 - Qwen2.5-1M: Alibaba が開発した高度なオープンソース言語モデルであり、最大 100 万トークンのコンテキストを処理できます。
- Yi-Lightning: 01.AI が開発した最新の大規模言語モデルであり、高性能、コスト効率、幅広い言語サポートに重点を置いています。
活用事例
DeepSeek-R1 は、その高度な推論能力とコスト効率の高さから、様々な分野で活用が期待されています。
- ソフトウェア開発: コードスニペットの生成、既存コードのデバッグ、複雑なコーディング概念の説明など、開発者を支援することができます。
- 数学: 複雑な数学の問題を解いたり、説明したりすることができるため、数学分野の研究や教育を支援することができます。
- コンテンツ作成、編集、要約: 高品質な文章コンテンツの生成、既存コンテンツの編集や要約に優れており、マーケティングから法律まで、様々な業界で役立ちます。
- カスタマーサービス: カスタマーサービスのチャットボットに活用することで、ユーザーとの会話を自動化し、人間のエージェントの代わりに質問に答えることができます。
- データ分析: 大規模なデータセットを分析し、有意義な洞察を抽出し、発見に基づいて包括的なレポートを生成することができます。これにより、企業はより多くの情報に基づいた意思決定を行うことができます。
- 教育: 複雑な科目を明確に説明したり、質問に答えたり、様々な科目にわたって個別指導を提供したりする、デジタルチューターとして活用することができます。
- 技術文書作成: 複雑なトピックを明確に説明し、技術的な矛盾を他のモデルよりもよく捉えることができるため、技術文書の作成に適しています。また、研究論文を要約するのにも優れています。
- 科学文献の要約: 科学文献を要約するツールとして、非常に優れており、OpenAI や Claude よりも優れています。ただし、Claude は DeepSeek よりも DOI の取得に優れています。
- 文法およびスタイルの修正: 文法やスタイルの修正にも使用できます。
- 創造的な文章作成: 創造的な文章作成にも使用できます。
- 合成データ生成: 最大で数千のタスクで合成データを生成するために使用できます。各タスクでは、通常、約 3000 のリクエストトークンと約 2000 の応答トークンが使用されます。
- チャットアシスタンス: コーディング、プロンプトの最適化、知識の抽出など、一般的なチャットアシスタンスに使用できます。
最適化
DeepSeek-R1 の初期バージョンでは、起動時間と推論時間が遅いという問題がありました。これらの問題は、以下の方法で対処されました。
- 起動時間の短縮: GGUF 形式のモデルファイルの読み込みを最適化することで、起動時間を短縮しました。
- 推論時間の短縮: 量子化、テキスト生成速度の最適化、プロンプト処理速度の最適化など、様々な手法を用いて推論時間を短縮しました。
量子化は、数値モデルの重みの精度をより低いビット表現に減らすプロセスです。これにより、推論速度が向上し、VRAM の要件が削減されますが、精度は低下する可能性があります。 テキスト生成速度の最適化には、マルチトークン予測 (MTP) などの手法が用いられています。MTP は、複数の将来のトークンを同時に予測できるようにすることで、効率と推論速度を向上させます。 プロンプト処理速度の最適化には、プロンプトのトークン化を最適化するなどの手法が用いられています。
DeepSeek-R1 は、ローカル推論に vLLM を使用しています。vLLM は、高性能で進化が速く、コミュニティが活発であるため、ローカル推論に適しています。GGUF 形式で配布されています。GGUF は、大規模なモデルを配布するためのファイル形式です。GGUF ファイルを分割およびマージするためのツールも提供されています。
将来展望
DeepSeek-R1 は、オープンソースであり、コスト効率に優れていることから、今後、AI 分野において重要な役割を果たしていくことが期待されます。特に、以下のような分野での発展が期待されます。
- AI アプリケーションの開発: DeepSeek-R1 は、AI アプリケーション開発のコストを削減し、開発を加速させる可能性を秘めています。より多くの企業や個人が AI アプリケーションを開発し、AI の恩恵を受けることができるようになると考えられます。
- AI サプライチェーンの変革: DeepSeek-R1 の登場は、AI サプライチェーンに大きな影響を与える可能性があります。従来、AI 開発は、大規模な計算資源と資金を持つ一部の大企業に限られていましたが、DeepSeek-R1 のようなオープンソースモデルの登場により、より多くの企業や研究機関が AI 開発に参入できるようになると考えられます。これは、AI 技術のコモディティ化を促進し、アプリケーションビルダーに新たな機会をもたらします。
- AI の民主化: DeepSeek-R1 は、AI の民主化に貢献する可能性があります。AI 技術は、社会に大きな影響を与える可能性を秘めていますが、その開発や利用は、一部の大企業や専門家に限られていました。DeepSeek-R1 のようなオープンソースモデルの登場により、より多くの人々が AI 技術にアクセスし、その恩恵を受けることができるようになると考えられます。
- AI 研究の加速: DeepSeek-R1 は、AI 研究を加速させる可能性があります。DeepSeek-R1 のような高性能なオープンソースモデルを利用することで、研究者は、より効率的に AI 研究を進めることができると考えられます。
- AI イノベーションの加速: DeepSeek-R1 は、AI コミュニティに大きな影響を与え、イノベーションのペースを加速させています。主要な AI 研究所は、この開発に対応して、独自の戦略を練り直している可能性があります。
- Nvidia の優位性への影響: DeepSeek は、Nvidia 以外の GPU でも効率的に動作するように最適化されているため、Nvidia の GPU 市場における優位性に対する脅威となる可能性があります。企業は、Nvidia の GPU で大規模なモデルをトレーニングし、その後、より安価な競合他社のハードウェアで推論を実行する可能性があります。DeepSeek は、AMD と協力して SGLang を使用した DeepSeek の最適化に取り組んでおり、Huawei の Ascend シリーズの GPU のサポートも発表しています。
- OpenAI の独占への挑戦: DeepSeek-R1 は、AI 市場における OpenAI の独占に挑戦し、スタートアップや投資会社に影響を与えています。
- AI の自己改善による GPU 需要の減少: AI が自身のコードを自己改善し始めると、GPU の需要が大幅に減少する可能性があります。ただし、将来的には、ASI を求めてチップの需要が再び高まる可能性があります。
- アルゴリズムの革新の重要性: DeepSeek-R1 は、AI の進歩を促進する上で、アルゴリズムの革新がモデルのスケールアップと同じくらい重要であることを示しています。DeepSeek チームは、H100 ではなく、能力の低い H800 GPU で実行するために、多くの最適化を行う必要がありました。その結果、(研究費を除いて) 600 万ドル未満の計算コストでトレーニングされたモデルが誕生しました。
- オープンソースと価値観の反映: 米国がオープンソースを阻害し続ければ、中国がこのサプライチェーンの一部を支配するようになり、多くの企業は米国の価値観よりも中国の価値観を反映したモデルを使用することになるでしょう。
- AI モデルの価値に影響を与える要因: Capstone IT Solutions は、AI モデルの価値に影響を与える主要な要因として、コスト効率とデータ品質を挙げています。
- 推論と製品エクスペリエンスへの注力: AI 分野では、推論と全体的な製品エクスペリエンスへの関心が高まっています。
- AI の危険性とオープンソースの阻害に関する懸念: 米国では、AI の危険性とオープンソースの阻害に関する懸念が高まっています。
- DeepSeek の主張に関する考察: DeepSeek は、DeepSeek-R1 の作成に必要な計算能力と AI トークンに関して、限られた投資で済んだと主張しています。しかし、この主張には、ハードウェアコスト、エンジニアの給与、電気代などの費用が含まれているかどうかは不明です。
課題
DeepSeek-R1 は、大きな可能性を秘めている一方で、いくつかの課題も抱えています。
- 言語の混合: 特にプロンプトに複数の言語が含まれている場合、言語の混合が発生する可能性があります。
- プロンプトの感度: モデルの性能はプロンプトに敏感であり、数ショットのプロンプトでは結果が悪化する可能性があります。
- ソフトウェアエンジニアリングタスク: 関連する RL トレーニングデータが限られているため、ソフトウェアエンジニアリングベンチマークでは DeepSeek-V3 よりも大幅な改善は見られません。
- 一般的な能力: 関数呼び出し、複数ターンの会話、複雑なロールプレイングなどのタスクにおける DeepSeek-R1 の能力は、DeepSeek-V3 ほど堅牢ではありません。
- バイアスと検閲: DeepSeek-R1 は、政治的な検閲やコンテンツの制限を受ける可能性があります。6 中国の AI モデルであるため、中国政府の検閲の影響を受ける可能性があります。天安門事件、ウイグル人、台湾の民主化運動に関する質問に対して、「中国に批判的な外部の報告を参照することはできません」と回答したという報告があります。DeepSeek は、トレーニングデータにおける検閲に関する批判に対して、「すべての LLM は、トレーニングデータに存在するバイアスを反映する可能性があり、DeepSeek-R1 も例外ではない」と回答しています。
- 多言語対応: 英語と中国語以外の多言語対応は、まだ十分ではありません。一部の英語のテストでは、中国語の文字が混在することがあります。
- 応答速度: 初期の主張とは異なり、GPT-4o よりも応答速度が遅い場合があります。特に推論タスクでは、処理に非常に長い時間がかかるため、実用的ではありません。