DeepSeek-R1 調査 (1)
DeepSeek Technology とは
DeepSeek は、中国のヘッジファンド High-Flyer が所有・出資する、オープンソースの LLM を開発する中国の人工知能企業です。2023年7月に High-Flyer の共同創業者である Liang Wenfeng によって設立されました。DeepSeek-R1 モデルは、OpenAI の GPT-4o や o1 などの他の現代の LLM に匹敵する応答を提供します。そのトレーニングコストは、他の LLM よりも大幅に低いと報告されています。
同社は、OpenAI の GPT-4 のトレーニングコストが 2023 年時点で 1億ドルであったのに対し、R1 のトレーニングコストは 600万ドルであったと主張しており、これは Meta の同等のモデルである LLaMA 3.1 で使用された計算能力の約1/10に相当します。より大規模で確立された競合他社に対する DeepSeek の成功は、「AI を覆す」ものとして評価されています。
DeepSeek のモデルは「オープンウェイト」であり、真のオープンソースソフトウェアよりも変更の自由度が低いという特徴があります。(オープンウェイト: AIモデルの学習済みパラメータ(ウェイト) が公開されていること)
DeepSeek-R1 とは
DeepSeek-R1 は、DeepSeek が開発した推論能力に特化した LLM です。OpenAI の o1 モデルに匹敵する性能を有しながら、より低いコストで運用できることが大きな特徴です。DeepSeek-R1 は、DeepSeek-V3 をベースに、強化学習 (RL) を用いた独自のトレーニング手法を採用することで、高度な推論能力を獲得しています。また、Mixture of Experts (MoE) アーキテクチャを採用することで、計算効率を向上させ、大規模なモデルでありながら、必要なパラメータのみを活性化することで、リソースの効率的な利用を実現しています。