1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは
ASCII.jp / 2025年2月10日 7時0分
DeepSeekが開発したLLM「DeepSeek」が大きな騒ぎになってきました。その背景には、DeepSeekが開発の際に使ったより性能の高いLLMを利用して、問題と回答をその推論過程まで含めた出力結果を学習データとして使うことでより効率よくAIに学習させる「蒸留(ディスティレーション)」という手法があります。1月20日に公開された「DeepSeek R1」はOpenAI「o1」に匹敵する性能とされ、さらに圧倒的な低コストで開発されたとアピールされたこともあり、アメリカのAI分野での優位性が揺らいだとの危惧が広がりました。そういうなか、6日に、スタンフォード大学とワシントン大学は「s1-32B」という軽量かつ安価に学習させた蒸留を使って開発した高性能LLMモデルを発表しました。わずか、1000問の学習データと約6ドル(約910円)の計算コストで、2024年9月リリースのOpenAI「o1-Preview」を超える性能を生み出したと主張しています。
DeepSeekで注目された「蒸留」とは
1月28日の米FOXニュースで、トランプ政権AI担当のデビッド・サックス氏は、DeepSeekが「OpenAIのAIモデルから知識を“抽出”したという“実質的な証拠”がある」と述べました。その具体的な内容について説明はなかったものの、DeepSeekの学習手法が急激に注目を集めました。DeepSeekはAPIを通じてChatGPTに多数の質問をぶつけ、出力結果をデータ学習の素材に使用したとされており、この工程を「蒸留」と呼びます。OpenAIはそのような蒸留行為を利用規約で禁じています。1月29日のフィナンシャルタイムズの報道では、DeepSeekがOpenAIのAPIを通じて大量のデータを収集し、AIモデルのトレーニングに利用した可能性があるとして、OpenAIとマイクロソフトが共同で調査を進めているとしています。
しかし、OpenAIが著作権侵害としてDeepSeekのサービスを差し止めたりできるかというと難しい可能性があります。
AIと著作権法の専門家でもある柿沼太一弁護士はXへの投稿 を通じて、DeepSeekが利用規約違反に該当するとしても「著作権侵害責任を追及するのは非常に難しい」と述べています。
「著作権侵害が成立するためには「類似性」と「依拠性」が必要ですが、まず、そもそも教師モデルの中身(パラメータ)が著作権によっては保護されない可能性が高いです。次に「教師モデル」と蒸留によって作成された「生徒モデル」の中身(パラメータ)は全く異なるものですので、「類似性」を満たしません。さらに、「蒸留」というのは、教師モデルの中身に直接アクセスする手法ではないため、「依拠性」も満たさない可能性が高いと思われます」(柿沼氏)。柿沼氏は、日本の著作権法を前提としているが、アメリカ法でもあまり変わらないと考えられています。
AIモデルの「蒸留」行為が著作権侵害に該当するかについては、法的な明確性がまだ確立されておらず、今後の司法判断に委ねられるとは思われますが、OpenAIとマイクロソフトにとっては、利用規約違反や知的財産権の侵害を立証する必要があるため、そのハードルも高いと考えられます。ただ、AI開発において蒸留は一般的な行為でもあります。
約6ドルの学習費用で「o1-preview」レベルを実現
蒸留法を使ったLLMの追加学習に非常に効果があることを証明する研究も登場しました。2月6日に、スタンフォード大学とワシントン大学のAI研究者が発表したのは、蒸留手法を使うことで、非常に安価で高性能なLLMを開発できるという研究です。「s1-32B」というモデルとして公開されています。
この研究では、事前トレーニングとして、学習しやすいように入念に設計された難易度、多様性、品質の3つを基準にした1000の質問と回答のペアを準備します。その回答を作成するために、グーグルのLLM「Gemini2.0」のAPIを利用して推論させ、それらをデータセット「s1K」としてまとめます。この優れたLLMの推論過程も学習用データセットに含める点が、蒸留による学習手法の肝です。質問に用意された分野は、「線形代数」「幾何学」「確率論」「生物学」「量子力学」など、多岐にわたる科目・トピックが用意されています。
例えば、質問と回答の一例としては下記のようなものでした。筆者にはこの問題の難易度が判断できないので、o1に聞いたところ、アメリカの高校生向け数学コンテスト(AIME)で使われる水準の問題とのことでした。
このデータセットを使い、アリババのLLM「Qwen2.5-32B-Instruct」をベースに追加学習して、s1-32Bを開発しました。学習には、NVIDIA H100 GPUを16基使用し、約26分間で完了したとしています。その際の計算コストは約6ドル(約910円)と報告されています。
その結果、2024年9月にリリースされたOpenA1 o1-previewと比較した場合、「MATH(競技数学500問のベンチマーク)」で、o1-previewが85.5%の正答率に対して、s1-32Bは93%と7.5%の向上、「AIME24(アメリカ招待数学試験2024年版)」でOpenAI o1-preview: 44.6%の正答率に対して、s1-32B: 56.7%と27%の向上と、学習させた数学等の分野について大幅な性能向上を実現できたとしています。
興味深いのが、当初は5万9000問の設問と回答と推論とを用意していたようですが、それより1000問に絞り込んだほうが結果はよかったということです。厳選された設問と思考過程の方が、AIの追加学習に対して、より優れた結果を生み出すようです。また、推論する時間を長く取れば取るほど、正答率も上がっていくとしています。
DeepSeekは厳密には同じではないようですが、o1にAPIを通じて大量の質問を投げ、その回答と推論過程を学習データとして使うことで高性能なLLMを比較的安価に生み出すことができたようです。
実際に蒸留モデル「s1-32B」を試してみる
s1-32BはGitHubに公開されているので、ダウンロードするとローカルLLMとして試すことができます。LM Studioにダウンロードして動かし、前述の例題を解いてみました。結果は5回解いてみて、やっと正解にたどり着くというものでした。s1-32Bがなぜ間違えたのかは、筆者には推論過程を見てもまったく理解できません。しかし、用意された設問が、数学の問題でも難易度の高い問題であることが確認できました。
「DeepSeek-R1-Distill-Qwen-32B-Japanese」でも試してみました。
このモデルは、DeepSeekがリリースした軽量版にサイバーエージェントが、日本語の追加学習をしたものです(参考:「DeepSeek R1、無料で使えるAIとしては最強クラス」 )。結果は一発で、正解を導き出しました。
一方で、ChatGPT 4oは3回試していずれも不正解。しかし、o1とo3-miniは1回目で正解を出し、その優秀さを感じました。
「DeepSeek R1蒸留モデル」爆増の可能性
ただグーグルはOpenAIと同じように、自社のLLMで出力した結果を、別のLLMの開発に利用することを禁じる利用規約を定めています。そのため、s1-32Bの開発は学術的な研究目的とはいえ、規約に違反している可能性が高いと考えられています。
LLMサービスを展開する企業が、推論過程に何らかのAPIによる阻害をかける方法を見つけ出す可能性はあり、現状の蒸留のためのデータを揃えることが容易ではなくなるかもしれません。とはいえ、実際的な技術面として、1000問程度の必ずしも多いとは言えない設問数のログデータを出力させるのを規制できるのかというと、難しいとも考えられます。
一方で、こうした状況を決定的に崩すかもしれないのが、DeepSeek R1の存在です。
R1は「MITライセンス」という、ほぼ制限のない再利用が認められている利用規約で公開されています。R1は独自に自社サーバでホストをしても構いませんし、蒸留などで追加学習をしたモデルを配布することも認められています。仮に、OpenAIとDeepSeekの間で裁判があり、DeepSeekの著作権侵害が認められたとしても、配布されているR1を利用して別の著作物を作り出した場合に、著作権の連続性が続くものではないので、ユーザーの責任は問われることはないと考えられます。つまり、OpenAIとDeepSeekの間に係争が起きるとしても、今のところ普及を留める方法はないことになります。
現在、o1並の性能を持つオープンLLMで、最も高性能なものの一つがR1であるのは間違いなく、R1を使って蒸留用のデータセットを作ったり、追加学習をする便利なLLMとして選ばれる可能性が高いということになります。
DeepSeek R1には中国の政治的なバイアスが強く入っていることには留意が必要ですし、入力した情報が中国政府と共有される可能性が極めて高いこともあり、クラウドサービスのDeepSeekの利用を控える動きも、アメリカ海軍、日本の省庁、韓国の省庁などに広がっています。米中間のAI開発競争も背景に、国家安全保障上の問題にまで発展しつつあります。
一方、公開されているR1オープンウェウトモデルは、独立したサーバとして運用すれば、現時点ではバックドアなどは仕掛けられておらず、大きな危険はないと考えられています。実際、1月29日にマイクロソフトがクラウドサービス「Azure」上の利用を可能にしました。マイクロソフトのサービスの中であれば、安全な環境でR1を動かすことができ、ユーザーはR1を使った、独自のサービス環境を構築できるというわけです。さらに、3日には、近日中に「Copilot」と組み合わせることでPC上でもローカルで動作させる事ができるようにするとも発表しています。マイクロソフトは、OpenAIと規約違反の問題を調べると同時に、R1の自社サービスへの組み込み自体は止めないという両面作戦を取っています。
少ない質問であっても、強力な効果を生み出す「蒸留」は、ただ、たくさんの情報を学ばせれば、AIが強力になるというこれまでの方法論とはまったく違ったものです。LLM開発の有効性は違った段階に入ろうとしています。今後、R1を使って蒸留開発をされたLLMが、次々と登場してくることは容易に予想がつきます。
筆者紹介:新清士(しんきよし)
1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。
この記事に関連するニュース
-
中国の「無名ベンチャー」がGAFAMを脅かす存在に…「中華AIショック」でこれから起きる"米中覇権争い"の行方
プレジデントオンライン / 2025年2月10日 7時15分
-
Lightblue、中国発のLLM「DeepSeek-R1」に日本語で追加学習を施したLLMを公開
PR TIMES / 2025年2月3日 10時15分
-
DeepSeek R1、無料で使えるAIとしては最強クラス
ASCII.jp / 2025年2月3日 7時0分
-
中華製AI「DeepSeek」はNVIDIAを駆逐するか 無料で性能はChatGPTにほぼ引けを取らない
東洋経済オンライン / 2025年1月28日 22時10分
-
DeepSeek、推論型LLM「R1」オープンソースで公開、OpenAI o1に匹敵、手頃なAPI料金
マイナビニュース / 2025年1月21日 8時31分
ランキング
-
1電子版「薔薇族」、Amazonで販売中止 「ポリシーにそぐわない」とアカウント即時停止に
ITmedia NEWS / 2025年2月10日 21時25分
-
2ニコニコの動画“大量削除”、ドワンゴに見解を聞いた 「これからも必要に応じて継続的に」
ITmedia NEWS / 2025年2月11日 9時20分
-
3ソフトバンクはahamoに勝ったのか、それとも負けたのか 宮川社長の答えは?
ITmedia Mobile / 2025年2月10日 19時48分
-
4無惨に電源コネクターが焼損…「RTX 5090」FEモデルでゲームプレイ中に異臭―「RTX 4090」では問題なし、TDP増の影響?
Game*Spark / 2025年2月10日 21時30分
-
5携帯値下げのせいで、「安いだけの国になり、開発力が落ちる」 ソフトバンク宮川社長が危惧すること
ITmedia Mobile / 2025年2月10日 17時32分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください