1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

AIが作る3Dモデルの完成度が上がってきた 毎回異なるモンスターが生成されるゲームも実現か

ASCII.jp / 2024年6月17日 7時0分

筆者がTripoを使って生成した3Dモデル

 2023年後半、3Dモデルのサービスの登場が相次ぎましたが、品質的にはまだまだという印象でした。しかしここにきて、使いものになる可能性が見える段階に入り始めています。中国系のAIスタートアップTripo AIの「Tripo」です。昨年12月にStable DiffusionのStability AIと共同開発した「Tripo SR」を発表。この技術を組み込んで、生成する3Dモデルの品質を引き上げてきているようです。3D技術を知らないゲーマーが自由に3Dを生成する時代を夢見ているようです。

3D生成サービスに新たな技術革新

アレン人工知能研究所のObjaverse-XLのページ

 2023年後半から今年頭にかけて、Luma AIの「Genie」、Common Sense Machinesの「Cube」、Meshyの「Meshy 2」など、一斉に3D生成サービスが開始したのは大きな要因がありました。2023年5月に、自由に使える3Dモデルの学習データ「Objaverse 1.0」がリリースされたことです。

 このデータには約80万個もの3Dオブジェクトが含まれていました。それらのデータは高品質な3Dデータで作成されて、詳細な形状やテクスチャを持っています。また、それぞれのオブジェクトにはその種類、素材、パーツ、機能といった詳細なアノテーションが付与されています。この開発は、マイクロソフト共同創業者の故ポール・アレン氏が設立したアレン人工知能研究所が主導したもので、学習用のデータはHuggineFaceやGitHiubから、誰でも無料でダウンロードできます。

 それ以前も3Dの学習用データは存在していましたが、小規模でデータの内容もまちまちでした。Objaverseの登場よってAI研究者やAI開発企業の開発熱が一気に高まり、半年余りの後に、商用向け3Dモデル生成サービスが次々に登場するようになったのです。さらに、2023年12月には「Objaverse-XL」が発表。データは3Dソフトの「Blender」でも読み込める1000万個以上の3Dオブジェクトが含まれており、現在の研究開発用の3Dデータとしては一般的なものになっています。

 AIで3Dを生成するためには、ある3Dオブジェクトが様々な角度から見て、同じものであると認識させ、それをAIに学習させる必要があります。そのためには品質の高い、多数の3Dデータが必須なのです。

 2023年4月にコロンビア大学が発表した「Zero-1-to-3」は、1枚の画像からの3Dモデルの生成を可能にする画期的な技術でした。この技術をベースに、Stablity AIが「Stable Diffusion 1.4」を使って学習させることで、より高品質な画像を作れると考えて開発したのが、2023年12月発表の「Stable Zero 123」でした。厳選したObjaverseの3Dデータを学習に活用したりすることで、1枚の画像から生成する3Dモデルの品質を引き上げています。その後、3月には「Stable Video 3D」をリリースし、商用利用可能な環境の整備を進めています。

3月に発表されたStable Zero 123

 一方で、Stability AIはTripoと共同開発という形で5月に「Tripo SR」という技術を発表しました。これは2023年に中国の南洋理工大学が発表した「大規模再構成モデル(LRM)」という研究を拡張したものです。Objaverseなどから約100万個のオブジェクトを学習し、5億個の学習可能なパラメータを持つ拡散ベースのアーキテクチャで、入力画像を利用して3Dモデルデータ(NeRF)を予測するというモデルでした。AI分野では一般的なサーバ環境の「NVIDIA A100」を使って生成した場合、わずか数秒で3Dオブジェクトの生成することを実現するというものです。Tripo SRでは、LRMだけでなく、Stable Diffusion 1.4を使った生成などの複数の方法論を組み合わせることで、生成速度と品質を引き上げるという方法です。

3Dモデルが10秒足らずで生成される

 Tripoは、中国のAI大手・商湯科技(センスタイム)やテンセントの出身者が2023年3月にCG技術のAIによる自動化を目指して立ち上げた中国系のスタートアップ。現在サービス展開をしているTripoが、内部的にTripo SRに切り替わったのかどうかは正式にアナウンスされていないので不明ですが、実際には3Dモデルを生成させると10秒も経たず、プロンプトや画像に合わせた3Dモデルが生成されるため、同様の技術が使われていると推定されます。

 Tirpoは、テキストプロンプトを入力するか、1枚の画像を入力するかで生成すると、4枚の3Dモデルを10秒程度で生成します。そのなかから詳細化するモデルを選択すると、さらに10分程度かけて高画質な「Hi-Resモデル」が作られるという仕組みです。第一段階として粗い3Dモデルをまず短い時間で生成し、第二段階で、詳細な3Dモデルを作成するというプロセスは、Tripoが高品質な3Dモデルを作るために、早い段階から考えていたアイデアのようです。画像を指定しない場合は、プロンプトに合わせてStable Diffusionなりで1枚絵の画像を生成して、それを3D化しているものと推測されます。

Tripoで、Japanese anime style girlで、第一段階の荒い3Dモデルを生成したもの。4つのモデルが約10秒で生成される。それぞれを角度を変えて見ることがもちろん可能
一番左側のモデルを選択して、詳細なハイレゾ化してみた。生成には10分あまりかかる
角度を変えてみたもの。完璧とまでは言えないが、それなりに3Dモデルが生成できている。3DモデルフォーマットのGLBとしてダウンロードできる

 今度は1枚絵からの3Dモデル生成をしてみます。ベースとなる画像はMidjouneryで作成したもの。学習サイズの影響か、ちびキャラタイプで正面からのものの方が、精度が高く生成されやすい傾向があるようです。そのような画像を作成して、Tripoに読み込んで生成します。画像からの場合は、1種類しかモデルは生成されません。ハイレゾモデルまで作成後に、人間型と認識できた場合は、スケルトン(骨)を生成することができ、簡易的なアニメーションを付けて表示させることができます。

Midjouneyで作成した画像(左上)をTripoで3D化したものの正面(右上)、横(左下)、後ろ(右下)。カバンを背負っていると判定されて、カバンが独自形状として生成されている
▲スケルトンを作成し、歩くアニメーションを動作させている状態。腕とスカートがくっついてしまった。画像をTポーズにするなどの工夫が必要

 一枚絵から3Dを生成する場合、その品質は画像がAIによって解釈しやすいかどうかで成功確率が変わってくるようです。そのため、3D化を成功させるには利用者側もトライ・アンド・エラーが必要になると思われます。

 Tripoは有償サービスで毎月付与されるポイントを使って、それぞれの生成段階でポイントを消費する仕組みです。無料のベーシックプランでも、月に5体程度作成することが可能なのですぐに試すことができます。

 画像からの3Dモデル化の研究は着々と進んでおり、ユーザー間でも各社の生成モデルの比較がされています。「他社に比べてTripoの完成度は高い」といった検証動画も上がっています。しかし、5月には競合Meshyの「Meshy 3」も発表され、競争は続いています。今後、Objaverse-XLを使った学習結果が反映されることで、品質はさらに上がっていくものと考えられます。

▲4社のサービスを比較した動画。Tripoの完成度が高いようにみえる

ユーザーの間では生成3Dモデルを使った実験が始まっている

 こうして、3Dデータ生成サービスではある程度の性能向上が起きているものの、まだ商用開発にそのまま使えるという水準には至っていません。しかし、部分的に使えるのではないかという実験はすでに始まっています。

 個人ゲーム開発者のかんさんは、一人でゲーム開発をするうえで、生成AIを利用してアセット類をすべて作って開発する作業を進めています。元となる画像はStable Diffusionを使い、Tripoを利用して3Dモデルを生成し、Unreal Engine 5環境に読み込んで設定する形です。

 動画の素材として利用するのであれば、すでに使える可能性も出てきています。toyxyzさんは、3Dで生成した「女性」と「鳥居」と「灯籠」を簡易配置した画像を作り、さらにStable DiffusionのImage-to-Image(i2i)で参照画像を作成。それを、Luma AIのDream Machineに読み込ませて、動画を作成するテクニックを公開しています。他の生成AIを使って、2Dの動画素材として扱うためには、完璧な3Dモデルである必要性はないのです。

「毎回違うモンスターを生成するゲーム」の登場も予期される

 Tripo AIのソン・ヤチェンCEOは、2024年1月のブログで、「3D業界の利用者は、4つのレベルに分かれている」と興味深いことを述べています。

 第1のレベルは、伝統的なプロ用の3Dツールを使っているユーザーで、中国では約10万人。

 第2のレベルが、Blenderのようなプロ用3Dツールを使っているが、仕事には特化していない非プロの3Dクリエイター。中国では100万人、全世界では数千万人に達しているとしています。

 第3のレベルがゲームユーザーで、3Dコンテンツを作成する能力がなく、体系的に学ぶ方法も知らない人たち。「メインストリーム」とソン氏は呼んでいます。

 第4はAIに目的を見出していないでなんとなく試してみたいというさらに外側の層です。

 そして、Tripo AIはこの第2、第3の層をターゲットにしているというのです。Tripoをゲームの中に簡単に組み込み、毎回違うモンスターを生成して召喚したりできるようなゲームが、3D知識を持たないユーザーに普及するように使われる時代が登場すると予測しているのです。

 ソン氏は、Tripo AIの「ビジョンは3Dコンテンツの生産性を解放すること」としており、「3Dは障壁の高い分野ですから、"飽和イノベーション "が重要です」と述べています。これは誰でも意識しないで、簡単に3Dが作れてデータあふれかえるような状況を目標としていると言えます。実際、現在、Tripo AIは他のアプリケーションからも利用できるようにAPIの整備を進めています。

 2Dから、3Dへと、生成AIの世界は着実に広がり続けています。ゲームで、毎回自分の違った3Dキャラクターを生成し、自由に使えるようになる世界。そうした時代が、着実に迫ってきているようです。

 

筆者紹介:新清士(しんきよし)

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください