生成AIのメリットだけに注目する局面は終わった進化の速さに制度が追いついてこない現実

東洋経済オンライン / 2024年3月22日 8時30分

生成AIの進化はとどまるところを知らないが、一方で問題も抱えている（写真：Supatman／PIXTA）

2023年におけるAIの話題は、もっぱらChatGPTをはじめとする「生成AI」が中心であった。2024年に入ってからは、非常にリアルな動画を生成する「Sora」の登場や、GPT-4を超えるとも言われる「Claude 3」の登場で、その進化はとどまるところを知らない。

本記事では、生成AIがどのようにビジネスを進化させるかを描いた『AIナビゲーター2024年版』の筆者の1人で、NRIデジタルエキスパートデータサイエンティストの阿部将大氏が、活用範囲を広げる生成AIが一方で抱えている問題点について解説する。

テキストに限らない生成AIの広がり

OpenAIがリリースしたChatGPTは、まるで人と会話しているかのような流暢なテキストを生成できることから、非技術者にも非常に注目を浴びることになった。ChatGPTの登場からすでに1年以上経っているが、LLM（大規模言語モデル）に代表される生成AIモデルの開発や活用に関する話題はとどまるところを知らない状況である。

最近のトピックとして、盛り上がりを見せているのは「マルチモーダルLLM」であろう。従来のLLM入出力はテキストに限られていたが、さまざまな形式のモダリティ（情報）を扱うことができる大規模モデルの開発が進んでいる。具体的には画像、動画、音声などの多様なモダリティが含まれる。各モダリティ単体に特化したモデルは以前から研究されており、それらのモデルのエンコーダー（符号器）と呼ばれる特徴抽出器を組み合わせてさまざまなモダリティを扱うことができるのである。

入力情報にテキスト以外を用いることができるようになると、生成AIの活用範囲は大きく広がることになる。

例えば、Adobeは音楽の作成・編集作業をテキストによるプロンプトで行うことができるツール「Project Music GenAI Control」を発表するなど、クリエイティブ領域にも新たな活用可能性を秘めている。その中でも特筆すべき最新の動向として、OpenAIによる「Sora」を内部の技術に触れながら紹介する。

高度な動画生成を支える技術

Soraはテキストから高品質のビデオを生成することができるモデルであり、従来のマルチモーダルLLMの能力を大幅に拡張している。特に、Soraは長時間の動画を生成し、複雑な3Dシーンや動的な物体の追跡など、細部にわたるリアリティを実現している。

Soraに用いられている技術の核となる「Diffusion Transformer」は、2023年に発表されたモデルアーキテクチャである。しかし、この技術はまったく新しい概念ではなく、近年のAI技術の進化を支える2つの主要なモデルのエッセンスを巧みに組み合わせて実現されたものである。その2つのモデルとは、「Transformer」と「Stable Diffusion」である。