1. トップ
  2. 新着ニュース
  3. 経済
  4. ビジネス

生成AIのメリットだけに注目する局面は終わった 進化の速さに制度が追いついてこない現実

東洋経済オンライン / 2024年3月22日 8時30分

Transformerは2017年12月にグーグルの研究者らが考案したモデルである。当初は翻訳タスクで評価され、従来の性能を大きく上回るモデルとして注目を集め、その革新性から「ニューラル機械翻訳」と呼ばれた。

Transformerは、前述のエンコーダーと「デコーダー(復号器)」の2つの機能をつなぎ合わせた構造になっている。翻訳タスクであれば、エンコーダーによって翻訳前の文章の特徴が抽出される。抽出された特徴データは、デコーダーに入力され、翻訳先の言語に変換される。Transformerが、翻訳精度を向上できた背景には、入力される単語間の特徴を精度高く抽出できるようになったこと、学習時に並列処理可能な構造になったことが大きく寄与している。現在に至るまで、Transformerは翻訳タスクにとどまらず、画像や音声の処理にも活用されている汎用的なモデルとなっている。

もう一つのモデルであるStable Diffusionだが、これは近年の画像生成精度を大きく向上させたブレークスルーとして広く応用されているモデルである。Stable Diffusionには、潜在的拡散モデルと呼ばれる画像生成の手法が用いられている。この手法は、オリジナルの画像や音声に対しノイズを加えたデータから、元のデータを復元するアイデアに着想を得たものである。Stable DiffusionはイギリスのスタートアップであるスタビリティAIによって2022年8月に公開された。学習済みモデルも含めて公開されたため、多くのユーザーが独自に改良することが可能であったこともユーザーを爆発的に増やした要因である。

では、Soraでも採用されているDiffusion Transformerは、これら2つの技術を組み合わせてどのように実現しているのだろうか。それは、ノイズを加えた入力データから、ノイズ除去して新たなデータを生成する、というプロセスに用いられている「U-Net」と呼ばれるモデルを、Transformerに置き換えることである。

U-Netは入力画像の局所的な特徴と全体的な特徴を効率よく学習できるモデルとして知られており、元々は画像セグメンテーションの分野で使われることが多い機構である。しかし、U-Netでは各画像部分の相互作用などの関連性を捉えることにおいて弱点が存在する。それをTransformerの機構が解決し、利点である並列化によるスケールアップも可能となっているのである。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください