生成AIのメリットだけに注目する局面は終わった 進化の速さに制度が追いついてこない現実
東洋経済オンライン / 2024年3月22日 8時30分
Transformerは2017年12月にグーグルの研究者らが考案したモデルである。当初は翻訳タスクで評価され、従来の性能を大きく上回るモデルとして注目を集め、その革新性から「ニューラル機械翻訳」と呼ばれた。
Transformerは、前述のエンコーダーと「デコーダー(復号器)」の2つの機能をつなぎ合わせた構造になっている。翻訳タスクであれば、エンコーダーによって翻訳前の文章の特徴が抽出される。抽出された特徴データは、デコーダーに入力され、翻訳先の言語に変換される。Transformerが、翻訳精度を向上できた背景には、入力される単語間の特徴を精度高く抽出できるようになったこと、学習時に並列処理可能な構造になったことが大きく寄与している。現在に至るまで、Transformerは翻訳タスクにとどまらず、画像や音声の処理にも活用されている汎用的なモデルとなっている。
もう一つのモデルであるStable Diffusionだが、これは近年の画像生成精度を大きく向上させたブレークスルーとして広く応用されているモデルである。Stable Diffusionには、潜在的拡散モデルと呼ばれる画像生成の手法が用いられている。この手法は、オリジナルの画像や音声に対しノイズを加えたデータから、元のデータを復元するアイデアに着想を得たものである。Stable DiffusionはイギリスのスタートアップであるスタビリティAIによって2022年8月に公開された。学習済みモデルも含めて公開されたため、多くのユーザーが独自に改良することが可能であったこともユーザーを爆発的に増やした要因である。
では、Soraでも採用されているDiffusion Transformerは、これら2つの技術を組み合わせてどのように実現しているのだろうか。それは、ノイズを加えた入力データから、ノイズ除去して新たなデータを生成する、というプロセスに用いられている「U-Net」と呼ばれるモデルを、Transformerに置き換えることである。
U-Netは入力画像の局所的な特徴と全体的な特徴を効率よく学習できるモデルとして知られており、元々は画像セグメンテーションの分野で使われることが多い機構である。しかし、U-Netでは各画像部分の相互作用などの関連性を捉えることにおいて弱点が存在する。それをTransformerの機構が解決し、利点である並列化によるスケールアップも可能となっているのである。
この記事に関連するニュース
-
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開
PR TIMES / 2024年5月7日 13時45分
-
Spiral.AI、Transformerの限界を克服した次世代LLMアーキテクチャ「RetNet」の学習済みモデルを公開
PR TIMES / 2024年5月1日 15時15分
-
【新刊】データサイエンティスト、AIの研究者・開発者必読の書 ChatGPTの原理から適用技術/応用の仕方、さらにはその限界まで、技術情報を完全網羅!
PR TIMES / 2024年4月25日 12時45分
-
OpenAIが日本法人を設立 日本語に最適化したGPT-4カスタムで3倍速く/Microsoft Edgeの更新で「Microsoft Copilot」アプリが導入される不具合
ITmedia PC USER / 2024年4月21日 6時5分
-
Stability AI、「Stable Diffusion 3」とチャットbot「Stable Assistant」発表
ITmedia NEWS / 2024年4月18日 8時2分
ランキング
-
1キャベツ高騰 1玉1000円!? スーパーからキャベツ消えた、春キャベツ一体どこへ?【Nスタ解説】
TBS NEWS DIG Powered by JNN / 2024年5月16日 21時20分
-
2インドネシアで3億円過大計上か トヨタ系部品メーカー
共同通信 / 2024年5月16日 22時32分
-
3クルマの価格はまだまだ上がる? 下がる要素がとても少ないワケ
ITmedia ビジネスオンライン / 2024年5月17日 6時5分
-
4NYダウ、初の4万ドルの大台突破…インフレ長期化懸念和らぎ歴史的な高値水準に
読売新聞 / 2024年5月17日 1時0分
-
5大阪名物「551蓬莱」不正転売に注意促す「責任を負いかねます」 公式ショップや目印を案内【全文】
ORICON NEWS / 2024年5月16日 18時52分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください