生成AIのメリットだけに注目する局面は終わった 進化の速さに制度が追いついてこない現実
東洋経済オンライン / 2024年3月22日 8時30分
Transformerは2017年12月にグーグルの研究者らが考案したモデルである。当初は翻訳タスクで評価され、従来の性能を大きく上回るモデルとして注目を集め、その革新性から「ニューラル機械翻訳」と呼ばれた。
Transformerは、前述のエンコーダーと「デコーダー(復号器)」の2つの機能をつなぎ合わせた構造になっている。翻訳タスクであれば、エンコーダーによって翻訳前の文章の特徴が抽出される。抽出された特徴データは、デコーダーに入力され、翻訳先の言語に変換される。Transformerが、翻訳精度を向上できた背景には、入力される単語間の特徴を精度高く抽出できるようになったこと、学習時に並列処理可能な構造になったことが大きく寄与している。現在に至るまで、Transformerは翻訳タスクにとどまらず、画像や音声の処理にも活用されている汎用的なモデルとなっている。
もう一つのモデルであるStable Diffusionだが、これは近年の画像生成精度を大きく向上させたブレークスルーとして広く応用されているモデルである。Stable Diffusionには、潜在的拡散モデルと呼ばれる画像生成の手法が用いられている。この手法は、オリジナルの画像や音声に対しノイズを加えたデータから、元のデータを復元するアイデアに着想を得たものである。Stable DiffusionはイギリスのスタートアップであるスタビリティAIによって2022年8月に公開された。学習済みモデルも含めて公開されたため、多くのユーザーが独自に改良することが可能であったこともユーザーを爆発的に増やした要因である。
では、Soraでも採用されているDiffusion Transformerは、これら2つの技術を組み合わせてどのように実現しているのだろうか。それは、ノイズを加えた入力データから、ノイズ除去して新たなデータを生成する、というプロセスに用いられている「U-Net」と呼ばれるモデルを、Transformerに置き換えることである。
U-Netは入力画像の局所的な特徴と全体的な特徴を効率よく学習できるモデルとして知られており、元々は画像セグメンテーションの分野で使われることが多い機構である。しかし、U-Netでは各画像部分の相互作用などの関連性を捉えることにおいて弱点が存在する。それをTransformerの機構が解決し、利点である並列化によるスケールアップも可能となっているのである。
この記事に関連するニュース
-
医師とのタッグで挑む、医療用マルチモーダルAIの先駆け的研究
ASCII.jp / 2024年7月2日 10時0分
-
生成AIの動作原理を基礎から学ぶ【 Transformer講座 】複数社合同講座 iLect Academy 開催決定
PR TIMES / 2024年6月27日 12時15分
-
スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
共同通信PRワイヤー / 2024年6月25日 14時0分
-
<2024 AIトレンド通信 5月>OpenAIがSpring Updateにて「GPT-4o」発表
PR TIMES / 2024年6月18日 13時45分
-
AIに難しい「時間的な動き」の理解、動画-自然言語モデルで目指す突破口
ASCII.jp / 2024年6月13日 10時0分
ランキング
-
1FRBの利下げ開始「9月」の見方強まる…6月の米雇用統計、人手不足の緩和傾向で
読売新聞 / 2024年7月6日 22時30分
-
2サクランボ王国・山形県に異変 6月の暑さで収穫減、対策急務
共同通信 / 2024年7月6日 16時15分
-
3最悪、〈和式トイレ〉で助けを求める事態にも…老後の健康維持のために取り入れておきたい「超簡単な習慣」【60代の人気エッセイストが助言】
THE GOLD ONLINE(ゴールドオンライン) / 2024年7月7日 10時0分
-
4日本の中古車相場が「ロシア」の影響で下落!? 厳しい「輸出規制」のなかで「売れている」クルマも? 意外な“ロシア行き日本車”とは
くるまのニュース / 2024年7月6日 12時10分
-
5ミニストップ“大量閉店”でもスイーツ人気は底なし!? 「ソフトクリーム」や「ハロハロ」がいつの間にか遂げた進化
集英社オンライン / 2024年7月6日 19時0分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください