1. トップ
  2. 新着ニュース
  3. 経済
  4. ビジネス

人間に近づいた「GPT-4o」3つの進化のポイント あえて人間ぽくした?広がる「擬人化トレンド」

東洋経済オンライン / 2024年5月15日 7時0分

GPT-4oを紹介するOpenAIのミラ・ムラティCTO(写真:OpenAIのストリーミングより)

「私にとって魔法のようだ」ーー。サム・アルトマンCEOがそう予告していた新たなサービスがベールを脱いだ。

【写真】OpenAIで最高経営責任者を務めるサム・アルトマン

アメリカのOpenAIは5月13日、ChatGPTから使える新たな生成AIモデル「GPT-4o(フォー・オー)」を発表した。このAIの「知能」はこれまでのGPT-4と基本的に同じだが、応答時間を大幅に短縮するなど「使い易さ」で進化したという。

有料のGPT-4とは対照的にGPT-4oは無料ユーザーでも利用できるが、時間当たりの利用回数などが有料ユーザーに比べて制限される。無料化によってなるべく多数の利用者に使ってもらうことでChatGPTのユーザーベースを拡大し、飛躍的な進化が期待される次世代モデル「GPT-5」(まず間違いなく有料化される)のリリースに向けて足場を固めようとしている意図がうかがえる。

本稿では3つの「進化のポイント」に解説したい。

従来より「自然な会話」ができるように

その1:応答速度と使い勝手(UI:User Interface)の向上

今回の改良(GPT-4o)では特にスマホやタブレットからの利用を想定し、ChatGPTのようなAIと音声でチャットする際の応答時間を大幅に短縮した。OpenAIの発表によれば平均で0.3秒程度とされる。

またAIが話している最中にユーザーが割って入り、突如話題を変えたり新しいリクエストを出したりすることもできる。こうした工夫により、従来よりも自然で自由な会話ができるようになったという。

さらに2人のユーザーの間でAIが英語とイタリア語などの異なる言語を同時通訳するデモ動画が公開されるなど、より多彩な利用シーンを想定している。現時点で日本語を含む50種類の言語に対応しているという。

その2:ネイティブなマルチモーダル(多メディア対応)機能

テキストや画像、音声など多彩なコンテンツ(メディア)を理解して処理することができる。例えばスマホで撮影された映像に何が映っているかをAIが認識し、それによって視覚障害者に適切なアドバイスをするデモ動画が公開されている。

また自撮り写真をアップロードすると、それを基にしてAIが似顔絵(イラスト)を描いてくれたりもする。

ちなみに「GPT-4o」のoは、本来ラテン語で「全て」を意味する「omni(オムニ)」に由来するという。特に今回の場合はテキスト、動画、音声など「すべてのコンテンツ」という意味であろう。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください