ChatGPTの「高度な音声」モードがビジュアル対応、スマホ画面シェアで対話する機能も

マイナビニュース / 2024年12月13日 12時28分

画像提供：マイナビニュース

米OpenAIは12月12日（現地時間）、「ChatGPT」の「高度な音声」モードにビジュアル機能とサンタ・モードを追加することを発表した。

ビジュアル機能は、ChatGPTアプリ（iOS、Android）で「高度な音声」モード使用時に、ユーザーがカメラで撮影しているビデオストリーミングからの情報も、ChatGPTとの対話に反映できる機能である。AIとの対話に言葉に加えて視覚的な情報が加わることで、AIの文脈の理解が向上し、視覚情報に基づいた情報提供（花の種類を特定など）やアシスタント（ユーザーの雰囲気に合ったファッションの提案など）、高度なデータ分析、スムーズなコミュニケーションなどが可能になる。

今年5月にOpenAIが「GPT-4o」を発表した際に、「高度な音声」モードで実現する機能の１つとしてビジュアル機能も紹介された。その際、‌ 「高度な音声」モードのスムーズな会話力とともに、ビジュアル機能の実用性と視覚認識の効果が注目を集めたが、同機能の提供は遅れていた。ユーザー待望の機能追加である。

「12 Days of OpenAI」でのデモを紹介すると、ペーパードリップ用のケトルやドリッパーなどをテーブルの上に並べ、それらにカメラを向けてChatGPTにドリップコーヒーの淹れ方を質問した。ChatGPTはユーザーが手順に従っているのを確認しながら、ステップバイステップで淹れ方を説明した。

ビジュアル機能は画面共有もサポートする。「高度な音声」モードで三点ボタンをタップして画面共有を選択すると、スマートフォンの画面に表示されていることについてChatGPTと対話できる。

ビジュアル機能は、ChatGPT EnterpriseとEduのユーザー以外に、約10日をかけてロールアウトする。

サンタ・モードは、クリスマス風にアレンジされたサンタ音声である。ChatGPTの設定の音声選択で「Santa」を選んで「高度な音声」モードを開くと、オーブがスノードームに変化し、「Ho Ho Ho」というサンタの掛け声で音声対話が始まる。サンタ・モードを使用すると、特典として初回時に「高度な音声」の制限がリセットされる。
（Yoichi Yamashita）

外部リンク

津波情報気象庁発表

地震情報

ChatGPTの「高度な音声」モードがビジュアル対応、スマホ画面シェアで対話する機能も

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed