Infoseek 楽天

韓国ネイバー、画像・音声AI技術を「慎重に高度化」

KOREA WAVE 2024年8月27日 13時0分

ネイバー提供(c)news1

【KOREA WAVE】韓国の大手インターネット企業ネイバーは、画像分析と音声生成の人工知能技術を公開し、マルチモーダルAIサービスの分野でさらに進化する計画を発表した。ネイバーはオープンAIやグーグルに遅れを取っているが、慎重にAI技術の開発を進めている。

ネイバーは23日、サービスアップデート(27日)で対話型AIエージェント「Clova X」に視覚情報処理機能を新たに追加すると発表した。このアップデートにより、ユーザーはClova Xのチャット画面に画像をアップロードし、画像から抽出された情報を基にAIとの会話が可能になる。

具体的には、Clova Xは写真の中の現象を説明し、写真を見ながら新しい創作もできる。例えば、図形を含んだ数学問題の画像を入力すると、問題を解き、解答を提供する。また、ネイバーは動画を視覚的に理解し、AIとの対話が可能な技術も研究しており、将来的には1時間以上の映画をAIが理解することも目指している。

さらに、ネイバーは超巨大言語モデル「HyperClova X」に基づいた音声AI技術「Speech X」(仮称)も公開した。これは従来の音声認識や音声合成技術をさらに発展させたもので、1~2秒の声のデータから音声を生成し、会話を続けることが可能である。この「1~2秒」という時間は、グローバル基準でも最短の水準とされている。

ネイバーはこのSpeech Xを基盤に、グーグルの音声AIアシスタント「ジェミニライブ」のようなサービスの提供を計画している。ジェミニライブは、どこでも音声で質問に答えたり、スケジュールを管理したりすることができる技術だ。

一方で、ネイバーはまだ画像生成や動画制作のサービスは公開していない。技術開発は進められているが、ディープフェイクなどの悪用のリスクを懸念しているためだ。実際、グーグルは画像生成機能を公開したものの、歴史的な人物の画像を誤って生成するなどのエラーが発生し、20日後にサービスを中止した経緯がある。

音声合成技術についても、セレブや政治家の声を模倣した犯罪への懸念があり、慎重な検討が続けられている。ネイバーは既にグローバル基準の音声合成技術を開発しているが、どのサービスにどのように適用するかはまだ決まっていない。

ネイバーの関係者は「技術が悪用される恐れがあるため、技術的な完成度を高めてからサービスを公開するのが適切だと考えている」と述べ、技術の更新は慎重に進めると強調した。また「Clova XはAIアシスタントサービスとしてのアイデンティティを持ち、継続的にアップデートする」と伝えた。

(c)news1/KOREA WAVE/AFPBB News

この記事の関連ニュース