1. トップ
  2. 新着ニュース
  3. IT
  4. デジタル家電

映像を生成AIでテキスト化! ネットワークカメラ「ATOM Cam GPT」を試して分かった実用性

ITmedia PC USER / 2024年8月1日 17時0分

●現状は実用性に乏しい文章生成機能

 本製品の最大の特徴は、生成AIを利用してカメラが捉えた映像を分析し、その内容を説明する日本語テキストを生成できることだ。メーカーの発売時点のリリースによると、以下の機能を実装済みであるとしている。

1. 画像付きプッシュ通知に、内容が一目で分かるように「イベントの文字要約を提供」

2. 画面内で対象物が迅速に発見できるように、物体の一括認識と正確な位置特定を提供(物体認識)

3. キーワードを入力するだけで対象の動画を素早く絞り込むことが可能な「スマート検索」

4. 「テーマをタグとして設定」しておけば、カメラが内容を監視し、検出時にプッシュ通知を送信

5. 特定の時間帯に発生した類似する内容の動画をまとめ、文字で説明を加えて閲覧しやすくする(ビデオクラスタリング)

 これらは被写体の種類ごとに、別々の有料アドオンで提供される。例えば宅内の監視は「探偵ViewSay」(月額900円)、赤ちゃんの見守りであれば「ベビーシッター奈緒」(月額900円)、猫の観察であれば「猫ちゃん観察員もも」(月額600円)といった具合にアバター付きの有料アドオンがあり、それぞれ「エージェント」と呼ばれている。クセの強さは好みが分かれるが、ひとまずメーカーがやりたいことは理解できる。

 今回は一般的な室内の観察ということで探偵ViewSayを導入した。これにより、イベントを記録する動画に付与されるキャプションが、これまでは「モーション」「人物」といった定型文だったのが、「部屋の中に〇〇が見えます」などといった、動画の内容を表したテキストへと改められることになる。

 ただし実際に試した限り、現状の実用性はほぼ皆無だ。というのもこの生成されるテキストは、検知したモーションに対してではなく、画面に映っている背景に対して生成されるケースがほとんどだからだ。

 例えばカメラの前を家族が横切った場合、ユーザーが求めるのは、家族の誰が通ったのか、またどちらの方向に通り過ぎたのか、という情報だろう。ところが本製品が生成するテキストは「白い壁の落ち着いた雰囲気の部屋です」といった、モーションとは無関係な、背景にまつわる情報ばかりだ。

 そもそも本製品は屋内用モデルであり、背景に映るのは全て見知った室内の様子だ。壁が白いです、カーテンがあります、などと日頃見慣れた部屋の様子を説明されても意味がない。このぶんだと、不在時に侵入者を検知した場合でも、言及されるのは侵入者とは無関係な、部屋の雰囲気や家具の配置だけだろう。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください