Infoseek 楽天

映像を生成AIでテキスト化! ネットワークカメラ「ATOM Cam GPT」を試して分かった実用性

ITmedia PC USER 2024年8月1日 17時0分

 アトムテックから、新型のネットワークカメラ「ATOM Cam GPT」が登場した。スマホからパンチルトの操作が行える、屋内設置向けとしては高機能なカメラだが、最大の特徴は、映った内容を生成AIで解析し、その内容をテキスト化する機能を備えていることだ。実機を購入したのでレビューをお届けする。

●メモリーカードからeMMCに変更 スマホアプリ刷新は吉か凶か

 まずは外観から見ていこう。本製品は同社のパンチルトカメラ「ATOM Cam Swing」とよく似ているが、上部が横から見ると「コ」の字になっており、カメラ部を前に倒して完全に折りたためることが特徴だ。

 このカメラ部は、上へ135度向けられる他、折りたたむと完全に真下を向けることもできる。パンチルトタイプのカメラは水平よりも下を見るのが難しい製品も多く、上下方向に自由度が高いこの仕様は、魅力的に感じる人も多いはずだ。ただし真上までは見られないのは、既存のATOM Cam Swingと比べた時にウィークポイントとなる。

 本体に当たるキューブ部の底面には台座があり、左右350度の範囲で回転する。水平方向はほぼ全域を見られると考えてよいだろう。

 なお本製品は従来までのモデルにあったmicroSDメモリーカードスロットが廃止され、64GBのeMMCを内蔵している。容量の追加はできないが、メモリーカードだけを抜き取られる盗難事故も防止できるし、価格の中に64GB分の容量が含まれると考えればお得だ。

 本製品の映像を見るためのスマホアプリは、新バージョンの「ATOMアプリV2」へと刷新されている。旧アプリのUIは、まずカメラの一覧が表示され、そこから見たいカメラを選ぶ流れだったのに対し、新アプリのUIは、まず先頭のカメラの映像が表示され、それを下方向にスワイプすることで2番目、3番目のカメラの映像が表示される。階層構造そのものが変更された格好だ。

 この新UIは映像を見るまでのステップ数が少なくなっているため、カメラの設置台数が少ない場合は有利だが、台数が多いと目的のカメラにたどり着くまでにスワイプを繰り返さなくてはならず、ループして最初のカメラに戻れないなど、デメリットも多い。また全体的にレスポンスが遅いのも気になるところだ。詳しくは後述する。

 セットアップは従来と同じく音声でステータスを知らせながらの操作になるので、家族が寝静まった夜間などの作業には不向きだ。画面の流れ自体は、特に難しいところはない。

 ちなみに本製品は、カメラの前を人が通り掛かると「おつかれさまでした」という呼び掛けとともに、カメラ上部が物理的にお辞儀する機能を備えている。カメラの可動ギミックを教えてくれるユニークな機能だが、人が通過する方向の読み取りもできず、実用性は全くない。音量も調整できないので、セットアップを終えて動作を確認した後は無効化しておくとよいだろう。

●画角の狭さも要注意

 本製品を詳しく知るには、同じパンチルトタイプの既存モデルであるATOM Cam Swingと比較するのが手っ取り早い。そうすれば、本製品がATOM Cam Swingの上位モデルでないことも明確に理解できる。順に見ていこう。

 まず外観については、カメラ上部を開いた状態ではほぼ同じサイズで、未使用時は本製品の方がコンパクトになる。「今は撮影していません」というのを外観から判別しやすいという意味では、本製品の方が上だ。家族と共有する場合などには便利だろう。

 パンチルトの可動範囲については前述の通りで、水平方向は互角、垂直方向は真上が見られないぶん本製品の方が不利だ。もっとも真上を頻繁に撮影する機会がそう多いとは思えないので、致命的というわけではない。どちらも優秀という評価で差し支えないはずだ。

 カメラ機能における最大の違いは画角だ。ATOM Cam Swingは、パンチルトタイプでありながら120度という広い画角が売りだったが、本製品は視野角が非常に狭い。そのぶん画質は最大1080pから2Kへと向上しているが、これまでATOM Cam Swingを使っていた場所に本製品を設置して同じように使おうとすると、一度に見られる範囲のあまりの狭さに驚く。

 またパンチルトのコントロールがしづらいのも困りものだ。従来のATOM Cam Swingも決して百発百中ではなかったが、スマホアプリ画面右下に表示される仮想ジョイスティックを使って目的の方向に動かし、行き過ぎたら戻すという操作を何度か繰り返せば、そのたびに発生する角度のズレを積み重ねて、意図した角度にカメラを向けることはできた。

 ところが本製品でこれと同じ操作をすると、仮想ジョイスティックの上下/左右キーを押している時間と、移動する角度が比例しないせいで、ちょっと押しただけなのに大きくオーバーランしたり、その逆が発生したりする。この他にも正しい方向に移動する前に、指定したのと反対の向きに一瞬移動するというバグらしき挙動も見られる。

 これら操作性の悪さは、本製品と同時にリリースされた新アプリのUIも関係しているが、ATOM Cam Swingは比較的きびきび動く一方で本製品はもっさりしていることからして、純粋に本製品のパフォーマンスが低いように思える。画面上で何らかの操作をしてから実際にカメラが反応するまでのタイムラグも、本製品の方が明らかに長い。

 またこのアプリは、起動から映像表示までの時間がかかるのも困りものだ。こういったライブ機能を備えたカメラでは、思い立った時にどれだけ早く映像を見られるかが生命線だが、本製品はルーターが至近距離にある環境で10秒も20秒も待たされるのはざらで、タイムアウトも頻繁に発生する。さらに通知からアプリを開いた場合、本来ならばイベント(過去の録画)に飛ぶはずがライブに飛ぶといった、バグらしき挙動もまれに見られる。

●ナイトビジョンは非搭載

 もう1つの両製品の大きな違いとして、ナイトビジョンが非搭載であることが挙げられる。製品ページのナイトビジョンの項目には「4個のLED(5000k)」との記述があるが、これは内蔵のLEDライト×4で周囲を照らせば暗いところでも撮影可能という当たり前の事実を書いただけで、既存モデルのように赤外線を用いた暗視機能は搭載していない。ナイトビジョンという用語をこのような意味で使うメーカーは珍しい。

 また従来のATOM Cam Swingは、わずかな明かりがあればナイトビジョンをオフにしてもある程度は周囲の様子を見られたのだが、本製品は同じ環境でもほぼ真っ暗だ。当然ながら、モーションと連動してLEDライトを自動点灯させることもできず、手動でLEDライトをオンにしない限り、暗い場所では使い物にならない。

 さらに本製品は屋内用ということで防水/防じん機能も搭載しておらず、屋内/屋外を問わずに使えたATOM Cam Swingと違って利用範囲は極端に限られる。少なくとも、ATOM Cam Swingと同等以上の機能および性能を期待して買い替える製品ではないのは明らかだ。

 さらに既存モデルは、動作検知とは関係なく平時から常時録画が行えるのが一つの売りだったのだが、本製品ではそれも省かれ、動作を検知した時のみ録画する仕様に改められた。他社含め現行のネットワークカメラの中では貴重な機能だっただけに、この仕様が全モデル共通になれば、同社製品にこだわる必要がなくなるという人も少なくないはずだ。

●現状は実用性に乏しい文章生成機能

 本製品の最大の特徴は、生成AIを利用してカメラが捉えた映像を分析し、その内容を説明する日本語テキストを生成できることだ。メーカーの発売時点のリリースによると、以下の機能を実装済みであるとしている。

1. 画像付きプッシュ通知に、内容が一目で分かるように「イベントの文字要約を提供」

2. 画面内で対象物が迅速に発見できるように、物体の一括認識と正確な位置特定を提供(物体認識)

3. キーワードを入力するだけで対象の動画を素早く絞り込むことが可能な「スマート検索」

4. 「テーマをタグとして設定」しておけば、カメラが内容を監視し、検出時にプッシュ通知を送信

5. 特定の時間帯に発生した類似する内容の動画をまとめ、文字で説明を加えて閲覧しやすくする(ビデオクラスタリング)

 これらは被写体の種類ごとに、別々の有料アドオンで提供される。例えば宅内の監視は「探偵ViewSay」(月額900円)、赤ちゃんの見守りであれば「ベビーシッター奈緒」(月額900円)、猫の観察であれば「猫ちゃん観察員もも」(月額600円)といった具合にアバター付きの有料アドオンがあり、それぞれ「エージェント」と呼ばれている。クセの強さは好みが分かれるが、ひとまずメーカーがやりたいことは理解できる。

 今回は一般的な室内の観察ということで探偵ViewSayを導入した。これにより、イベントを記録する動画に付与されるキャプションが、これまでは「モーション」「人物」といった定型文だったのが、「部屋の中に〇〇が見えます」などといった、動画の内容を表したテキストへと改められることになる。

 ただし実際に試した限り、現状の実用性はほぼ皆無だ。というのもこの生成されるテキストは、検知したモーションに対してではなく、画面に映っている背景に対して生成されるケースがほとんどだからだ。

 例えばカメラの前を家族が横切った場合、ユーザーが求めるのは、家族の誰が通ったのか、またどちらの方向に通り過ぎたのか、という情報だろう。ところが本製品が生成するテキストは「白い壁の落ち着いた雰囲気の部屋です」といった、モーションとは無関係な、背景にまつわる情報ばかりだ。

 そもそも本製品は屋内用モデルであり、背景に映るのは全て見知った室内の様子だ。壁が白いです、カーテンがあります、などと日頃見慣れた部屋の様子を説明されても意味がない。このぶんだと、不在時に侵入者を検知した場合でも、言及されるのは侵入者とは無関係な、部屋の雰囲気や家具の配置だけだろう。

 もしかするとカメラの前を通過する時間が短すぎるせいかと思い、本製品をTVの画面に向けっぱなしにしてしばらく放置してみたところ、料理番組や旅番組、バラエティー、スポーツ中継など、ジャンルに応じてそれらの内容がテキスト化された。ある程度長い時間に渡って映れば、それなりにテキスト化されるようだ。対応するジャンルも、少ないわけではないようである。

 もっとも、この場合もモーション検知のきっかけになった動きは無視され、その瞬間に映っているものだけをテキスト化する傾向は変わらなかった。見た目は動画を解析しているようで、実際には静止画を解析しているのかもしれない。

 面白い傾向としては、画面に字幕が出ていると、その内容がそのままテキストに反映されることだ。おそらく画面内に文字情報があれば、テキスト化にあたって優先的に採用するロジックなのだろう。ただし字幕が必ずしも画面に映っている内容を表しているわけではないため、結果的に唐突かつ意味不明なテキストが表示されることも多く、こちらも実用性は低い。そもそも画像と照合せずに出力している時点でマイナスだろう。

 ともあれ、これら機能の本来あるべき姿は、モーションを検知した時に、そのモーションについての情報、つまり「モーションを検知した瞬間の映像」から「通常時の映像」を引いた差分の情報をテキスト化してくれることだろう。しかし現状では「通常時の映像」しか提供してくれないので、監視カメラに搭載する機能としては期待外れだ。

 このあたり、今回試していない別のエージェント(アドオン)であれば、きちんと出力されるのかもしれないが、少なくとも今回見てきた内容では、とてもではないがお勧めできるレベルにはない。前述のTVを使った実験のように、被写体が長時間映る環境であれば、多少なりとも正確にテキスト化される可能性はあるが、そうした生成AIの癖に合わせてユーザーが行動を変えなくてはならないのは本末転倒だ。

●コンセプトに完成度が追いついていない印象 今後の巻き返しに期待

 以上のように、現状のATOM Cam GPTは微妙に評価に困る製品だ。従来のカメラとの比較でいうとナイトビジョンがないこと、画角が狭いことがネックで、さらに防水仕様のATOM Cam Swingと違って設置先が屋内に限られるという問題もある。

 筆者は自宅に設置済みのATOM Cam Swingと「ATOM Cam 2」のどれかと入れ替える予定で購入したが、検討した結果どれの代替にもなり得ないと判断し、本稿執筆時点では宙に浮いてしまっている。

 一方、新機軸の機能である文章生成は、映像の差分をきちんとテキスト化されるようになれば、例えば窓から屋外に向けて設置することで「黒い車が横切りました」とか、「赤い服を着た人が玄関に立っています」といった具合に、知りたい情報をテキストで通知してくれれば重宝しそうだが、現状ではその域に達しておらず、最終的にそこまでの完成度に到達するかは現時点で未知数だ。

 ざっと試した限り、コンセプトは理解できなくはないが、実際の挙動が的外れであり、しかもそれが月額制の有料アドオンとなれば、ユーザー側としてもわざわざ人柱になる必然性がない。無料の試用期間を長くすればどうにかなるという問題でもなく、世に出すのが早すぎた製品という印象だ。

 価格は8280円と、屋外対応かつナイトビジョンを搭載したパンチルト対応モデルであるATOM Cam Swingの5680円よりもかなり高い。本稿執筆時点では4980円という早割価格で提供されているが、つぶしの利かない製品ということもあり、わざわざ手を出す理由が見つからない。現状ではメーカー自身も方向性を見失っているように感じられ、今後どのように巻き返していくかに注目したい。

この記事の関連ニュース