1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

AI・コンピュータビジョン分野における世界最高峰の国際会議「CVPR2024」にて論文採択 ~現代的な畳み込みネットによりAIの説明性が劇的に改善~

Digital PR Platform / 2024年3月14日 20時5分

WSOLは、画像分類のためのAIモデルを用いて、分類クラスだけではなく、オブジェクトが画像内のどこにあるのかという位置情報まで特定するタスクです。このタスクにおける古典的な手法として有名なアルゴリズムがCAMです。CAMはAIによる画像分類の予測根拠として、画像内の実際のオブジェクト領域を正確に炙り出すように設計されたアルゴリズムです。しかし実際のCAMにはオブジェクト全体ではなく、その一部分のみを根拠として抽出する傾向があります。例えば図の一番上の例では、鳥の顔部分にのみ焦点が当たっています。このようにCAMはオブジェクト全体の位置を正確に特定できない問題を抱えており、これまで巧妙に工夫された数多くの改善アルゴリズムが提案されてきました。
(添付:従来のWSOL手法と提案手法の比較)




◆ 成果

本研究では、ラージカーネルCNNが高いWSOL性能(位置特定の性能)を示すことが明らかにされ、さらにその要因が徹底的に解析されています。まず既存の見解の妥当性について検証するため、有効受容野サイズがWSOL性能を向上させるかどうかを調査しました。その結果、有効受容野が性能向上を導くという従来の見解を支持しないいくつもの実験結果が提示されました。

次に本研究では、解析により得られた数々の発見を報告しています。第一に、現代的なラージカーネルCNNでは従来のCAMが抱えていた問題点が自動的に解消されていることが明らかになりました。2016年にCAMが登場して以来、その改善のために多くの手法が提案されてきました。しかし本研究では、ラージカーネルCNNとCAMを組み合わせるだけで、過去の数多くの研究の大半を上回るWSOL性能を実現しました。これは、ラージカーネルCNNが先天的に画像特徴量のグローバルな情報を過不足なく捉えられるためです。

さらに画像特徴量の主成分分析(PC1)を行うだけで、オブジェクトの位置を精密に特定できることを発見しました。この新たな手法により、CNNを用いたWSOLの最先端性能が達成されました。これらの発見を踏まえ私たちは、ラージカーネルCNNが様々なタスクで高い性能を示す要因は、アーキテクチャの先天的な能力とそれにより得られる画像特徴量の改善によるものであるとする、独自の見解を示しました。


◆ 展望

説明性アルゴリズムは、AIの透明性を高める手法として社会から大きな期待を寄せられています。しかし実際には、既存の説明性アルゴリズムでは手法ごとに説明結果が大きく変化し、十分信頼できる結果が得られていません。本研究では、最新の画像AIモデルの性能改善が、結果として古典的な説明性アルゴリズムから得られる説明結果も大きく改善し得ることを明らかにしました。このような発見は、説明性アルゴリズムの挙動を解明し、透明性を備えたAIの運用をより現実的なものにします。高い信頼性を備えたAIが得られれば、未知の科学的知識をAIから引き出したり、AIが学習から獲得した知見をAIから直接学ぶことができるなど、幅広い活用が期待できます。こうした人間社会のより深い部分で役にたつAIを見据えて、今後も研究を進めて参ります。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください