Axcxept社、画像認識AIを高速開発で進化させた「EZO-VLM」を発表

PR TIMES / 2024年8月5日 10時0分

- SakanaAI社のオープンソースモデルを基に日本語処理と画像認識・説明能力を大幅向上、既存サービスへの統合も計画 -

[画像1: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-0286ad4a07f073472f1413a2f6aa41d0-1920x1080.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
DomainLLM：Domainに特化したベースとなる大規模言語モデルをパッケージ化し、企業特化型のAIモデルを従来の手法よりも期間・費用を抑えて実現。背景には弊社：Axcxept株式会社にて発明した独自開発手法「EZO」を用いたチューニングにより実現している

- セキュアAIソリューション「SecureChat+」とドメイン特化型AI「DomainLLM」にVision機能を統合予定 -
Axcxept株式会社（本社：北海道、代表取締役：Kazuya Houdatsu）は、SakanaAI社が提供するオープンソースモデルをベースに、独自のチューニング技術を用いて画像認識と日本語処理能力を大幅に向上させた新しいVision-Language Model（VLM）「EZO-VLM」シリーズを本日発表しました。この新モデルは、テキスト生成だけでなく画像理解能力も備えており、Axcxept社の主力サービスである「SecureChat+」と「DomainLLM」に統合されることで、より幅広い業界でのAI活用を促進します。

Axcxept社は、直近数ヶ月間で連続的な技術革新を達成しています：
- 7月：「EZOシリーズ」の「gemma-2-9B」ベースモデルで、軽量ながら上位モデルに匹敵する日本語性能を実現。プレス：https://prtimes.jp/main/html/rd/p/000000003.000129878.html

- 8月初旬：「Llama-3.1-70B」ベースモデルで、OpenAI社のGPT-4o-miniと同等以上の日本語性能を達成。プレス：https://prtimes.jp/main/html/rd/p/000000004.000129878.html

- 8月中旬：超軽量モデル「gemma-2-2B」の性能を、発表翌日に大幅向上させたモデルをリリース。プレス：https://prtimes.jp/main/html/rd/p/000000005.000129878.html

今回の「EZO-VLM」シリーズの開発成功により、Axcxept社独自のEZOトレーニング手法が画像認識を含むVisionモデルにも有効であることが証明されました。この一連の成果は、当社の高速かつ効率的なモデル最適化技術の優位性を示しています。

「EZO-VLM」シリーズの特徴と成果
「EZO-VLM」シリーズは、SakanaAI社が開発した高性能な画像解析オープンソースＡＩモデル「Llama-3-EvoVLM-JP-v2」をベースに、Axcxept社独自のチューニング技術「EZO」を適用することで開発されました。主な特徴と成果は以下の通りです：
- 画像認識能力の向上：ベースモデルの優れた視覚認識能力をさらに改善し、より正確で詳細な画像理解を実現しました。（日本語／英語にかかわらず向上）
- 日本語処理能力の強化：日本語でのテキスト生成と理解能力を大幅に向上させ、より自然で文脈に適した応答が可能になりました。
- 圧倒的に短縮したトレーニング時間：汎用的な言語力・認識力を向上させるために行った、本取り組みにおいてかかったトレーニング作業時間は以下の通り
- - 時間：8 時間（当社保有の事前作成済みデータセットを用いたトレーニング結果による）

【ElyzaTasks100による、日本語テキスト生成能力の比較】
[画像2: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-ff06e090681d92b1a0d91e9c9b037608-1290x330.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
日本語性能を評価する「ElyzaTasks100」にて、画像認識を除くテキスト生成能力自体が元となるモデルから0.71ポイント向上。ElyzaTasks100とは、100問の様々な日本語によるタスク（指示）に対し、AIが出力した結果を人間またはＡＩによる自動評価を行いスコアリングする手法。

【GPT-4oを用いた、画像を理解／説明する能力の比較】
日本語の性能向上を図り、日本語での回答性能が向上。
[画像3: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-3fc5cd51849253864c49d44c64135f6b-1310x431.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
４種類のサンプル画像に関し、いずれの画像に対しても、ベースモデルよりも認識力・説明力に関し、正確さ・流暢さにおいて向上。GPT-4oは、OpenAI社が開発した、2024/8/5時点で最高峰のテキスト生成・画像認識能力を持つとされるAIモデル。

実際の出力と評価
- 例１.：火山を説明したHuggingFace上に存在しているイラストに対する日本語での説明以下のように、GPT-4, SakanaAI社ベースモデル、弊社 EZOモデルそれぞれで同じ写真・同じ指示をし、AIによる画像解析結果の文章を出力。出力結果を、現在画像解析・推論能力最高峰といわれている、GPT-4oにて分析を実施。

[画像4: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-066eaf263985aeef79ef030776496a25-964x490.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

[画像5: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-f9b65139c77c7d0e22f7f538a5a85b5c-889x1231.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
GPT-4oにより、各AIの画像解析に対する解説テキストを評価した結果。ベースとなるSakanaAI社のモデルよりも日本語性能において高い評価を出すことに成功。

- 例２.：東京タワーの写真に対する英語での説明

以下のように、英語の性能も失われていない。
[画像6: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-3eae42f07133b76c94d4788738b58f3e-391x538.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

[画像7: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-9e13aa5017318d75b05a4bd341fc4ad2-563x498.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
EZO-VLM1が良い結果を得られている状況。日本語性能と英語のバランスが良い。

技術的成果と実績
Axcxept社の「EZO」チューニング技術は、これまでにも様々なLLMモデルで高い成果を上げてきました。直近では、Google社の「Gemma-2 2B」モデルに対して驚異的な速さで日本語処理能力を向上させ、パラメータ数が遥かに多い大規模モデルを上回る性能を実現しています。
参考プレスリリース：
- https://prtimes.jp/main/html/rd/p/000000005.000129878.html
- https://prtimes.jp/main/html/rd/p/000000004.000129878.html

モデルページ
このモデルおよび、デモ環境は、以下のページにて公開しています。

モデル：
https://huggingface.co/HODACHI/Llama-3-EZO-VLM-1

デモ：
https://huggingface.co/spaces/HODACHI/Llama-3-EZO-VLM-1

既存サービスとの連携
Axcxept社は、この新しい「EZO-VLM」技術を既存の主力サービスに統合することで、より包括的なAIソリューションを提供します：

- SecureChat+：企業向けセキュアAIソリューションに視覚認識機能を追加し、画像を含むより幅広い情報処理を可能にします。これにより、製造業での品質管理や医療分野での画像診断支援など、新たな用途が開拓されます。
- DomainLLM：各業界に特化したAIモデルに視覚機能を組み込むことで、例えば不動産業での物件画像評価や、小売業での商品画像認識、医療業界における画像診断の支援など、より高度な業務支援が可能になります。

今後の展開
Axcxept社は、「EZO-VLM」シリーズの継続的な改善と、さらなる応用分野の開拓を進めていきます。具体的には以下の取り組みを予定しています：

- より大規模なデータセットを用いたモデルの精度向上
- 産業別の特化型VLMモデルの開発
- リアルタイム画像処理に対応した軽量モデルの提供
- マルチモーダルAIを活用した新サービスの開発

SakanaAI社の優れた技術をベースに、私たちの独自技術で更なる進化を遂げられたことを大変嬉しく思います。北海道の小さな企業からでも、世界に通用する技術革新が生まれることを示せたと自負しています。

今後も、AI×Human Synergyを通じて、日本のAI活用を加速させ、ＡＩに強い日本を地方から創造していきます。

留意事項
SakanaAI社のモデルを活用させていただいておりますが、Axcxept社及び、本モデル・本スペースに関し、直接的な関係性は一切ございません。Axcxept社からはリスペクトを示しております。
SakanaAI社には直接関係のない内容となりますため、本件にかかわるSakanaAI社へのお問い合わせはご遠慮ください。

[画像8: https://prcdn.freetls.fastly.net/release_image/129878/6/129878-6-a8cd2eee7ec74d4d118a0efff0fc75f3-3125x1238.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

会社概要
- 社名：Axcxept株式会社
- 代表：Kazuya Houdatsu
- 所在地：札幌市白石区東札幌5-1-1-1 札幌市産業振興センター
- 事業内容：AI言語モデルの開発・提供、AIシステム開発、LLM研究、Webサイト制作、クラウド基盤構築ほか
- ホームページ：https://axcxept.com

お問い合わせ先
- 担当：代表 Kazuya Houdatsu
- Email：info@axcxept.com
- X：@hokazuya（ホーダチ）https://x.com/hokazuya

企業プレスリリース詳細へ
 PR TIMESトップへ

津波情報気象庁発表

地震情報

Axcxept社、画像認識AIを高速開発で進化させた「EZO-VLM」を発表

この記事に関連するニュース

トピックスRSS

ランキング

経済トピックス経済トピックスFeed

Axcxept社、画像認識AIを高速開発で進化させた「EZO-VLM」を発表

この記事に関連するニュース

トピックスRSS

ランキング

経済トピックス 経済トピックスFeed

経済トピックス経済トピックスFeed