1. トップ
  2. 新着ニュース
  3. 経済
  4. 経済

主要生成AIモデル、欧州AI法違反の恐れ 評価テストで低スコア

ロイター / 2024年10月16日 17時44分

 10月16日、オープンAIのチャットGPTなど代表的な生成AI(人工知能)大規模言語モデル(LLM)が、欧州での評価テストで欧州連合(EU)が策定した世界初の包括的なAI規制「AI法」の重要な項目の基準を下回っていることが分かった。5月21日撮影(2024年 ロイター/Dado Ruvic)

Martin Coulter

[ロンドン 16日 ロイター] - オープンAIのチャットGPTなど代表的な生成AI(人工知能)大規模言語モデル(LLM)が、欧州での評価テストで欧州連合(EU)が策定した世界初の包括的なAI規制「AI法」の重要な項目の基準を下回っていることが分かった。ロイターが閲覧したデータによると、サイバーセキュリティーに関する耐性や、差別や偏見を排した回答といったEUが重視する項目で低評価がついた。

EUの支援を受け、スイスのスタートアップ企業ラティスフローが中心となり、今後2年間に段階的に施行されるAI法の規定に基づき数十の項目で生成AIを評価するツール「大規模言語モデル(LLM)チェッカー」を開発した。

ラティスフローが16日に公表したデータでは、アリババ、アンスロピック、オープンAI、メタ、ミストラル各社が開発した生成AIの平均スコアは0─1のなかで0.75かそれ以上だった。ただ、セキュリティーなどのAI法の重要な項目のいくつかで基準に届かなかった。コンプライアンス違反と判定された場合、3500万ユーロ(3800万ドル)または全世界の年間売上高の7%の制裁金を科される。

具体的には生成AIモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、オープンAIの「GPT3.5 Turbo」が0.46、アリババ・クラウドの「Qwen1.5 72B Chat」は0.37だった。

ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、メタの「Llama 2 13B Chat」が0.42、ミストラルの「8ⅹ7B Instruct」が0.38だった。

平均スコアが最も高かったのはアンスロピックの「Claude 3 Opus」で0.89だった。

ラティスフローによると、LLMチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。

同社のペタル・ツァンコフ最高経営責任者(CEO)氏はロイターにテスト結果は全体的に良好と述べた。その上でEUがコンプライアンス・ベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「AI開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。

欧州委員会の報道官は「欧州委員会は、AI法を技術的要件に変換する第一歩として、この研究とAIモデル評価プラットフォームを歓迎する」と述べた。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください