主要生成ＡＩモデル、欧州ＡＩ法違反の恐れ　評価テストで低スコア

ロイター / 2024年10月16日 17時44分

　１０月１６日、オープンＡＩのチャットＧＰＴなど代表的な生成ＡＩ（人工知能）大規模言語モデル（ＬＬＭ）が、欧州での評価テストで欧州連合（ＥＵ）が策定した世界初の包括的なＡＩ規制「ＡＩ法」の重要な項目の基準を下回っていることが分かった。５月２１日撮影（２０２４年　ロイター/Dado Ruvic）

Martin Coulter

［ロンドン　１６日　ロイター］ - オープンＡＩのチャットＧＰＴなど代表的な生成ＡＩ（人工知能）大規模言語モデル（ＬＬＭ）が、欧州での評価テストで欧州連合（ＥＵ）が策定した世界初の包括的なＡＩ規制「ＡＩ法」の重要な項目の基準を下回っていることが分かった。ロイターが閲覧したデータによると、サイバーセキュリティーに関する耐性や、差別や偏見を排した回答といったＥＵが重視する項目で低評価がついた。

ＥＵの支援を受け、スイスのスタートアップ企業ラティスフローが中心となり、今後２年間に段階的に施行されるＡＩ法の規定に基づき数十の項目で生成ＡＩを評価するツール「大規模言語モデル（ＬＬＭ）チェッカー」を開発した。

ラティスフローが１６日に公表したデータでは、アリババ、アンスロピック、オープンＡＩ、メタ、ミストラル各社が開発した生成ＡＩの平均スコアは０─１のなかで０．７５かそれ以上だった。ただ、セキュリティーなどのＡＩ法の重要な項目のいくつかで基準に届かなかった。コンプライアンス違反と判定された場合、３５００万ユーロ（３８００万ドル）または全世界の年間売上高の７％の制裁金を科される。

具体的には生成ＡＩモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、オープンＡＩの「ＧＰＴ３．５　Ｔｕｒｂｏ」が０．４６、アリババ・クラウドの「Ｑｗｅｎ１．５７２ＢＣｈａｔ」は０．３７だった。

ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、メタの「Ｌｌａｍａ２１３ＢＣｈａｔ」が０．４２、ミストラルの「８ⅹ７ＢＩｎｓｔｒｕｃｔ」が０．３８だった。

平均スコアが最も高かったのはアンスロピックの「Ｃｌａｕｄｅ３Ｏｐｕｓ」で０．８９だった。

ラティスフローによると、ＬＬＭチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。

同社のペタル・ツァンコフ最高経営責任者（ＣＥＯ）氏はロイターにテスト結果は全体的に良好と述べた。その上でＥＵがコンプライアンス・ベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「ＡＩ開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。

欧州委員会の報道官は「欧州委員会は、ＡＩ法を技術的要件に変換する第一歩として、この研究とＡＩモデル評価プラットフォームを歓迎する」と述べた。