LLMを脱獄して生成AIをだます新たなサイバー攻撃の手法、発見
マイナビニュース / 2024年10月25日 9時22分
The Hacker Newsは10月23日(現地時間)、「Researchers Reveal 'Deceptive Delight' Method to Jailbreak AI Models」において、大規模言語モデル(LLM: Large Language Model)の脱獄を可能にする新しいプロンプトインジェクション手法「Deceptive Delight(欺瞞の喜び)」が発見されたと伝えた。これはPalo Alto NetworksのUNIT42により発見された手法で、詳細は「Deceptive Delight: Jailbreak LLMs Through Camouflage and Distraction」にて解説されている。
○「Deceptive Delight(欺瞞の喜び)」の特徴
新しく発見されたこの手法はシンプルでわかりやすい手法とされる。LLMとの会話の中で、有害なトピックや制限されたトピックを無害なトピックに埋め込み、徐々に保護を取り払うことで有害なコンテンツを生成するように誘導する。
Palo Alto Networksはこの手法を8つのモデルで合計8,000回テストし、3回のインタラクションで平均65%の攻撃成功率を達成したと報告している。具体的な攻撃手順は次のとおり。
攻撃者は安全なトピックと有害なトピックの両方を結びつける論理的な物語の生成を要求する
攻撃者は次のプロンプトで各トピックの詳細な説明を要求する
大規模言語モデルはこの時点で有害なコンテンツを生成することがある
攻撃者は3回目のプロンプトで、有害なトピックについて踏み込んだ説明を要求する
大規模言語モデルはさらに一歩踏み込んだ有害なコンテンツを生成する
○LLMの限界
Palo Alto Networksによると、現在のLLMの「注意力」には限界があり、複雑なロジックを持つプロンプトを処理すると注意力が低下するという。この問題点を悪用することで有害なコンテンツを生成するように誘導する手法が「Deceptive Delight(欺瞞の喜び)」の本質とされる。
ここで言う注意力とは人間の短期記憶に相当する能力のことで、LLMのコンテキスト(文脈)保持能力の限界を意味している。LLMはこの制限により複雑なプロンプトから重要な情報を見落とすことがあり、安全なトピックと有害なトピックが混ざったときにその傾向が強くなるという。
Palo Alto Networksは研究報告の中で複数の回避策を提示しているが、結論としてプロンプトインジェクション攻撃を完全に回避することは不可能だろうと述べている。しかしながら、この事実は危険性の証明として捉えるべきではなく、むしろ多層防御戦略の重要性の証明と捉えるべきだとし、生成AIの開発企業に対して継続的な対策の実施を求めている。
(後藤大地)
外部リンク
この記事に関連するニュース
-
有害コンテンツを摘発、その理由も説明する…韓国ネット大手の「巨大言語モデル」
KOREA WAVE / 2024年10月25日 13時0分
-
主要生成AIモデル、欧州AI法違反の恐れ 評価テストで低スコア
ロイター / 2024年10月16日 17時44分
-
アイデミー、RAGシステムなどのLLMによる出力の品質管理を行うクラウドサービス「LLM品質管理クラウド」を開発へ
PR TIMES / 2024年10月11日 18時15分
-
JAPAN AI株式会社、AIサービスに最新LLM「OpenAI o1-mini」を搭載
PR TIMES / 2024年10月4日 16時47分
-
大規模言語モデル向け品質改善ツール「 Lens for LLMs」の商用サービス開始
PR TIMES / 2024年9月30日 10時15分
ランキング
-
1「青春18きっぷ」元に戻すよう求めるネット署名、1万件超え
ASCII.jp / 2024年10月28日 15時0分
-
2大型新人VTuber結城さくな、初配信300万回視聴超え
ASCII.jp / 2024年10月28日 13時5分
-
3これはちょうどいいSSDだ! 容量2TBの「FireCuda 530R」を試して分かったこと
ITmedia PC USER / 2024年10月28日 14時0分
-
4ドスパラ、対象PCが最大60,000円引きになるクーポンを配布する『秋のパソコンSALE』
マイナビニュース / 2024年10月28日 13時35分
-
5ビジネスパーソンが押さえておくべきランサムウェア最新動向 第16回 ロシアのサイバー攻撃グループが操るUndergroundランサムウェアに注意
マイナビニュース / 2024年10月28日 9時29分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください