LLMを脱獄して生成AIをだます新たなサイバー攻撃の手法、発見
マイナビニュース / 2024年10月25日 9時22分
The Hacker Newsは10月23日(現地時間)、「Researchers Reveal 'Deceptive Delight' Method to Jailbreak AI Models」において、大規模言語モデル(LLM: Large Language Model)の脱獄を可能にする新しいプロンプトインジェクション手法「Deceptive Delight(欺瞞の喜び)」が発見されたと伝えた。これはPalo Alto NetworksのUNIT42により発見された手法で、詳細は「Deceptive Delight: Jailbreak LLMs Through Camouflage and Distraction」にて解説されている。
○「Deceptive Delight(欺瞞の喜び)」の特徴
新しく発見されたこの手法はシンプルでわかりやすい手法とされる。LLMとの会話の中で、有害なトピックや制限されたトピックを無害なトピックに埋め込み、徐々に保護を取り払うことで有害なコンテンツを生成するように誘導する。
Palo Alto Networksはこの手法を8つのモデルで合計8,000回テストし、3回のインタラクションで平均65%の攻撃成功率を達成したと報告している。具体的な攻撃手順は次のとおり。
攻撃者は安全なトピックと有害なトピックの両方を結びつける論理的な物語の生成を要求する
攻撃者は次のプロンプトで各トピックの詳細な説明を要求する
大規模言語モデルはこの時点で有害なコンテンツを生成することがある
攻撃者は3回目のプロンプトで、有害なトピックについて踏み込んだ説明を要求する
大規模言語モデルはさらに一歩踏み込んだ有害なコンテンツを生成する
○LLMの限界
Palo Alto Networksによると、現在のLLMの「注意力」には限界があり、複雑なロジックを持つプロンプトを処理すると注意力が低下するという。この問題点を悪用することで有害なコンテンツを生成するように誘導する手法が「Deceptive Delight(欺瞞の喜び)」の本質とされる。
ここで言う注意力とは人間の短期記憶に相当する能力のことで、LLMのコンテキスト(文脈)保持能力の限界を意味している。LLMはこの制限により複雑なプロンプトから重要な情報を見落とすことがあり、安全なトピックと有害なトピックが混ざったときにその傾向が強くなるという。
Palo Alto Networksは研究報告の中で複数の回避策を提示しているが、結論としてプロンプトインジェクション攻撃を完全に回避することは不可能だろうと述べている。しかしながら、この事実は危険性の証明として捉えるべきではなく、むしろ多層防御戦略の重要性の証明と捉えるべきだとし、生成AIの開発企業に対して継続的な対策の実施を求めている。
(後藤大地)
外部リンク
この記事に関連するニュース
-
オールインワン生成AI・LLMソリューションを提供するAllganize、『NexTech Week 2024【秋】 第5回 AI・人工知能 EXPO』にブース出展。本日から幕張メッセにて。
PR TIMES / 2024年11月21日 13時40分
-
国内最大級生成AI開発向け計算基盤にDDNストレージを活用 ~国内最速のストレージ基盤でLLM開発を加速~
@Press / 2024年11月19日 9時30分
-
AI活用のプロンプトエンジニアリングに関する特許取得について
PR TIMES / 2024年11月13日 13時40分
-
押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
-
有害コンテンツを摘発、その理由も説明する…韓国ネット大手の「巨大言語モデル」
KOREA WAVE / 2024年10月25日 13時0分
ランキング
-
1旅先での1枚が「Windows10すぎる」と300万表示! 分かる人には分かる“完全一致”に「共感しまくりです!」「マジじゃん」
ねとらぼ / 2024年11月22日 20時30分
-
2「やはり……」 MVP受賞の大谷翔平、会見中の“仕草”に心配の声も 「真美子さんの視線」「動かしてない」
ねとらぼ / 2024年11月22日 17時40分
-
3『シャニマス』に武藤遊戯?混乱の声 ショップ「武闘遊戯」見間違い続出でトレンド入り「脳がバグった」
ORICON NEWS / 2024年11月22日 18時32分
-
4イオシス、“あのスマホ”大量入荷 「待ってたぜェ、この瞬間をよォ!!」
ASCII.jp / 2024年11月22日 15時5分
-
5『崩壊:スターレイル』Ver.3.0新地域「オンパロス」の登場キャラが一挙公開!新たな運命「記憶」のバトルスタイルも判明【予告番組まとめ】
インサイド / 2024年11月22日 23時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください