AIセーフティに関するレッドチーミング手法ガイドを公開

Digital PR Platform / 2024年9月26日 10時0分

■本書の構成（目次）：
1. はじめに
2. レッドチーミングについて
3. LLMシステムへの代表的な攻撃手法
4. 実施体制と役割
5. 実施時期及び実施工程
6. 実施計画の策定と実施準備
7. 攻撃計画・実施
8. 結果のとりまとめと改善計画の策定

本書では、2章でレッドチーミングの種類を、前提知識の有無・程度や実施環境、攻撃の実施方法によって分類して示し、3章ではLLMシステムへの代表的な攻撃手法例として、攻撃者が悪意あるプロンプトをAIシステムに直接注入する攻撃である「直接プロンプトインジェクション」など8つの攻撃手法を例示しています。（図1）

4章と5章では実施体制と役割、実施時期について、多様な関係者（攻撃シナリオの実施によって影響を受けるシステムに関わる組織）が参画するのが望ましく、またAIシステムのリリース/運用開始前に加え、運用開始後も、必要に応じて随時実施することが望ましいとしています。

6章から8章で、レッドチーミングの工程をそれぞれ第１工程「実施計画の策定と実施準備」、第2工程「攻撃計画・実施」、第3工程「結果のとりまとめと改善計画の策定」に分けて説明しています。各工程で5つずつ実施事項を示し、「実施の決定とレッドチーム発足」から「改善後のフォローアップ」まで計15ステップについて詳述しています。

AISIは、AI開発者や提供者が攻撃者の目線で対象AIシステムにおける弱点や対策の不備を発見し、それらを修正・堅牢化するために、本書が活用されることを期待しています。
「AIセーフティに関するレッドチーミング手法ガイド」と概要説明資料は、以下のウェブサイトからダウンロード可能です。

「AIセーフティに関するレッドチーミング手法ガイド」URL：https://www.ipa.go.jp/digital/ai/begoj90000004szb-att/ai_safety_rt_v1.00_ja.pdf
「概要説明資料」URL：https://www.ipa.go.jp/digital/ai/begoj90000004sxz-att/ai_safety_rt_summary_v1.00_ja.pdf

[画像1]https://digitalpr.jp/simg/2314/95575/700_405_2024092509374866f35b5c45e63.png

図1. レッドチーミングの概要（概要説明資料から）

津波情報気象庁発表

地震情報

AIセーフティに関するレッドチーミング手法ガイドを公開

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス経済トピックスFeed

AIセーフティに関するレッドチーミング手法ガイドを公開

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス 経済トピックスFeed

経済トピックス経済トピックスFeed