Citadel AI、理化学研究所の大規模言語モデルの安全性を高める日本語データセット開発に協力
PR TIMES / 2024年5月13日 11時45分
[画像: https://prcdn.freetls.fastly.net/release_image/75720/29/75720-29-29fa060287f4045a845c01204495b529-1999x885.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
国立研究開発法人理化学研究所(理研)革新知能統合研究センター言語情報アクセス技術チームの関根 聡チームリーダーらの研究グループが、国立情報学研究所の呼びかけで発足したLLM勉強会の協力のもと、より安全で信頼性の高い大規模言語モデルの実現を目指す日本語データセット(呼称AnswerCarefully)を開発し、2024年4月30日にバージョン1.0を公開いたしました。
「信頼できるAI」を社会実装する株式会社Citadel AI(本社:東京都渋谷区、代表取締役:小林裕宜、以下「Citadel AI」)は、このデータの開発に協力しています。
■大規模言語モデル開発における課題
大規模言語モデル開発における課題の一つは、有害テキストの影響です。有害テキストには差別的な言語、過激な意見、あるいは不適切なコンテンツ等が含まれます。
これらの有害テキストがそのままモデルの学習データとして利用されてしまうと、モデルが偏った推論を行ったり、有害な結果を生成したりする可能性が生じます。また、有害テキストがプロンプトとしてインプットされることで、そのモデルがさらに不適切な振る舞いをするリスクが高まります。そのため、適切なデータセットの選定と品質管理が大規模言語モデルの開発における重要な課題となっています。
さらにもう一つの課題は、GPT4やGeminiなどの生成AI基盤モデルは主に海外で開発されているため、英語などの言語に比べて、日本語のトレーニングデータが不足している点です。日本語ベースで有害なテキストに対する適切な応答のデータセットを構築し、大規模言語モデルに学習させることで、安全性と信頼性を高めていく必要があります。
■日本語有害データセットの重要性と意義
理研がLLM勉強会及びCitadel AIの協力のもと開発したAnswerCarefullyデータセットは、こうした課題に対処するための重要な取り組みです。
このデータセットには、日本語で書かれた有害なコンテンツやバイアスが含まれるテキストデータとそれに対してLLMに求められる適切な回答例が収集されており、大規模言語モデルの学習や評価に使用することができます。これにより、モデルが実世界の状況に適切に対応し、人々や社会にとってより安全かつ公正なサービスを提供するための基盤となることを目指しています。
このAnswerCarefullyデータセットをオープンソースとして公開し、大規模言語モデル開発者が研究用途、商業用途を問わず活用することができるようにすることで、今回の成果を広く社会に還元して参ります。
AnswerCarefully の詳細はこちらから:
https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/
【株式会社Citadel AIについて】
Citadel AIは「信頼できるAI」の社会実装を実現する、日本発のグローバルスタートアップです。ハイリスクAIの課題と正に実戦で闘って来た世界のエンジニアが結集し、開発をリードしています。弊社製品は、AIのモデルやフォーマットに依存することなく、統一化されたテストを、汎用的に適用することが可能です。国際標準業界を代表するBSI等に採用され、グローバル市場で高い評価をいただいています。
代表取締役 小林裕宜
設立 2020年12月10日
企業URL https://www.citadel.co.jp
X(旧Twitter) https://twitter.com/CitadelAI
お問合せ info@citadel.co.jp
【国立研究開発法人理化学研究所について】
代表者 理事長 五神 真
設立 1917年(大正6年)
事業内容
日本で唯一の自然科学の総合研究所として、物理学、工学、化学、数理・情報科学、計算科学、生物学、医科学などに及ぶ広い分野で研究を進めている。
URL https://www.riken.jp/
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
ナレッジグラフと大規模言語モデルを融合する研究開発を強化することで、生成AIの信頼性を高め業務活用を加速
PR TIMES / 2024年5月17日 18時15分
-
スーパーコンピュータ「富岳」の世界ランキング結果について
PR TIMES / 2024年5月14日 10時15分
-
スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開
PR TIMES / 2024年5月10日 17時15分
-
富士通など8者、富岳で学習した130億パラメータのLLM「Fugaku-LLM」を公開
マイナビニュース / 2024年5月10日 14時43分
-
生成AI時代のデマ・フェイク問題、SNSの安全性を取り戻すには?
ASCII.jp / 2024年4月24日 11時0分
ランキング
-
1好天に恵まれた大型連休。人出が伸びたと思ったら全国の88%で減少、コロナ5類移行後初なのになぜ? 一番活発に動いた人たちは…大規模データの分析から判明
47NEWS / 2024年5月23日 10時30分
-
2トヨタが日本初の営業利益5兆円超 今期は減益で足場固めの年に
財界オンライン / 2024年5月23日 7時0分
-
3損保4社の個人情報、競合他社に漏えい…加入者の氏名・証券番号・保険の種類・保険料など
読売新聞 / 2024年5月23日 19時26分
-
4ホテルメッツ、宿泊者も気づかぬ「超地道な改善」 快適を極める「引き算」の妙、3つの点から探る
東洋経済オンライン / 2024年5月23日 7時20分
-
5ファンド提案に反対決議=来月総会、社長解任案に対抗―北越コーポ
時事通信 / 2024年5月22日 21時31分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください