Spiral.AI、Transformerの限界を克服した次世代LLMアーキテクチャ「RetNet」の学習済みモデルを公開
PR TIMES / 2024年5月1日 15時15分
Spiral.AI株式会社(本社:東京都千代田区、以下「SpiralAI」)は、従来のLLMアーキテクチャであるTransformerの問題点を解決した学習済みモデルを開発・公開しました。
開発・公開したモデルは、RetNetのアーキテクチャを活用しています。RetNetは、入力文字列長が長くなっても計算時間や必要リソースが増加しない特徴を持っており、Transformerの入力文字列長が長くなると計算量が爆発的に増加する課題を解決したものとなっております。
Spiral.AIは今後もTransformerの限界を克服する次世代アーキテクチャの研究に取り組んでまいります。
公開モデルはこちら
RetNetとは
現行の大規模言語モデルはTransformerと呼ばれるアーキテクチャによって構成されています。Transformerは入力文字列長が長くなると計算量が爆発的に増加する性質があるため、与えられる指示内容に制限があったり、大きな計算リソースが要求されるなどの課題を抱えていました。
この課題を解決するため、Transformerの仕組みから脱却した次世代アーキテクチャの探索が進められています。RetNetはその一つのアイデアとしてMicrosoftの研究チームにより2023年8月に提案されました[1]。
主な特徴として、入力文字列長が長くなっても計算時間や必要リソースが増加しないことが挙げられます。そのため、サーバーの計算コストを軽減させたり、エッジ推論を可能にする展望が拓けます。また、長い入力文字列長による柔軟な指示 (プロンプト) の与え方が可能になることや、長期記憶を保持することができるなど、機能的な優位性も保有します [2]。
その特徴はSpiral.AIで追求する「口語会話」のユースケースにおいて、例えばはるか昔に会話した記憶を持ち続けるなど、より人間らしい体験を提供することに繋がります。
公開の目的
優れた特徴を持つRetNetですが、2024年4月現在時点で開発チームから学習済みモデルやパラメーターが公開されていません。そのため、追試や挙動の検証を行いづらく、後続の研究があまり広がっていないという課題がありました。
大規模言語モデルのコミュニティにおけるRetNetの浸透のため、Spiral.AIでは30億パラメータ級のRetNetを新規に学習させ、その学習済みパラメータを公開しました。日英のデータセットで学習させており、日英の2言語を入力することが可能です。
https://huggingface.co/Spiral-AI/Spiral-RetNet-3b-base
30億パラメータ級のモデルは、実用観点では必ずしも十分な性能ではないため、研究目的での公開となります。質疑応答タスク (QA Task) に対する学習は行っておらず、文字列補完タスク (Completion Task) 用のベースモデルの提供となります。
DGX A100を3ノードでおよそ2週間、合計80bnトークン学習しています。今後も継続的な学習を行い、より高い性能のモデルのリリースも予定しています。
今後の展開
Spiral.AIでは、Transformerの限界を克服する次世代アーキテクチャの研究を進めています。本RetNetモデルはその目的で、基礎的な性質の検証に活用する予定です。
下図はその一つの例として、RetNetが入力文字列のうちどの文字に注目しながら文章を生成しているかを可視化したものです。Transformerとは異なる原理で動作しながらも、動的に注目文字を変えている様子がわかります。このような基礎的な挙動確認を行いながら、RetNetをはじめとする次世代アーキテクチャの研究を進めていきます。
[画像: https://prtimes.jp/api/file.php?c_id=120221&t=animationGifImage&f=b901b8515b058aa0105768bc620d57a1.gif ]
単語(★印)を生成した際、それ以前のどの単語を参考にして生成したかを可視化したグラフ
会社概要
社名 Spiral.AI株式会社 / Spiral.AI Inc.
事業内容 大規模言語モデルをはじめとした生成系AI技術を用いたサービスの開発
役員 代表取締役 CEO 佐々木雄一
所在地 〒101-0041東京都千代田区神田須田町2丁目1番地1 MA SQUARE AKIHABARA 6階
設立 2023年3月1日
会社URL https://go-spiral.ai/
採用ページ https://go-spiral.ai/top/recruit/
採用についてのご案内
Spiral.AIでは、本サービスの推進をはじめとする取り組みの加速に向けて、世界に大きな渦を巻き起こすメンバーを採用しています。
独自LLMの学習やアプリケーション開発、PdM、事業開発まで幅広いポジションを募集していますので、下記採用ページよりお申し込みください。
採用ページはこちら
本件に対するお問い合わせ
お問い合わせフォーム、もしくは下記メールアドレスからお問い合わせください。
お問い合わせフォーム:https://go-spiral.ai/contact/
問い合わせメールアドレス:contact@go-spiral.ai
参考
[1]“Retentive Network: A Successor to Transformer for Large Language Models” https://arxiv.org/abs/2307.08621
[2] 弊社社員石川によるブログ https://zenn.dev/spiralai/articles/a41a934599c7ec
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
カラクリ、世界で初めてAWS TrainiumでMoEモデルを学習した「KARAKURI LM 8x7B Chat v0.1」を公開
PR TIMES / 2024年5月21日 11時15分
-
ナレッジグラフと大規模言語モデルを融合する研究開発を強化することで、生成AIの信頼性を高め業務活用を加速
PR TIMES / 2024年5月17日 18時15分
-
富士通、ナレッジグラフとLLMを融合する研究開発を強化し生成AI活用を加速
マイナビニュース / 2024年5月17日 17時3分
-
スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開
PR TIMES / 2024年5月10日 17時15分
-
富士通など8者、富岳で学習した130億パラメータのLLM「Fugaku-LLM」を公開
マイナビニュース / 2024年5月10日 14時43分
ランキング
-
1「富士山を黒幕で隠す」日本のダメダメ観光対策 「オーバーツーリズム」に嘆く日本に欠けた視点
東洋経済オンライン / 2024年6月2日 8時0分
-
2サクラクレパスの「こまごまファイル」が“想定外”のヒット、なぜ?
ITmedia ビジネスオンライン / 2024年6月1日 8時10分
-
3秋田で半世紀親しまれる「うどん・そば自販機」、「断腸の思い」で50円値上げ
読売新聞 / 2024年6月1日 13時57分
-
4食卓に「オレンジショック」=果汁が品薄、価格高騰
時事通信 / 2024年6月1日 13時55分
-
5「みどりの窓口削減計画」はなぜ大失敗したのか…JR東が誤解した「5割がえきねっとを使わない」本当の理由
プレジデントオンライン / 2024年6月2日 7時15分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください