富士通など8者、富岳で学習した130億パラメータのLLM「Fugaku-LLM」を公開

マイナビニュース / 2024年5月10日 14時43分

画像提供：マイナビニュース

東京工業大学、東北大学、富士通、人工知能研究所、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologiesは5月10日、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語LLM(大規模言語モデル)「Fugaku-LLM」を公開した。

○共同研究開発の開始から1年で公開

今回、東工大学術国際情報センターの横田理央教授の研究チームと、東北大学大学院情報科学研究科の坂口慶祐准教授、富士通、人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学大学院工学研究科の西口浩司准教授、サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologiesの小島熙之CEOが共同研究開発を行った。

昨今では米国を中心にLLMの開発が行われ、研究開発、経済社会、安全保障などあらゆる場面において変革が起きており、米国以外の国でも自国でLLMを開発するために莫大な人的資源や計算資源を投入している。

日本でもAI研究のための計算資源として、日本のスーパーコンピュータのフラッグシップシステムである富岳に寄せられる期待は大きく、大規模な分散並列計算を実施するための環境整備が求められていたという。

そこで、東京工業大学、東北大学、富士通、理化学研究所は2023年5月よりLLMの共同研究開発を開始し、同8月からは名古屋大学、サイバーエージェント、Kotoba Technologiesが参加した。
○「Fugaku-LLM」の概要

LLMを学習する際の演算速度を既存技術の6倍、通信速度を3倍に高速化することに成功し、演算高速化についてはTransformerの性能を富岳上で最適化するため、深層学習フレームワーク「Megatron-DeepSpeed」を富岳に移植、密行列積ライブラリのTransformer向けに高速化を行った。

通信高速化については3種類の並列化を組み合わせた富岳向け通信性能最適化とTofuインターコネクトD(富岳のノード間接続に用いられる6次元トーラスのトポロジーを持つ高速なネットワーク)上で集団通信の高速化を実施。

通常、LLMの学習にはGPUが用いられるが、LLMの学習のためにGPU不足が起きており、最新のGPUを大量に入手することは困難となっている中、GPUではなく富士通製の国産CPUを中央演算処理装置とした富岳を用いてLLMを学習できたことは、日本の半導体技術の活用や、経済安全保障の観点からも重要だという。