Cerebras、「NVIDIAのGPUベースより20倍高速」謳うAI推論サービス提供開始

ITmedia NEWS / 2024年8月28日 9時12分

（画像：Cerebras）

　米Cerebras Systemsは8月27日（現地時間）、AI開発者が同社のシステムにアクセスしてアプリを実行できるようにするAI推論ソリューション「Cerebras Inference」を発表した。「米NVIDIAのGPUベースのハイパースケールクラウドより20倍高速」で、はるかに安価だとしている。

　Llama3.1 8Bで1秒当り1800トークン、Llama3.1 70Bで1秒当り450トークンを提供し、価格はLama 3.1 8Bで100万トークン当り10セント、Llama 3 70Bで100万トークン当り60セント。

　Cerebrasは発表文で、NVIDIAなどのGPUシステムが推論に向かない理由を説明し、自社のシステムは「世界最大のチップを構築し、モデル全体をオンチップに保存することで、メモリ帯域幅のボトルネックを解決する」ことで、GPUのような遅延を解消したと主張する。

　Cerebrasのチップは独自のウェーハスケール設計により、44GBのSRAMを1つのチップに統合できるという。総メモリ帯域幅は21ペタバイト／秒で、NVIDIAのH100の7000倍に当たる。

　同日から、チャットとAPIアクセスを介してのCerebras Inferenceの提供を開始する。まずはLlama3.1 8Bおよび70Bモデルを提供し、数週間中により大規模なモデルのサポートを追加する予定だ。

　Cerebras Systemsは、米国カリフォルニア州サニーベールに拠点を置く2016年創業の非公開企業。AIやディープラーニングの処理専用のコンピュータシステムの開発を手掛けている。

外部リンク