1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

SambaNovaがAI推論サービス「SambaNova Cloud」を発表、Llama 3.1 405Bを毎秒132トークンで実行

マイナビニュース / 2024年9月11日 19時31分

画像提供:マイナビニュース

SambaNova Systemsは9月10日(米国時間)、同社のAI半導体「SN40L」を活用したAI推論サービス「SambaNova Cloud」を発表した。

同サービスはユーザー登録を行うことで無料で利用することが可能。最大かつ高性能モデルである「Llama 3.1 405B」ならびに高速な「Llama 3.1 70B」をAPI経由で利用して、独自の生成AIアプリケーションを作成することができ、Llama 3.1 70Bを完全な精度で毎秒461トークン、Llama 3.1 405Bも完全な精度で毎秒132トークンで実行することが可能だとしている。

MetaのLlama 3.1モデルの中でも最もインテリジェントで、モデルの使用方法と展開方法に柔軟性を提供するとされる405Bながら、大きなモデルであることからシステムによっては実行速度が遅くなるほか、精度を下げることで対応するなどの必要があるが、同社では最新世代のSoCであるSN40Lの高い性能により、モデルの大きさによる速度のトレードオフを軽減。完全な精度で毎秒132トークン(16ビット時)での動作を可能としていると説明している。

ちなみにこのベンチマークは、AI性能比較サイト「Artificial Analysis」が独自に行った結果に基づくものだという。

なお、SambaNova Cloudは以下の3つのレベルで提供されており、同社では同サービスを活用することで、開発者は独自のチェックポイントを持ち込みことができ、Llamaモデル間を高速に切り替え、AIプロンプトチェーンを使用してワークフローを自動化し、高速な推論速度で既存のファインチューニングされたモデルを利用することができるようになるとしている。

Free(すでに利用可能):ログインで誰でも無料でAPIにアクセス可能
Developer(2024年末までに利用可能予定):開発者はLlama 3.1の8B、70B、405Bモデルをより高い制限レートで使用してモデルを開発することができる
エンタープライズ(すでに利用可能):企業における本番稼働のワークロードに必要な、より高い制限レートを提供
(小林行雄)

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください