1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今

ASCII.jp / 2024年6月3日 12時0分

Esperantoが日本の半導体メーカーRapidusと協力

 5月15日、都内でRapidus(ラピダス)とEsperanto Technologyが共同で記者会見を開催、Esperanto Technologyの第3世代製品をRapidusの2nmプロセスを利用して製造することに関してのMOU(協力覚書)を交わしたことを明らかにした。

左がRapidusの小池淳義社長、中央がEsperanto TechnologyのArt Swift氏(CEO&President)。右は通訳を務めた笠原栄二氏(Senior Architect, Esperanto Technology)

 といってもまだMOUのレベルであって、具体的に契約が交わされたわけではない。そもそも現状ではまだRapidusの方が工場すらなく、サンプル品を作るどころかテストベッドすら走らせられない。

 また製造装置すら確定していない状態ではPDK(Process Development Kit:チップの物理設計を行なう際に必要となるさまざまなパラメーターをまとめたもの)すら出せないから、Esperanto側としても物理設計を始めることすらできない。

 この状態でさすがに契約というのは双方にとってハイリスクな行為であり、その前段階である協力覚書に留まるのは当然である。

 それは良いとして、記者会見では2nmが主な話題であって深い話はなかったのだが、Esperanto Technologyは今年4月に東京大学で開催されたCool Chipsで第2および第3世代のET-SoCに関して同社創業者にしてCTOのDavid Ditzel氏が講演しており、ここで多少の説明をしている。今回の記者説明会にはもDitzel氏が同行しており、少し細かな話をうかがえたので、これをもとにET-SoC-2/ET-SoC-3の詳細を説明したい。

記者会見の翌日、都内のホテルにて。Ditzel氏は相変わらずパワフルであった

発端はRISC-VベースのAI向けプロセッサー「ET-SoC-1」 電圧を大幅に下げて性能/消費電力比を大きく向上させた野心作

 まずおさらいを。連載645回で説明したが、同社のET-SoC-1は、ET-Minionというコアが基本となる。ET-MinionはIn-OrderのRISC-Vコアに、512bit幅のVector/Tensor Unitをアクセラレーターの形で組み合わせたものだ。

ET-Minionの基本的な構成

 このVector/Tensor Unitが肝であり、FP16なら32個、FP32なら16個の演算を1サイクルに実行可能である。またTensor Unitとして使う場合、最大512サイクル連続して稼働できる。

 そして8つのET-MinionをまとめてNeighborhoodsを構成し、この8つのET-MinionでL1命令キャッシュを共有する。このNeighborがある意味、1つの処理単位と考えればいい。

8つのET-MinionでL1命令キャッシュを共有する。個々のコアは32KBの命令キャッシュと同程度のエリアサイズでしかない

 L1を共有というのは、8つのET-Minionコアが同じ命令を実行するから(データは異なる)である。Neighberhoodsを4つと、1MB×4のSRAMを組み合わせたものがMinion Shireとなり、CPU内のほかのMinion Shareとのメッシュ接続のI/Fもここに搭載される格好になる。このMinion Shareが事実上の最小構成というわけだ。

Minion Shareは、Neighberhoodsを4つと1MB×4のSRAMを組み合わせたもの

 ET-SoC-1全体は、このMinion Shareを34個、それとアプリケーション/OS用のET-Maxion×4、さらにPCIeのブロックと8つのLPDDR4x I/F(各々32bit幅)から構成される格好になる。合計で1088個のET-Minionが搭載され、そのおのおのに512bit幅のVector/Tensor Unitが搭載される形になる。

ET-SoC-1の全体像。Minion Shareを34個、ET-Maxion×4、さらにPCIeのブロックと8つのLPDDR4x I/Fから構成される

 厳密に言えば、他にもう一個RISC-V Service Processorがシステム全体の管理用に動作するが、これはアプリケーション側からは見えないようだ。

 さて、ここまで言えば単にMassive Parallelの一種と見えなくもないET-SoC-1であるが、最大の特徴は電圧を大幅に下げて性能/消費電力比を大きく向上させていることだ。

電圧を大幅に下げたことで、118Wチップと比べて2.5倍の性能向上となった

 今回はこの技術をELV(Extreme Low Voltage)と呼ぶようになったのだが、要するに通常よりも大幅に電圧を下げることで効率向上を図る、というものだ。ET-SoC-1の場合はおおむね以下の試算が成立する。

 PCIeカード1枚の消費電力枠を120Wとすると、0.63V以上では1チップでカードの消費電力枠を使い切ってしまう。0.38Vでは6チップが搭載できて、トータルの性能が一番高い。ちなみに0.31V枠なら14個チップを搭載可能で、この場合は560万OPSが発揮できるはずだが、14個も1枚のカードに載せられないという物理的な障害があるため、そのあたりを勘案すると0.38V動作がちょうどいい、という判断らしい。

 もちろん通常の7nm(TSMC N7)では、こんな低電圧での動作は不可能である。そのあたりがDitzel氏というかEsperantoのノウハウが一番生きる部分というわけだ。

ET-MinionがET-Minion 2に進化 性能が4倍向上する

 ここまではET-SoC-1の話だったので、ここからはET-SoC-2以降の話を。まずET-Minionだが、こちらは若干変更したET-Minion 2に進化した。

FMA利用時は2命令/サイクルだが、基本は1命令/サイクルのIn-Order構成

 大きな変化は外付けのアクセラレータ-で、ET-Minionと異なりVector UnitとTensor Unitが独立。Vector UnitはRVV(RISC-V Vector Extension)準拠の512bit幅となった。一方Tensor Unitは2048bit幅に拡張された。

  まず2つに分けた理由であるが、一応技術的には両方を同時に動かすことも可能らしい。ただ目的はそうではなく、Vector UnitはRISC-VのVector Registerに対してのアクセスとなり、一方Tensor Unitは独自の2048bit幅のRegisterのへのアクセスとなる関係で、構造的に分離した方が都合が良かったから、だそうである。

 この結果として、例えばFP16やFP32であれば、ET-Minion比で4倍の性能向上が実現することになった。実際の動作周波数は後述する。ちなみにET-Minionでは最大512サイクル連続してTensor Unitが稼働するが、ET-Minion2はDitzel氏によると「512ではないが連続して稼働する。ただいくつだったか忘れた」だそうだ。

 また、今回FP8までのサポートは追加されたが、FP4やInt 1/2/4に関するサポートはない。これについては「研究レベルではよく取り上げられるが、実際に使うユーザーからの声では、やはり精度が足りない」という判断だそうで、現実問題としてInt 8とFP8/FP16/32/64のサポートがあれば十分、ということだそうだ。

 ET-Minion2が8つでNeighborhoodを構成するのは同じだそうである。このNeighborhoodがL1命令キャッシュを共有するのも同じという話であった。

この図版はわかりやすさを優先してL1などを省いているそうだ

 そのNeighborhoodが4つで、1つのクラスターを構成するのもET-SoC-1に似ているが、異なるのはこのクラスターに1つ、ET-Maxionが搭載されることと、またSRAMの容量が倍増していることだ。

Neighborhoodが4つで、1つのクラスターを構成。PCIeなどは全部別のチップレットに追い出される格好になる

 ただSRAMに関しては、確かに容量は倍だが処理性能が4倍ほどに上がってることを考えると、実際には足りなくなるのでは? と思ったのだが、確認したところ「そもそもそのデータは処理中に何度も再利用するから不足はしない」という返事であった。実際には8MBといっても細かくパーティションを切って、L2やL3、さらにはスクラッチパッドとして使う形になるので、純粋に容量が増えて柔軟性が増すことになるそうだ。

 そしてET-SoC-2であるが、このクラスターを9個並べて1つのチップレットを構成する。9個にもかかわらず、性能は1GHzのInt 8で131.1TOPSと、1つのクラスター(16.384TOPS)の8倍でしかないのは、9つのクラスターのうち1つは冗長クラスター扱いとなるためだ。

ET-SoC-2でET-Maxionをクラスターごとに配したのは、チップレット構成にするとなると、分散させるのが無難と判断したのかもしれない

 ちなみに後述するET-SoC-3では1つのチップレットにクラスターが16個であり、実際に16個となる。つまり性能はET-SoC-2の2倍だ。「なぜ?」と聞いたところ、「クラスターの数を2のべき乗にしたかったから」だそうだ。したがってET-SoC-2では9個のうち1つを冗長扱いにして8つとし、一方ET-SoC-3では16個は変えずに冗長性は他のスキームで確保するという返事であった。おそらく個々のクラスター内部に冗長Neighborhoodあるいは冗長ET-Minion2を設ける格好だろう。

ET-SoC-2は予定通りなら2025年後半にサンプル出荷開始 次世代のET-SoC-3は2026年後半出荷とのことだが間に合うのか?

 さてここからが将来製品のロードマップである。ET-SoC-1はチップ内にすべての機能を搭載しており、ここにはPCIeやメモリーコントローラーなども含まれていたが、ET-SoC-2以降はすべてチップレットになり、I/O類やメモリーコントローラーなどは外部のチップレット任せとなる。

ET-SoC-2では倍どころではない数字になっているが、これは2GHz動作の場合の数字だからで、実際にはもっと低い。ET-SoC-1の方も動作周波数はずっと低めである

 ET-SoC-1では1088個だったET-Minionが、ET-SoC-2ではチップレット1個あたり256個になる計算で、ほぼ4分の1に減るわけだが、性能は4倍になるから「同じ動作周波数ならば」性能は同等と言う計算だ。

 ちなみに上の画像で示すように、ET-SoC-2は9クラスター(うち有効なのが8)、ET-SoC-3は16クラスターとなる。クラスター内部に関してはET-SoC-2とET-SoC-3で基本的には同じ、という話であった。ただET-SoC-2は12個のDie-to-Die I/Fを持つ一方、ET-SoC-3は16個となる。

ET-SoC-2は12個のDie-to-Die I/Fを持つ。このD2D I/Fがどこにつながるのかがはっきりわからないが、おそらくクラスター同士をつなぐNoC(Network on Chip)に接続されるのだろう
ET-SoC-3では規模が単純に倍になる

 Die-to-Die I/FはUCIeを利用しており、転送速度は32Gbpsとのこと。0.2~0.3pJ/bitで、1Tbitのリンクでも消費電力は0.5W程度との試算が出ている。

1GHz動作だと4nmが2.2TFlops/W。ET-SoC-2が1GHzで65.5TFlopsなので、消費電力はおおむね30W程になる計算だ。ET-SoC-2は133.1TFlopsだが、こちらは8TFlops/Wになるから消費電力は16W強まで落ちる

 気になる動作周波数と消費電力であるが、推定で言えば1GHz動作が4nmで440mV、2nmなら250mV程度で可能になる、としている。また2GHz動作ではそれぞれ650mV/350mVということで、この2GHzの数字はわりと普通で、通常の4nmよりやや低い程度であり、ELVのメリットがまるで生かせない。おそらくは1GHz動作が標準的な数字ということになるだろう。

 ただ実際の構成案を見ると、これでもまだ消費電力が多すぎる。実際には350mVあたりまで下げることを想定しているようだ。

ET-SoC-2の構成案。これはあくまでも例であって、まだDRAMコントローラーやPCIe/CXLのチップレットをどこが提供するのかなど未確定の部分も多い
業界的には4nmまで0.75V、3nm以下も0.7Vと電圧が下がらないのに、Esperantoは4nmを350mV、2nmは250mVまで下げることで低消費電力を狙う

 話が前後するが、Esperantoでは第2世代のET-SoC-2を4nm、第3世代のET-SoC-3を2nmで製造することを予定している。このうち第3世代は冒頭で述べたようにRapidusで製造されるのだが、第2世代はどうもSamsungのSF4が利用されるようだ(SF4Eかもしれないが、そこまでは確認できなかった)。

 まだET-SoC-2はテープアウトに至っていない(もうすぐらしい)が、2025年後半にはサンプル出荷を予定している。それはいいのだが、ET-SoC-3は2026年後半のサンプル出荷としている。Rapidusの正式なオペレーション開始は2027年度であることを考えると、さすがにこれは厳しくないだろうか? というのが正直な感想である。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください