1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ

ASCII.jp / 2024年9月2日 12時0分

 今回はRaptor Lakeの故障問題について説明したい。また、前回説明したXeon 6のパッケージで少しだけ衝撃的な話があったので、記事末で紹介しよう。

長引くRaptor Lakeの故障問題 予防的緩和策として対応BIOSの配布が始まる

 意外に書きにくいのがこの問題。別にインテルに忖度してるわけではなく、「まだ進行中の事案で、しかもいつ決着がつくかわからない」から、という単純な理由である。この手の話は、決着がついた後の方が書きやすい。とはいえ騒ぎが始まってからすでに半年が過ぎているので、現時点で判明していることと、とりあえずの対策をまとめて説明したい。

 2023年12月あたりから「最初は普通に動いていたのに、2ヵ月くらいしたら突然ブルースクリーンが出るようになって、その後は再インストールしても、なにをしても復活しない」という話が出てくるようになり、2024年3月にはさまざまな掲示板で頻繁にそうした書き込みが見られるようになった。

 ZDNet Koreaは4月8日の記事で、鉄拳8で"Not enough memory"というエラーメッセージが出て強制終了する(ほかにもUnreal engineを使うさまざまなゲームで同種のエラーが発生する)話や、販売店がある時から急にRaptor LakeのK/KS SKUの交換頻度が上がったと報告している話などを交えつつ、インテルから「調査を開始した」との返答を得たと報じている。

 これに先立ち、インテルはSupport Communityページで2月27日に「13/14世代のK/KSプロセッサーが、特定のワークロードで問題が起きているという報告を認識しており、現在分析をしている」と公開した。この投稿をしたのはインテルのクライアント・コンピューティング部門で、Desktop&WorkstationのCommunication Managerを務めるThomas Hannaford氏であり、以後このHannaford氏がこの問題について随時投稿を上げる形が続いている。

 次にHannaford氏が投稿したのは5月2日で、まだ問題の分析をしている最中としたうえで、問題の根本要因を突き止めるまでの暫定的な対策として、CPUのパラメーターを以下のようにすることを推奨している。

  • CEP (Current Excursion Protection):有効
  • eTVB (Enhanced Thermal Velocity Boost):有効
  • TVB (Thermal Velocity Boost):有効
  • TVB Voltage Optimizations:有効
  • ICCMAX Unlimited Bit:無効
  • TjMAX Offset:0
  • C-states:有効
  • ICCMAX:プロセッサにあわせる。400Aを超えないこと
  • ICCMAX_App:プロセッサーにあわせる
  • Power Limits:プロセッサーにあわせる

 ここで「プロセッサーに合わせる」というのはSKUごとに数字が異なるからで、これはデータシートに記載された数字を使え、という話である。要するにまだ理由は特定できないが、「現象的にはオーバークロックのやり過ぎで内部回路が損傷した状況に近いらしい」(これは当然文章には書かれていないが、行間を読むとそういうことである)ので、それぞれのプロセッサーの定格動作で使うように、という指示である。

 これに併せて、インテルはマザーボードベンダー各社に新しいIntel Baseline Profileを簡単に設定するためのBIOSの配布を要請。これを利用することで、簡単にインテルのデフォルトに設定できるようになった。

 6月18日の投稿では、具体的にICCMAXやICCMAX_app、Power Limitなどをわかりやすくまとめた表も示された。

最初からこの表を出して欲しかった気もする

 これに併せて、以下の3点が報告された。ただまだ根本原因は掴めていないままであることも確認された。

  • 従来のBIOSの場合、プロセッサーが高温(なので本来さらに電圧や周波数を上げてはいけない)状態でも、ターボの動作周波数や電圧での動作を許してしまう設定になっていることが確認された。
  • 調査の過程で、BIOSの問題とは別に、eTVB(Enhanced Thermal Velocity Boost)のアルゴリズムにバグがあることを発見した。このバグも、動作の不安定さの要因になり得るが、根本原因ではない(つまり大本の問題とは別に、eTVBにもバグがあったということ)。
  • 上のBIOS問題を解決するために、最新BIOSへのアップデートを推奨する。

酸化膜の形成ミスという報道を否定 電圧上昇が動作不安定を引き起こしているが、依然調査中

 7月22日には、まずアップデートとして以下の報告があった。また報告では8月中とされつつ、実際にはバージョン0x125というeTVBのバグの修正が行われたマイクロコード版のBIOS配布が7月中に開始されている。

  • 返品されたプロセッサーを検証した結果、マイクロコードの問題に起因する電圧上昇が動作不安定を引き起こしていることを確認した(これは6月18日に説明したeTVBのバグ)。これに対応した新マイクロコードを作成して検証中であり、8月中にはマザーボードメーカーを経由して配布予定である。
  • 不安定なCPUを保有するユーザーに対して、OEM/ODMから購入したユーザーはそれぞれのOEM/ODMメーカーへ、リテールボックスで購入したユーザーはIntel Customer Supportへそれぞれ連絡してほしい。ちなみにトレーで購入したユーザーへの対応は現在検討中である

 8月1日に、インテルはRaptor LakeのK/KS SKUについては保証期間を2年延長することを明らかにした。要するに購入から3年間だった従来の保証期間が5年に伸びた格好である。ただまだトレーで購入したユーザーへの対応は未定であり、また根本原因に関しても報告できる進展はないとしている。

 ついでにこの8月1日には、酸化膜の形成に関する噂の否定も行なわれている。これによれば、Raptor Lakeのごく一部の初期ロットに関しては、製造時(2022年末だそうだ)に酸化膜の形成が不十分なロットが存在していたが、このロットは全量回収されており、市場には流れていないとしている。これは一部メディアが、酸化膜の形成ミスが原因ではないか? と報じたことへの対応である。

 8月5日には、誤解がないように対応するプロセッサ一覧を示すとともに、保証期間が最大5年になることをあらためて明記している。

 「最大」とはなにか? というと、たとえば筆者は2022年10月30日にCore i9-13900KのボックスをAmazonで購入した。従来ではサポート期間は3年で2025年10月29日までであるが、これが2年延びて2027年10月29日までサポートが有効になる。ただもうすでに2024年9月なので、実質3年と2ヵ月弱しかサポート期間がないことになる。

 ちなみにトレーで購入したユーザーもこの対象となるが、交換などの申し出はその製品を買った購入店にするように、としている。ただし、もしも交換を受け付けてもらえなかった場合は、Intel Customer Supportで相談に乗るとしており、実質的にはトレーで購入したユーザーもインテルに交換を依頼可能になったと考えていいいだろう。

 8月9日は新しいマイクロコードが発表になった。これはなにか? というと、依然として根本原因は不明であるが、返品されてきたCPUを検証の結果、理由は不明ながら最小電圧(Vmin)が大幅に上昇していることが認められているそうで、これが不安定さの直接的な原因の可能性があると判断。そこで、仮に内部的に電圧を1.55V以上にする指示が出た場合でも、その指示を無視して最大電圧を1.55Vに抑えるというパッチである。

 なぜVminが勝手に上がるのか? の原因はまだ追究している最中であるが、とりあえず「本当に電圧だけの問題であれば」利用できる電圧を1.55Vに制限することで、急速な劣化を防げる可能性がある。いくつかのアプリケーション(WebXPRT Online HomeworkやPugetBench GPU Effects Scoreなど)では、このマイクロコードを適用することで性能に違いが出たそうなので、一応ちゃんと仕事していることは間違いない。すでにこのマイクロコードはマザーボードメーカー経由で配布が始まっている。

 ただこれも電圧上昇だけが問題なのかがまだ判断できない状態だし、すでに不安定状態になったプロセッサーの電圧を今さら抑えても問題が解決するわけではない。したがって、あくまでも「不安定症状が発生していないプロセッサーに対する予防的緩和策」という位置づけである。

 この原稿を書いている現在でも、まだアップデートはない。ただこのまま放置すると、「Raptor Lakeだけではなく、今後出てくるプロセッサーにも影響あるのでは?」という不安が生まれることになる。これを打ち消すためか、8月30日には以下の投稿をしている。

  • Arrow LakeおよびLunar Lakeには、このVminがシフトする問題はないことを確認した。インテルは今後投入されるプロセッサーも、この問題から保護されるようにする予定である。
  • 8月5日に示された一覧製品以外のプロセッサーに、このVminシフトの問題は発生していないことも確認した。

 というあたりが現状である。なんというか、まだ根本的な原因が掴めていないのがもどかしく不安ではある。半年かけてまだ原因が掴めていない、というのはいろいろ問題がある気もするのだが。

 ではユーザーはどう対処すべきか? RMA(Return Merchandise Authorization)、要するに交換が効くのはあくまで動作がおかしくなった、あるいは動作しないプロセッサーであって、「Raptor LakeのK/KS SKUを持ってるけどまだ正常に動いてる」ユーザー(筆者もその一人だ)がRMAを申請することはできない。

 だから壊れるまで使い続けるしかないのだが、1台しかマシンがないユーザーが壊れたら申請ができない(さらに交換を待ってる間PCが使えない)という問題がある。1つの案は複数台のマシンを持っておくこと(筆者はこのパターン)であるが、もう1つは今のうちに安価な代替品を用意しておくことだろう。Alder Lake以降のCPUならなんでもいいわけで、9月1日時点でのAmazonではCore i3-12100Fの1万3980円が最安値のLGA1700対応CPUである。

 以前に比べて少し価格が上がった(以前は1万円切りのCPUが多数あった)のは致し方ないところ。このあたりをスペアとして用意しておいて、問題が出たらスペアに交換したのちにRMAを申請して新品に交換してもらう、というあたりが自作ユーザー向けの現実的な対処法だろう。

Xeon 6にはFCLGA4710以外のパッケージもあるらしい

 ここからはXeon 6の話だ。8月25日からHotChips 2024が開催された。インテルはここでLunar Lake、Gaudi 3、Xeon 6、それと4TbpsのOpticalベースのインターコネクトについて発表した。このうちLunar LakeとGaudi 3に関してはあまり新しい話は見当たらなかった。問題はXeon 6で、タイトルは"Building for the Edge: The Intel Xeon 6 SoC"である。

 これは今だとXeon Dに相当する、通信機器など特定用途向けのXeonである。Sapphire Rapidsの世代では、連載702回で示した下の画像ようにコア数や動作周波数、利用できるアクセラレーターの数やTDPでラインナップを展開する形で、その意味ではXeon Dシリーズの直接的な後継製品は展開されなかった。

Sapphire Rapidsは、コア数や動作周波数、利用できるアクセラレーターの数やTDPでラインナップを展開する

 したがって、昨年リリースされたXeon D-2899NTはまだIce Lakeベースとなっているのだが、さすがにそろそろ更新の必要があると判断したのだろう。

 そんなXeon 6 SoCは、引き続きコンピュートタイルとIOタイルから構成されるが、このIOタイルがIntel 4で製造され、いろいろアクセラレーターが入った話が講演では示されたのだが、そちらは本題ではない。問題はパッケージである。

 チップレット構造を取った関係で、パッケージそのものは少し大きくなるようで、基本的には既存のXeon 6700と同じパッケージが踏襲される「らしい」のはまぁ仕方がない。あとラインナップに8chメモリー以外に4chメモリーの製品も用意されるのも、ラインナップ的に考えれば不思議ではない。

このスライドで、4chパッケージと8chパッケージの幅が微妙に変えてあるのがわかるだろうか?

 それはいいのだが、なんと4ch版と8ch版ではパッケージそのものが変わっていることが明らかにされた。4ch版の方はパッケージを6.5mm縮めるとともに、8 DIMMスロット構成とすることで幅を短くできる。一方8ch版の方は16 DIMMスロットになるので幅は広がることになる。

高さはどちらも77.5mmで共通だが、幅は4ch版が50mm、8ch版が56.5mmである

 この4ch版と8ch版でパッケージの互換性があるというのは、8ch版の方で追加されている(というより削減されていない)片側4列づつの信号ピンは、追加の4chの信号線に割り当てられている。すなわち8chのデザインの方に4chのCPUを装着しても、ちゃんと動作するらしいのだが、「ここまで来てまだ新パッケージ作るのか?」とわりとインパクトがあった。

 8chの方はすでに発表済のXeon 6と同じFCLGA4710と思われる。4chの方はランド数は正確には不明だが、おそらく4200~4300前後まで減るものと思われる。まさかこのランド数でBGAパッケージというわけにはいかないだろうから、当然ソケットを設けてそこに装着する形になると思われる。

 DIMMスロットの本数の削減の方がはるかにサイズ削減には効果的なので、それに比べればパッケージによる面積削減の度合いは誤差の範囲だと思うのだが、それにもかかわらずここで幅50mmのパッケージを用意する理由が理解できない。既存の8chのパッケージを使いつつ4ch分は無効、ではいけなかった理由がわからないのが正直なところだ。むやみにラインアップを増やすのはいかがなものか。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください