Hot Chips 2025:AIブームに向けた液体冷却技術の革新

2025-09-05
Hot Chips 2025:AIブームに向けた液体冷却技術の革新

Hot Chips 2025では、AIチップ向けに設計された高度な液体冷却技術が展示されました。様々なメーカーが、チップのホットスポットを正確に冷却できる、マイクロジェットベースの冷プレートを発表しました。中には、ダイに直接水を噴射する技術も含まれていました。現在、サーバーアプリケーションに焦点を当てていますが、正確な温度制御は、将来、コンシューマーハードウェアにもメリットをもたらす可能性があります。また、軽量なアルミニウムや高効率な銅など、様々な素材の冷プレートも展示され、サーバーの重量や冷却ニーズに対応していました。AIチップの電力消費と発熱量の増加に対処するため、これらの液体冷却技術の革新は、データセンター冷却の重要なソリューションとなっています。

続きを読む
ハードウェア

Condor、革新的なアプローチによる高性能RISC-VコアCuzcoを発表

2025-08-30
Condor、革新的なアプローチによる高性能RISC-VコアCuzcoを発表

Andes Technologyの子会社であるCondor Computingは、Hot Chips 2025で高性能RISC-VコアCuzcoを発表しました。Cuzcoは8幅のアウトオブオーダ実行エンジン、最新の分岐予測器、そして革新的な時間ベースのスケジューリング方式を備えており、SiFiveのP870やVeyronのV1と同等の性能を実現します。その独自の方法は、バックエンドで主に静的スケジューリングを使用することで、省電力化と複雑さの軽減を実現し、最適なパフォーマンスを得るためにISAの変更やコンパイラの調整は不要です。Cuzcoは高度に構成可能で、顧客の様々なニーズに合わせてカスタマイズでき、マルチコアクラスタをサポートします。

続きを読む
ハードウェア

Googleのデータセンター規模の液冷:AI革命

2025-08-26
Googleのデータセンター規模の液冷:AI革命

AIの台頭は、データセンターにとって大きな熱問題を生み出しました。Hot Chips 2025で、GoogleはTPU向けに設計された大規模な液体冷却システムを発表しました。このシステムは、ラックレベルの冷却にCDU(冷却液分配ユニット)を使用し、空冷と比較して消費電力を大幅に削減し、冗長性によってシステムの安定性を確保します。Googleはまた、PC愛好家の「デリッド」と同様のベアダイ設計を採用し、TPUv4の熱伝達効率を向上させています。このソリューションは、AIの膨大な冷却需要に対応するだけでなく、将来のデータセンター冷却ソリューションの新しい方向性を示しています。

続きを読む
テクノロジー

インテルLion Cove:ゲームパフォーマンスの深層分析

2025-07-07
インテルLion Cove:ゲームパフォーマンスの深層分析

インテル最新のハイパフォーマンスCPUアーキテクチャであるLion Coveは、SPEC CPU2017ベンチマークで優れた性能を示し、AMD Zen 5と互角に渡り合います。しかし、ゲームワークロードは生産性ワークロードとは大きく異なります。この記事では、Lion Coveのゲームパフォーマンスを深く掘り下げ、キャッシュ階層、命令実行レイテンシ、ブランチ予測などの詳細なデータ分析を行います。Lion Coveのゲームシナリオにおける強みと弱みを明らかにし、Zen 4と比較します。結果は、強力なフロントエンドを示す一方で、バックエンドメモリレイテンシがボトルネックとなっており、ゲームパフォーマンスの改善余地があることを示しています。

続きを読む
ハードウェア

Nvidia Blackwell:計算能力の巨人、しかしその代償は?

2025-06-29
Nvidia Blackwell:計算能力の巨人、しかしその代償は?

Nvidiaの最新のBlackwellアーキテクチャ、RTX PRO 6000を代表例として、巨大なGB202チップ(750mm²、922億トランジスタ)と驚異的な188個のSMユニットを搭載し、比類なき演算性能を実現しています。本稿では、命令キャッシュ、実行ユニット、メモリサブシステムなど、マイクロアーキテクチャの詳細を掘り下げ、AMDのRDNA4アーキテクチャと比較しています。BlackwellはL2キャッシュのパフォーマンスやユニットあたりの効率など、いくつかの欠点がありますが、その圧倒的な規模により、競合他社を圧倒し、現在入手可能な最大のコンシューマー向けGPUとなっています。しかし、この野心的なアプローチには、消費電力(600W)やL2レイテンシなど、代償が伴います。記事は、将来のGPU市場の展望で締めくくられています。

続きを読む
ハードウェア

AMD Instinct MI350 深堀り:GCNベースのAIアクセラレータ

2025-06-20
AMD Instinct MI350 深堀り:GCNベースのAIアクセラレータ

AMDのInstinctアーキテクトチーフであるAlan Smith氏がインタビューを受け、GFX9アーキテクチャに基づく新型MI350シリーズAIアクセラレータの詳細を説明しました。MI350はGFX9アーキテクチャを採用していますが、LDS容量の増加(160KB)と帯域幅の向上、FP8、FP6、FP4データ型をサポートするマイクロスケーリングフォーマットの導入により、大幅な性能向上を実現しています。特に注目すべきは、MI350のFP6とFP4が同じスループットであることで、これはAMDがFP6のトレーニングと推論の両方における可能性に自信を持っていることを示しています。さらに、MI350はTF32ハードウェアアクセラレーションを省略し、最適化されたBF16を採用しており、TF32をサポートするためのソフトウェアエミュレーションを提供しています。N3PプロセスコンピューティングチップとN6プロセスI/Oチップで構築されたMI350は、設計を最適化し、演算ユニット数を削減することで、電力消費を削減しながら高性能を実現しています。

続きを読む
ハードウェア

AMD CDNA 4アーキテクチャ:行列演算とベクトル演算のバランス

2025-06-17
AMD CDNA 4アーキテクチャ:行列演算とベクトル演算のバランス

AMDは、最新のコンピューティング指向GPUアーキテクチャであるCDNA 4を発表しました。これはCDNA 3の控えめなアップデートであり、機械学習ワークロードにとって重要な低精度データ型による行列乗算性能の向上に重点を置いています。同時に、CDNA 4はベクトル演算におけるAMDのリードを維持することを目指しています。CDNA 3と同様のマルチチップレット設計を採用し、クロックスピードを向上させることで、CDNA 4はローカルデータ共有(LDS)の容量と帯域幅を改善し、行列乗算を最適化するための読み取りと転置LDS命令を導入しています。低精度行列演算ではNvidiaのBlackwellアーキテクチャに遅れを取っていますが、より多くのコア数と高いクロックスピードにより、ベクトル演算と高精度データ型においては大きなアドバンテージを維持しています。

続きを読む
ハードウェア

AMD Trinityの妥協のインターコネクト:10年間のiGPU統合

2025-06-17
AMD Trinityの妥協のインターコネクト:10年間のiGPU統合

この記事は、AMD Trinity APU(2012年リリース)のメモリインターコネクトアーキテクチャを詳細に分析しています。後のInfinity Fabricとは異なり、TrinityはCPUとiGPUを接続するために「Onion」と「Garlic」という2つの異なるリンクを使用しています。「Onion」はキャッシュコヒーレンシを保証しますが、帯域幅が制限されます。「Garlic」は高い帯域幅を提供しますが、コヒーレンシがありません。この設計は、当時のAthlon 64アーキテクチャに基づく妥協策であり、CPUとiGPUがお互いのメモリにアクセスするときにパフォーマンスペナルティが発生します。ゲームなどのグラフィックワークロードでは十分なパフォーマンスを発揮しますが、Trinityのアーキテクチャは、Intel Sandy Bridge/Ivy Bridgeの統合iGPUのような優雅さと効率性に欠けています。著者は、テストとデータ分析を使用して、両方のリンクの機能、利点、欠点を詳細に説明し、さまざまなゲームや画像処理プログラムを使用したTrinityのメモリ帯域幅の使用状況を示しています。

続きを読む
ハードウェア インターコネクト

IBM Telum II:革新的なメインフレームプロセッサとその仮想キャッシュ戦略

2025-05-19
IBM Telum II:革新的なメインフレームプロセッサとその仮想キャッシュ戦略

IBMの最新メインフレームプロセッサであるTelum IIは、5.5GHzで動作する8コアと、大容量360MBのオンチップキャッシュ、さらにDPUとAIアクセラレータを搭載しています。最も興味深い機能は、革新的な仮想L3およびL4キャッシュ戦略です。巧妙な飽和メトリックとキャッシュ置換ポリシーを用いることで、Telum IIは複数のL2キャッシュを巨大なL3およびチップ間L4に仮想的に統合し、単一スレッドのパフォーマンスを劇的に向上させ、最大32個のプロセッサが連携して動作する場合でも、信じられないほど低いレイテンシを維持します。この戦略は、将来のクライアントCPU設計に役立つ可能性がありますが、チップ間の相互接続帯域幅の制限を克服する課題が残っています。

続きを読む
ハードウェア 仮想キャッシュ

ZhaoxinのCentury Avenue:中国のx86 CPU野望への深層分析

2025-04-30
ZhaoxinのCentury Avenue:中国のx86 CPU野望への深層分析

上海のランドマークにちなんで命名された新しい「Century Avenue」アーキテクチャを搭載したZhaoxinの最新CPU、KX-7000は、2010年代前半のIntel CPUとの性能差を埋めることを目指しています。4ワイドコアと高クロック周波数で進歩を見せていますが、キャッシュ帯域幅、ブランチ予測、メモリサブシステムのパフォーマンスでは遅れを取っています。シングルスレッドのパフォーマンスはAMDのBulldozerとほぼ同等で、浮動小数点ベンチマークでは上回っていますが、BulldozerとIntel Skylakeと比較したマルチスレッドタスクでは劣っています。この記事は、KX-7000がAMDやIntelと直接競合することを目的としていないこと、むしろ中国の国内CPU需要に応えることを目的としており、パフォーマンス追求における技術的およびリソース的な課題を強調しています。

続きを読む
ハードウェア

RDNA 4の動的VGPR割り当て:レイトレーシングのボトルネックを解消

2025-04-05
RDNA 4の動的VGPR割り当て:レイトレーシングのボトルネックを解消

AMDのRDNA 4アーキテクチャは、レイトレーシングにおけるレジスタ数と占有率のトレードオフに対処するために、革新的な動的VGPR(ベクトル汎用レジスタ)割り当てモードを導入しました。従来のGPUは、レイトレーシングにおいて、スレッドあたりのレジスタ割り当てが固定されているため、レジスタ要求の高いステージがスレッドの並列処理を制限し、パフォーマンスに影響を与えていました。RDNA 4の動的割り当てモードは、スレッドが実行時にレジスタ数を動的に調整することを可能にし、レジスタファイルのサイズを増やすことなく占有率を高め、レイテンシを削減し、レイトレーシングのパフォーマンスを向上させます。このモードはデッドロックを引き起こす可能性がありますが、AMDはデッドロック回避モードでこれを軽減しています。これは万能薬ではなく、wave32コンピュートシェーダーのみに限定されますが、AMDのレイトレーシング技術の進歩に大きく貢献しています。

続きを読む
ハードウェア 動的VGPR割り当て

AMD RDNA 4:OutOfOrderメモリアクセスと偽の依存関係の排除

2025-03-23
AMD RDNA 4:OutOfOrderメモリアクセスと偽の依存関係の排除

AMDのRDNA 4アーキテクチャは、メモリサブシステムに大きな改良を加え、特にRDNA 3以前のアーキテクチャで存在していたウェーブフロント間の偽の依存関係に対処しています。以前は、あるウェーブフロントが別のウェーブフロントのメモリアクセスによってストールされることがあり、パフォーマンスに影響を与えていました。RDNA 4は、新しいアウトオブオーダーキューを実装することでこの問題を解決し、異なるシェーダーからの要求をアウトオブオーダーで処理できるようにします。この記事では、この改善を検証するテストの詳細と、ウェーブフロント間のメモリ依存関係の処理におけるAMD、Intel、NvidiaのGPUアーキテクチャの比較を示しています。完全に新しいものではありませんが、RDNA 4の改良は、レイトレーシングなどの新しいワークロードにおいて、パフォーマンスを大幅に向上させます。

続きを読む
ハードウェア メモリサブシステム

Intel Xe3アーキテクチャ深堀り:ハイエンド市場を目指す大幅な改良

2025-03-19
Intel Xe3アーキテクチャ深堀り:ハイエンド市場を目指す大幅な改良

Intel Xe3 GPUアーキテクチャの詳細が明らかになり、ソフトウェア開発は複数のオープンソースリポジトリで見ることができます。Xe3は最大256個のXeコアを搭載し、前世代を大幅に上回り、最大32,768個のFP32レーンをサポートします。改良点には、XVEあたりの同時実行スレッド数10個、柔軟なレジスタ割り当て、増加したスコアボードトークン、新しいgather-send命令などが含まれます。さらに、Xe3はSub-Triangle Opacity Culling (STOC)を導入し、三角形を細分化することで不要なシェーダー作業を削減し、レイトレーシングのパフォーマンスを向上させます。これらの改良により、Intelのアーキテクチャはパフォーマンスと効率の面でAMDとNvidiaに近づき、ハイエンドGPU市場におけるIntelの野心を示しています。

続きを読む
ハードウェア GPUアーキテクチャ

Intel Battlemageのレイトレーシング性能に関する詳細分析

2025-03-16
Intel Battlemageのレイトレーシング性能に関する詳細分析

この記事では、Battlemageアーキテクチャを採用したIntel Arc B580 GPUのレイトレーシング性能について深く掘り下げています。Cyberpunk 2077のパストレーシングと3DMark Port Royalベンチマークの分析を通じて、Battlemageのレイトレーシングアクセラレータ(RTA)における改良点が明らかになります。具体的には、レイトラバーサルパイプラインの3倍化、三角形交差テストレートの2倍化、16KBのBVHキャッシュなどが挙げられます。Cyberpunk 2077のパストレーシングでは、高い占有率が必ずしも高い実行ユニットの利用率に繋がるわけではありませんでしたが、改良されたキャッシュとアーキテクチャはPort Royalベンチマークで優れた性能を発揮しました。この記事は、Battlemageがレイトレーシング性能において大幅な進歩を遂げているものの、メモリサブシステムが依然としてパフォーマンスのボトルネックとなっていることを結論付けています。

続きを読む
ハードウェア

AMD Strix Halo SoC:手のひらサイズのThreadripper?

2025-03-14
AMD Strix Halo SoC:手のひらサイズのThreadripper?

CES 2025で、AMDシニアフェローのマヘシュ・スブラモニー氏が、Zen 5 CPUと強力なiGPUを搭載した画期的な統合プロセッサ、Strix Halo SoCを発表しました。デスクトップ版Zen 5とは異なり、Strix Haloは革新的なダイ間相互接続技術により電力効率を優先し、レイテンシを削減し、効率を向上させています。32MBのMALLキャッシュは主にGPU帯域幅を増幅するために使用されます。CPUからは直接アクセスできませんが、その設計により、将来のソフトウェアアップデートで機能を拡張できます。高性能モバイルワークステーションとして設計されたStrix Haloは、完全な512ビットFPUと優れたマルチスレッド性能を備えています。

続きを読む
ハードウェア

Zen 5:AMDによる高周波数下でのAVX-512の優雅な処理

2025-03-01
Zen 5:AMDによる高周波数下でのAVX-512の優雅な処理

この記事では、AMDのZen 5アーキテクチャが高周波数でAVX-512命令を実行する際の性能について詳しく解説します。固定周波数オフセットと長い遷移期間に悩まされたIntelのSkylake-Xとは異なり、Zen 5は改良されたオンダイセンサーとアダプティブクロッキングを利用して、5.7GHzのピーク周波数でAVX-512のフルパフォーマンスを実現します。テストによると、Zen 5はAVX-512のワークロードに遭遇しても、顕著な周波数低下は見られず、代わりに必要に応じて細かいIPC(命令毎サイクル)調整を行い、高いパフォーマンスを維持します。この動的な調整メカニズムにより、周波数の頻繁な遷移が効果的に回避され、高負荷と低負荷間のシームレスなパフォーマンス遷移が保証されます。極端な状況では短いIPC低下が発生する可能性がありますが、全体としてZen 5のAVX-512サポートは非常に優れており、以前のIntelアーキテクチャを大幅に上回っています。

続きを読む
ハードウェア

Intel Battlemage:Arc B580と、その課題に関する詳細な分析

2025-02-11
Intel Battlemage:Arc B580と、その課題に関する詳細な分析

Intelの新しいBattlemage GPUアーキテクチャがArc B580と共に登場しました。12GBのVRAMを搭載し、250ドルという価格でミッドレンジ市場に挑みます。この記事では、Alchemistよりも幅広いXeベクターエンジン、改良されたキャッシュメカニズム、最適化されたメモリアクセスなど、Battlemageの改良点を深く掘り下げています。スペック上は劣るものの、実テストでは驚くべきことに前世代のA770を凌駕する性能を示しました。しかし、ドライバーの問題とResizable BARへの依存は、Intelが克服すべき課題として残っています。

続きを読む
ハードウェア

アリババのXuantie C910:野心的なRISC-Vコア、しかし基礎が弱い

2025-02-04
アリババのXuantie C910:野心的なRISC-Vコア、しかし基礎が弱い

アリババのT-HEAD部門は、外国製チップへの依存を減らし、IoTやエッジコンピューティングにコスト効率の高いソリューションを提供することを目的とした、高性能RISC-VコアであるXuantie C910を発表しました。この記事では、C910のアーキテクチャ、特にアウトオブオーダー実行エンジン、ブランチ予測、キャッシュシステムを詳細に分析し、テストを通じてパフォーマンス特性を明らかにします。ベクトル拡張と非整列アクセス処理においては優れていますが、C910は、ROBサイズに対するスケジューラとレジスタファイルの容量が不十分であるため、バランスの悪いアウトオブオーダーエンジンに悩まされています。弱いキャッシュシステムもパフォーマンスをさらに制限します。野心的な目標にもかかわらず、C910はコアアーキテクチャとメモリサブシステムのバランスを改善する必要があります。

続きを読む
ハードウェア チップアーキテクチャ

SiFive P550 マイクロアーキテクチャ深堀り:RISC-Vの野心的な一歩

2025-01-27
SiFive P550 マイクロアーキテクチャ深堀り:RISC-Vの野心的な一歩

この記事では、SiFiveのP550マイクロアーキテクチャ、高性能アプリケーションをターゲットとしたRISC-Vプロセッサコアについて詳しく解説します。P550は、3ワイド・アウトオブオーダー実行アーキテクチャと13ステージのパイプラインを採用し、同等のArm Cortex A75の半分以下の面積で30%の性能向上を目指しています。Cortex A75との比較を通して、分岐予測、命令フェッチとデコード、アウトオブオーダー実行、メモリサブシステムなどを分析します。アライメントされていないメモリアクセスなど、いくつかの弱点も示されていますが、全体としてP550はRISC-Vにとって重要な一歩です。さらなる改善が必要ではありますが、P550はSiFiveが高性能汎用CPU開発に向けた潜在能力を示しています。

続きを読む
ハードウェア

Zen 5のオプキャッシュを無効化:クラスタ化されたデコーダの深層探求

2025-01-24
Zen 5のオプキャッシュを無効化:クラスタ化されたデコーダの深層探求

この記事では、AMD Zen 5プロセッサの命令フェッチとデコードメカニズムを深く掘り下げます。Zen 5は、ユニークなデュアルデコーダークラスタアーキテクチャを採用しており、各クラスタはコアの2つのSMTスレッドのいずれか1つを処理します。通常、Zen 5は6KBのオプキャッシュに依存して命令を提供し、デコーダはキャッシュミスが発生した場合にのみアクティブになります。著者はオプキャッシュを無効にし、デコーダにすべての命令を処理させることで、デコーダのパフォーマンスを評価します。テストの結果、オプキャッシュが無効な場合、シングルスレッドモードではパフォーマンスが大幅に低下することが明らかになりましたが、マルチスレッドモードでは、デュアルデコーダークラスタがパフォーマンスの損失を効果的に補い、一部のマルチスレッドワークロードではパフォーマンスの向上を示すことさえあります。著者は、Zen 5のデュアルデコーダークラスタ設計は、主要な命令ソースではなく、セカンダリメカニズムとして機能し、高IPCおよびマルチスレッドのシナリオにおけるパフォーマンスを向上させ、パフォーマンスと消費電力のバランスを実現するためにオプキャッシュを補完するものだと結論付けています。

続きを読む
ハードウェア CPUアーキテクチャ

インテルSkymont:Eコアアーキテクチャの深層分析

2025-01-18
インテルSkymont:Eコアアーキテクチャの深層分析

インテルの最新のモバイルチップ、Lunar Lakeは、Meteor LakeのCrestmontに代わる新しいEコアアーキテクチャであるSkymontを採用しています。Skymontは、マルチスレッドのパフォーマンスと低消費電力でのバックグラウンドタスク処理の両方を大幅に改善しています。この記事では、Skymontアーキテクチャの詳細な分析を行い、ブランチ予測、命令フェッチとデコード、アウトオブオーダ実行エンジン、整数実行、浮動小数点とベクトル実行、ロード/ストア、キャッシュとメモリアクセスについて説明します。Skymontはいくつかのベンチマークで優れた結果を示していますが、Meteor LakeのCrestmontコアやAMDのZen 5cコアと比較した場合、その優位性は必ずしも明確ではありません。これは、CPUのパフォーマンスにおけるキャッシュアーキテクチャの重要な役割、そして低消費電力と高性能マルチスレッドワークロードの両方を処理する単一のコアアーキテクチャを設計することの難しさを浮き彫りにしています。

続きを読む
ハードウェア Eコア

AMD Radeon Instinct MI300A:巨大なAPUアーキテクチャの深層探求

2025-01-18
AMD Radeon Instinct MI300A:巨大なAPUアーキテクチャの深層探求

AMD Radeon Instinct MI300Aは、24個のZen 4コアと228個のCDNA3コンピュートユニットを統合した巨大なAPUです。この記事では、その巨大なInfinity Fabricインターコネクトを深く掘り下げ、高帯域幅、低レイテンシ特性と、CPUとGPU間の効率的なデータ共有について強調します。高帯域幅メモリサブシステムはGPUにとって優れていますが、CPUのレイテンシに影響を与え、数年前のRyzen 9 3950Xに匹敵するシングルスレッド整数性能になっています。それにもかかわらず、MI300Aはスーパーコンピューティング分野で大きな成功を収め、特にLLNLのEl Capitanシステムを駆動し、TOP500リストのトップに輝いています。

続きを読む
ハードウェア

富士通のMonaka CPU:ARMv9、SVE2、3Dスタッキングを採用

2024-12-14
富士通のMonaka CPU:ARMv9、SVE2、3Dスタッキングを採用

富士通は、2027年のリリースを予定している新型データセンター向けCPU「Monaka」を発表間近です。MonakaはARMv9アーキテクチャ、SVE2拡張命令セット、3Dスタッキング技術を採用し、中央IOダイと分離されたSRAMと演算ユニットを持つAMD EPYCシリーズに似た設計となっています。各Monaka CPUは、最大144コアを4つの36コアチップレットに分散し、2nmプロセスで製造されます。IOは12チャネルのDDR5メモリ(600GB/s以上の帯域幅)、CXL 3.0対応のPCIe 6.0、空冷に対応します。前世代のA64FXとは異なり、MonakaはHBMをサポートせず、汎用データセンター市場をターゲットとしています。

続きを読む
ハードウェア 3Dスタッキング