Hot Chips 2025: Flüssigkühlungsinnovationen für den KI-Boom

2025-09-05
Hot Chips 2025: Flüssigkühlungsinnovationen für den KI-Boom

Hot Chips 2025 zeigte fortschrittliche Flüssigkühltechnologien, die auf KI-Chips zugeschnitten sind. Anbieter präsentierten verschiedene Kaltplatten mit Mikrojets, die Hotspots auf Chips präzise kühlen können, sogar durch direkte Wasserinjektion auf den Die. Derzeit konzentriert sich dies auf Serveranwendungen, aber die präzise Temperaturregelung bietet zukünftig Potenzial für Consumer-Hardware. Die Ausstellung zeigte auch Kaltplatten aus verschiedenen Materialien, wie leichtem Aluminium und hocheffizientem Kupfer, um unterschiedliche Gewichts- und Kühlanforderungen von Servern zu erfüllen. Angesichts des stetig steigenden Energieverbrauchs und der Wärmeabfuhr von KI-Chips werden diese Flüssigkühlungsinnovationen zu entscheidenden Lösungen für die Kühlung von Rechenzentren.

Mehr lesen
Hardware

Condor präsentiert Cuzco: Ein Hochleistungs-RISC-V-Kern mit innovativem Ansatz

2025-08-30
Condor präsentiert Cuzco: Ein Hochleistungs-RISC-V-Kern mit innovativem Ansatz

Condor Computing, eine Tochtergesellschaft von Andes Technology, hat auf der Hot Chips 2025 seinen Hochleistungs-RISC-V-Kern Cuzco vorgestellt. Cuzco verfügt über eine 8-Wege-OutOfOrder-Ausführung, einen modernen Branch Predictor und ein neuartiges zeitbasiertes Scheduling-Schema, das ihn mit SiFive's P870 und Veyron's V1 auf Augenhöhe platziert. Sein einzigartiger Ansatz verwendet hauptsächlich statisches Scheduling im Backend für Energieeffizienz und reduzierte Komplexität, ohne Änderungen an der ISA oder Compiler-Anpassungen für optimale Leistung zu benötigen. Cuzco ist hochgradig konfigurierbar, ermöglicht Anpassungen an verschiedene Kundenanforderungen und unterstützt Multi-Core-Cluster.

Mehr lesen
Hardware

Googles Flüssigkühlung im Rechenzentrum: Eine Revolution für KI

2025-08-26
Googles Flüssigkühlung im Rechenzentrum: Eine Revolution für KI

Der Aufstieg der KI hat eine erhebliche Wärmeleistungsherausforderung für Rechenzentren geschaffen. Auf der Hot Chips 2025 präsentierte Google sein massives Flüssigkühlsystem, das für seine TPUs entwickelt wurde. Dieses System verwendet CDUs (Kühlmittelverteilungseinheiten) für die Rack-Kühlung, wodurch der Energieverbrauch im Vergleich zur Luftkühlung deutlich reduziert und die Systemstabilität durch Redundanz sichergestellt wird. Google verwendet auch ein Bare-Die-Design, ähnlich dem „De-Liding“ von PC-Enthusiasten, um die Wärmeübertragungseffizienz seiner TPUv4 zu verbessern. Diese Lösung bewältigt nicht nur den immensen Kühlbedarf der KI, sondern weist auch auf eine neue Richtung für zukünftige Rechenzentrum-Kühlungslösungen hin.

Mehr lesen
Technologie Flüssigkühlung

Intels Lion Cove: Tiefgehende Analyse der Spieleleistung

2025-07-07
Intels Lion Cove: Tiefgehende Analyse der Spieleleistung

Intels neueste Hochleistungs-CPU-Architektur, Lion Cove, schneidet in SPEC CPU2017 Benchmarks hervorragend ab und konkurriert sogar mit AMDs Zen 5. Gaming-Workloads unterscheiden sich jedoch erheblich von Produktivitätsaufgaben. Dieser Artikel taucht tief in die Spieleleistung von Lion Cove ein und analysiert detaillierte Daten zur Cache-Hierarchie, der Latenz der Befehlsausführung, der Branch Prediction und mehr. Er zeigt die Stärken und Schwächen von Lion Cove in Gaming-Szenarien und vergleicht sie mit Zen 4. Die Ergebnisse zeigen ein starkes Frontend, aber einen Engpass bei der Speicherlatenz im Backend, was Verbesserungspotenzial bei der Spieleleistung bietet.

Mehr lesen
Hardware

Nvidias Blackwell: Ein Rechenkoloss, aber zu welchem Preis?

2025-06-29
Nvidias Blackwell: Ein Rechenkoloss, aber zu welchem Preis?

Nvidias neueste Blackwell-Architektur, verkörpert durch die RTX PRO 6000, verfügt über einen gigantischen GB202-Chip (750 mm², 92,2 Milliarden Transistoren) und beeindruckende 188 SM-Einheiten, die unübertroffene Rechenleistung liefern. Eine detaillierte Analyse der Mikroarchitektur enthüllt Einzelheiten zu Instruction Caching, Ausführungseinheiten und Speichersubsystemen und vergleicht sie mit AMDs RDNA4-Architektur. Obwohl Blackwell einige Schwächen aufweist, wie z. B. die L2-Cache-Leistung und die Effizienz pro Einheit, übertrifft ihre schiere Größe die Konkurrenz und macht sie zur größten verfügbaren Consumer-GPU. Dieses ehrgeizige Ziel hat jedoch seinen Preis, einschließlich des Stromverbrauchs (600 W) und der L2-Latenz. Der Artikel schließt mit einer Perspektive auf die zukünftige GPU-Landschaft.

Mehr lesen
Hardware

Tieftauchen in den AMD Instinct MI350: GCN-basierter KI-Beschleuniger

2025-06-20
Tieftauchen in den AMD Instinct MI350: GCN-basierter KI-Beschleuniger

In einem Interview hat Alan Smith, Chief Instinct Architect bei AMD, detailliert die neuen KI-Beschleuniger der MI350-Serie auf Basis der GFX9-Architektur erläutert. Obwohl der MI350 die GFX9-Architektur beibehält, werden signifikante Leistungssteigerungen durch die Erhöhung der LDS-Kapazität (160 KB) und der Bandbreite sowie durch die Einführung von Microscaling-Formaten erreicht, die FP8-, FP6- und FP4-Datentypen unterstützen. Bemerkenswert ist, dass FP6 und FP4 des MI350 den gleichen Durchsatz aufweisen, was das Vertrauen von AMD in das Potenzial von FP6 sowohl für Training als auch für Inferenz widerspiegelt. Darüber hinaus verzichtet der MI350 auf die TF32-Hardwarebeschleunigung zugunsten von optimiertem BF16 und bietet Softwareemulation für die TF32-Unterstützung. Der MI350 wurde mit N3P-Prozess-Recheneinheiten und N6-Prozess-E/A-Einheiten gebaut und optimiert das Design und reduziert die Anzahl der Recheneinheiten, um eine hohe Leistung bei gleichzeitig reduziertem Energieverbrauch zu erzielen.

Mehr lesen
Hardware

AMD CDNA 4 Architektur: Ausgewogenes Verhältnis zwischen Matrix- und Vektoroperationen

2025-06-17
AMD CDNA 4 Architektur: Ausgewogenes Verhältnis zwischen Matrix- und Vektoroperationen

AMD präsentiert seine neueste rechenorientierte GPU-Architektur, CDNA 4, ein moderates Update gegenüber CDNA 3. Der Fokus liegt auf der Steigerung der Leistung der Matrixmultiplikation mit Datentypen niedriger Genauigkeit, die für Machine-Learning-Workloads entscheidend sind. Gleichzeitig zielt CDNA 4 darauf ab, AMDs Vorsprung bei Vektoroperationen zu halten. Mit einer ähnlichen Multi-Chiplet-Architektur wie CDNA 3 und erhöhten Taktraten verbessert CDNA 4 die Kapazität und Bandbreite des lokalen Datenspeicher (LDS) und führt LDS-Read-with-Transpose-Anweisungen ein, um die Matrixmultiplikation zu optimieren. Obwohl CDNA 4 bei Matrixoperationen niedriger Genauigkeit hinter Nvidias Blackwell-Architektur zurückbleibt, behält es aufgrund seiner höheren Kernzahl und Taktraten einen signifikanten Vorteil bei Vektoroperationen und Datentypen höherer Genauigkeit.

Mehr lesen
Hardware

AMD Trinitys kompromittierter Zusammenschluss: Ein Jahrzehnt iGPU-Integration

2025-06-17
AMD Trinitys kompromittierter Zusammenschluss: Ein Jahrzehnt iGPU-Integration

Dieser Artikel befasst sich eingehend mit der Speicheranbindungsarchitektur der AMD Trinity APU (veröffentlicht 2012). Im Gegensatz zum späteren Infinity Fabric verwendet Trinity zwei verschiedene Verbindungen, "Onion" und "Garlic", um CPU und iGPU zu verbinden. "Onion" gewährleistet Cache-Kohärenz, ist aber bandbreitenbegrenzt, während "Garlic" eine hohe Bandbreite bietet, aber keine Kohärenz aufweist. Dieses Design spiegelt einen Kompromiss wider, der auf der damaligen Athlon 64-Architektur basiert und zu Leistungseinbußen führt, wenn CPU und iGPU auf den Speicher des jeweils anderen zugreifen. Obwohl es für Grafik-Workloads wie Spiele eine ausreichende Leistung bietet, mangelt es der Trinity-Architektur an der Eleganz und Effizienz der integrierten Intel Sandy Bridge/Ivy Bridge iGPUs. Der Autor verwendet Tests und Datenanalysen, um die Funktionalität, Vorteile und Nachteile beider Verbindungen zu detaillieren und zeigt die Speicherauslastung von Trinity mit verschiedenen Spielen und Bildverarbeitungsprogrammen.

Mehr lesen
Hardware Zusammenschluss

IBM Telum II: Ein revolutionärer Mainframe-Prozessor und seine virtuelle Cache-Strategie

2025-05-19
IBM Telum II: Ein revolutionärer Mainframe-Prozessor und seine virtuelle Cache-Strategie

IBMs neuestes Mainframe-Prozessor, Telum II, verfügt über acht Kerne mit 5,5 GHz und einen riesigen On-Chip-Cache von 360 MB, zusammen mit einer DPU und einem KI-Beschleuniger. Sein faszinierendstes Merkmal ist die innovative virtuelle L3- und L4-Cache-Strategie. Durch geschickte Verwendung von Sättigungsmetriken und Cache-Ersetzungsprinzipien kombiniert Telum II mehrere L2-Caches virtuell zu einem riesigen L3 und einem chipübergreifenden L4, was die Single-Thread-Leistung drastisch steigert und gleichzeitig eine unglaublich niedrige Latenz beibehält, selbst bei bis zu 32 gemeinsam arbeitenden Prozessoren. Diese Strategie könnte zukünftige Client-CPU-Designs beeinflussen, aber Herausforderungen bleiben bei der Überwindung von Bandbreitenbeschränkungen der Chip-zu-Chip-Verbindung.

Mehr lesen
Hardware Virtueller Cache

Zhaoxins Century Avenue: Ein tiefer Einblick in Chinas x86-CPU-Ambitionen

2025-04-30
Zhaoxins Century Avenue: Ein tiefer Einblick in Chinas x86-CPU-Ambitionen

Zhaoxins neueste CPU, die KX-7000, mit der neuen "Century Avenue"-Architektur, zielt darauf ab, die Leistungslücke zu Intel-CPUs aus den frühen 2010er Jahren zu schließen. Während sie Fortschritte mit einem breiteren 4-Wide-Kern und höheren Taktraten zeigt, hinkt die KX-7000 bei Cache-Bandbreite, Branch Prediction und der Leistung des Speichersubsystems hinterher. Die Single-Thread-Leistung entspricht ungefähr der von AMDs Bulldozer, übertrifft diese in Floating-Point-Benchmarks, bleibt aber in Multi-Thread-Aufgaben gegenüber Bulldozer und Intel Skylake zurück. Der Artikel legt nahe, dass die KX-7000 nicht darauf ausgelegt ist, direkt mit AMD und Intel zu konkurrieren, sondern Chinas Bedarf an inländischen CPUs zu decken, wobei die technischen und ressourcenbezogenen Herausforderungen bei der Leistungsverbesserung hervorgehoben werden.

Mehr lesen
Hardware x86-CPU

Dynamische VGPR-Zuweisung in RDNA 4: Engpass im Raytracing beseitigen

2025-04-05
Dynamische VGPR-Zuweisung in RDNA 4: Engpass im Raytracing beseitigen

Die AMD RDNA 4-Architektur führt einen neuartigen Modus für die dynamische Zuweisung von VGPRs (vektorielle Allzweckregister) ein, um den Kompromiss zwischen Registeranzahl und Auslastung beim Raytracing zu lösen. Traditionelle GPUs stoßen beim Raytracing auf Einschränkungen, da die feste Registerzuweisung pro Thread den Thread-Parallelismus in Phasen mit hohem Registerbedarf begrenzt. Die dynamische Zuweisung in RDNA 4 ermöglicht es Threads, die Registeranzahl zur Laufzeit anzupassen, wodurch die Auslastung erhöht wird, ohne die Größe des Register-Files zu vergrößern. Dies reduziert die Latenz und verbessert die Raytracing-Leistung. Obwohl dieser Modus zu Deadlocks führen kann, mildert AMD dies durch einen Deadlock-Vermeidungsmodus. Dies ist keine universelle Lösung und beschränkt sich auf Wave32-Compute-Shader, verbessert aber die Raytracing-Fähigkeiten von AMD erheblich.

Mehr lesen

AMD RDNA 4: Außerordentliche Speicherzugriffe und die Beseitigung falscher Abhängigkeiten

2025-03-23
AMD RDNA 4: Außerordentliche Speicherzugriffe und die Beseitigung falscher Abhängigkeiten

Die AMD RDNA 4 Architektur bringt erhebliche Verbesserungen im Speichersubsystem mit sich, insbesondere durch die Behebung falscher Abhängigkeiten zwischen Wavefronts, die in RDNA 3 und früheren Architekturen vorhanden waren. Zuvor konnte ein Wavefront durch Speicherzugriffe eines anderen blockiert werden, was die Leistung beeinträchtigte. RDNA 4 behebt dies durch die Implementierung neuer außerordentlicher Warteschlangen, die es ermöglichen, Anfragen von verschiedenen Shadern außer der Reihe zu bearbeiten. Dieser Artikel beschreibt Tests, die diese Verbesserung verifizieren, und vergleicht AMD, Intel und Nvidia GPU-Architekturen im Umgang mit Speicherabhängigkeiten zwischen Wavefronts. Obwohl nicht völlig neu, verbessern die RDNA 4 Verbesserungen die Leistung deutlich, insbesondere bei neuen Workloads wie Raytracing.

Mehr lesen

Tieftauchen in die Intel Xe3-Architektur: Signifikante Verbesserungen zielen auf den High-End-Markt

2025-03-19
Tieftauchen in die Intel Xe3-Architektur: Signifikante Verbesserungen zielen auf den High-End-Markt

Details zur Intel Xe3-GPU-Architektur wurden enthüllt, wobei die Softwareentwicklung in mehreren Open-Source-Repositories sichtbar ist. Xe3 verfügt über ein maximales Potenzial von 256 Xe-Kernen, deutlich mehr als sein Vorgänger, und unterstützt bis zu 32.768 FP32-Lanes. Verbesserungen umfassen 10 gleichzeitige Threads pro XVE, flexible Registerzuweisung, mehr Scoreboard-Token und eine neue Gather-Send-Anweisung. Darüber hinaus führt Xe3 Sub-Triangle Opacity Culling (STOC) ein, das Dreiecke unterteilt, um verschwendete Shader-Arbeit zu reduzieren und die Raytracing-Leistung zu verbessern. Diese Fortschritte bringen Intels Architektur in Bezug auf Leistung und Effizienz näher an AMD und Nvidia heran und signalisieren Intels Ambitionen auf dem High-End-GPU-Markt.

Mehr lesen
Hardware GPU-Architektur

Tiefer Einblick in die Raytracing-Leistung von Intels Battlemage

2025-03-16
Tiefer Einblick in die Raytracing-Leistung von Intels Battlemage

Dieser Artikel untersucht die Raytracing-Leistung der Intel Arc B580 GPU unter der Battlemage-Architektur im Detail. Durch die Analyse des Path Tracings in Cyberpunk 2077 und des 3DMark Port Royal Benchmarks werden Verbesserungen im Ray Tracing Accelerator (RTA) von Battlemage aufgezeigt, darunter eine verdreifachte Ray Traversal Pipeline, eine verdoppelte Dreiecks-Intersection-Test-Rate und ein 16 KB BVH-Cache. Obwohl die hohe Auslastung beim Path Tracing in Cyberpunk 2077 nicht zu einer hohen Auslastung der Ausführungseinheiten führte, schnitten der verbesserte Cache und die Architektur im Port Royal Benchmark hervorragend ab. Der Artikel schlussfolgert, dass Battlemage signifikante Fortschritte im Raytracing zeigt, das Speichersubsystem jedoch weiterhin ein Engpass für die Leistung darstellt.

Mehr lesen
Hardware

AMD Strix Halo SoC: Ein tragbarer Threadripper?

2025-03-14
AMD Strix Halo SoC: Ein tragbarer Threadripper?

Auf der CES 2025 präsentierte Mahesh Subramony, Senior Fellow bei AMD, den Strix Halo SoC, einen bahnbrechenden integrierten Prozessor mit Zen 5 CPU und einer leistungsstarken iGPU. Im Gegensatz zum Desktop-Zen 5 priorisiert der Strix Halo Energieeffizienz durch eine innovative Die-to-Die-Verbindungstechnologie, wodurch Latenz reduziert und die Effizienz gesteigert wird. Ein 32 MB großer MALL-Cache verstärkt hauptsächlich die GPU-Bandbreite; obwohl er nicht direkt von der CPU zugänglich ist, ermöglicht sein Design zukünftige Software-Updates zur Erweiterung der Funktionalität. Der Strix Halo ist als Hochleistungs-Mobil-Workstation konzipiert und verfügt über eine vollständige 512-Bit-FPU und beeindruckende Multithreading-Leistung.

Mehr lesen
Hardware

Zen 5: AMDs elegante Handhabung von AVX-512 bei hohen Frequenzen

2025-03-01
Zen 5: AMDs elegante Handhabung von AVX-512 bei hohen Frequenzen

Dieser Artikel untersucht detailliert die Leistung der AMD Zen 5-Architektur bei der Ausführung von AVX-512-Instruktionen mit hohen Frequenzen. Im Gegensatz zu Intels Skylake-X, das unter festen Frequenzverschiebungen und langen Übergangsphasen litt, nutzt Zen 5 verbesserte On-Die-Sensoren und adaptive Taktung, um die volle AVX-512-Leistung bei seiner maximalen Frequenz von 5,7 GHz zu erreichen. Tests zeigen, dass Zen 5 keine signifikanten Frequenzabfälle bei AVX-512-Workloads erfährt; stattdessen verwendet es feingranulare IPC-Anpassungen (Instructions pro Taktzyklus), um eine hohe Leistung aufrechtzuerhalten. Dieser dynamische Anpassungsmechanismus vermeidet effektiv häufige Frequenzübergänge und sorgt für flüssige Leistungsumstellungen zwischen hohen und niedrigen Lasten. Während kurzzeitige IPC-Einbrüche unter extremen Bedingungen auftreten können, ist die AVX-512-Unterstützung von Zen 5 insgesamt beeindruckend und übertrifft deutlich frühere Intel-Architekturen.

Mehr lesen
Hardware

Intels Battlemage: Ein tiefer Einblick in die Arc B580 und ihre Herausforderungen

2025-02-11
Intels Battlemage: Ein tiefer Einblick in die Arc B580 und ihre Herausforderungen

Intels neue Battlemage-GPU-Architektur kommt mit der Arc B580, einer Mittelklasse-Grafikkarte, die den Markt mit 12 GB VRAM zu 250 $ aufmischen will. Dieser Artikel untersucht die Verbesserungen von Battlemage gegenüber Alchemist, darunter breitere Xe-Vektoreinheiten, verbesserte Cache-Mechanismen und optimierten Speicherzugriff. Trotz niedrigerer Spezifikationen auf dem Papier übertrifft die B580 in realen Tests überraschend ihren Vorgänger, die A770. Treiberprobleme und die Abhängigkeit von Resizable BAR bleiben jedoch Herausforderungen für Intel.

Mehr lesen
Hardware

Alibabas Xuantie C910: Ein ambitionierter RISC-V-Kern mit schwachen Grundlagen

2025-02-04
Alibabas Xuantie C910: Ein ambitionierter RISC-V-Kern mit schwachen Grundlagen

Alibabas T-HEAD-Abteilung hat den Xuantie C910 veröffentlicht, einen Hochleistungs-RISC-V-Kern, der darauf abzielt, die Abhängigkeit von ausländischen Chips zu reduzieren und kostengünstige Lösungen für IoT und Edge-Computing bereitzustellen. Diese tiefgehende Analyse untersucht die Architektur des C910, einschließlich seiner außer-Ordnung-Ausführungsmaschine, seines Branch Predictors und seines Cache-Systems, und offenbart Leistungsmerkmale durch Tests. Obwohl er bei Vektorerweiterungen und der Behandlung nicht ausgerichteter Zugriffe hervorragend abschneidet, leidet der C910 unter einer unausgeglichenen außer-Ordnung-Ausführungsmaschine mit unzureichender Kapazität des Schedulers und der Registerdateien im Verhältnis zu seiner ROB-Kapazität. Sein schwaches Cache-System schränkt die Leistung weiter ein. Trotz des Ehrgeizes benötigt der C910 Verbesserungen, um die Kernarchitektur und das Speichersubsystem auszugleichen.

Mehr lesen

Tieftauchen in die SiFive P550 Mikroarchitektur: Ein ambitionierter Schritt für RISC-V

2025-01-27
Tieftauchen in die SiFive P550 Mikroarchitektur: Ein ambitionierter Schritt für RISC-V

Dieser Artikel befasst sich eingehend mit der SiFive P550 Mikroarchitektur, einem RISC-V Prozessorkern für Hochleistungsanwendungen. Der P550 verwendet eine Three-Wide Out-of-Order Ausführungsarchitektur mit einer 13-stufigen Pipeline und zielt darauf ab, 30% höhere Leistung bei weniger als der Hälfte der Fläche eines vergleichbaren Arm Cortex A75 zu erreichen. Die Analyse vergleicht den P550 mit dem Cortex A75 und untersucht die Sprungvorhersage, die Instruktionsabholung und -dekodierung, die außer-Ordnung-Ausführung und das Speichersubsystem. Obwohl der P550 Schwächen in Bereichen wie nicht ausgerichtetem Speicherzugriff aufweist, stellt er einen bedeutenden Schritt für RISC-V dar. Obwohl weitere Verbesserungen erforderlich sind, zeigt der P550 den Fortschritt von SiFive auf dem Weg zu Hochleistungs-CPUs für allgemeine Zwecke.

Mehr lesen
Hardware

Deaktivieren des Op-Caches von Zen 5: Ein tiefer Einblick in die geclusterten Decoder

2025-01-24
Deaktivieren des Op-Caches von Zen 5: Ein tiefer Einblick in die geclusterten Decoder

Dieser Artikel befasst sich eingehend mit dem Mechanismus zum Abrufen und Dekodieren von Befehlen des AMD Zen 5 Prozessors. Zen 5 verwendet eine einzigartige Architektur mit zwei geclusterten Decodern, wobei jeder Cluster einen der beiden SMT-Threads des Kerns bedient. Normalerweise verlässt sich Zen 5 auf einen 6KB Op-Cache, um Befehle bereitzustellen, wobei die Decoder nur bei Cache-Fehlern aktiv werden. Der Autor deaktiviert den Op-Cache, zwingt die Decoder, alle Befehle zu verarbeiten, um deren Leistung zu bewerten. Die Tests zeigen signifikante Leistungseinbußen im Single-Thread-Modus bei deaktiviertem Op-Cache; im Multi-Thread-Modus gleichen die zwei geclusterten Decoder jedoch die Leistungseinbußen effektiv aus und zeigen sogar Leistungsgewinne bei einigen Multi-Thread-Workloads. Der Autor kommt zu dem Schluss, dass das Design der zwei geclusterten Decoder von Zen 5 nicht die primäre Befehlsquelle ist, sondern als sekundärer Mechanismus fungiert, der die Leistung in Szenarien mit hohem IPC und Multi-Threading verbessert und den Op-Cache für ein ausgewogenes Verhältnis zwischen Leistung und Energieverbrauch ergänzt.

Mehr lesen
Hardware CPU-Architektur

Intels Skymont: Ein tiefer Einblick in die E-Core-Architektur

2025-01-18
Intels Skymont: Ein tiefer Einblick in die E-Core-Architektur

Intels neuester mobiler Chip, Lunar Lake, verwendet Skymont, eine neue E-Core-Architektur, die Crestmont in Meteor Lake ersetzt. Skymont verbessert sowohl die Multithread-Leistung als auch die Verarbeitung von Hintergrundaufgaben mit geringem Stromverbrauch deutlich. Dieser Artikel bietet eine detaillierte Analyse der Skymont-Architektur, die die Branch Prediction, Instruction Fetch and Decode, Out-of-Order Execution Engine, Integer Execution, Floating-Point and Vector Execution, Load/Store und Cache- und Speicherzugriff umfasst. Obwohl Skymont in einigen Benchmarks glänzt, sind seine Vorteile gegenüber den Crestmont-Kernen von Meteor Lake und den Zen 5c-Kernen von AMD nicht immer eindeutig. Dies unterstreicht die entscheidende Rolle der Cache-Architektur bei der CPU-Leistung und die Herausforderungen bei der Entwicklung einer einzigen Kernarchitektur, die sowohl energiesparende als auch performante Multithread-Workloads bewältigt.

Mehr lesen
Hardware E-Core

AMD Radeon Instinct MI300A: Ein tiefer Einblick in die massive APU-Architektur

2025-01-18
AMD Radeon Instinct MI300A: Ein tiefer Einblick in die massive APU-Architektur

Die AMD Radeon Instinct MI300A ist eine kolossale APU mit 24 Zen 4-Kernen und 228 CDNA3-Recheneinheiten. Dieser Artikel befasst sich eingehend mit der riesigen Infinity Fabric-Interconnect, hebt deren Eigenschaften mit hoher Bandbreite und niedriger Latenz sowie die effiziente Datenfreigabe zwischen CPU und GPU hervor. Während das Hochbandbreiten-Speichersystem hervorragend für die GPU geeignet ist, wirkt es sich auf die CPU-Latenz aus, was zu einer Single-Thread-Integer-Leistung führt, die mit dem Ryzen 9 3950X von vor einigen Jahren vergleichbar ist. Dennoch hat die MI300A im Supercomputing große Erfolge erzielt, insbesondere beim Antrieb des El Capitan-Systems von LLNL und der Platzierung an der Spitze der TOP500-Liste.

Mehr lesen
Hardware

Fujitsus Monaka CPU: ARMv9, SVE2 und 3D-Stacking

2024-12-14
Fujitsus Monaka CPU: ARMv9, SVE2 und 3D-Stacking

Fujitsu steht kurz vor der Markteinführung von Monaka, einer neuen CPU für Rechenzentren, die für 2027 geplant ist. Monaka verwendet die ARMv9-Architektur, SVE2-Erweiterungen und 3D-Stacking, ähnlich der AMD EPYC-Architektur mit einem zentralen IO-Die und disaggregierten SRAM- und Compute-Einheiten. Jeder Monaka-Prozessor wird bis zu 144 Kerne auf vier 36-Kern-Chiplets verteilen, die alle in einem 2-nm-Prozess gefertigt werden. Die E/A bietet 12 DDR5-Speicherkanäle (potenziell über 600 GB/s Bandbreite), PCIe 6.0 mit CXL 3.0-Unterstützung und Luftkühlung. Im Gegensatz zu seinem Vorgänger, A64FX, verzichtet Monaka auf HBM-Unterstützung und konzentriert sich auf den allgemeinen Rechenzentrumsmarkt.

Mehr lesen
Hardware 3D-Stacking