Hot Chips 2025 : Innovations de refroidissement liquide pour le boom de l'IA

2025-09-05
Hot Chips 2025 : Innovations de refroidissement liquide pour le boom de l'IA

Hot Chips 2025 a présenté des technologies avancées de refroidissement liquide conçues pour les puces d'IA. Les fournisseurs ont exposé diverses plaques froides à micro-jets capables de refroidir précisément les points chauds des puces, voire d'injecter directement de l'eau sur le die. Bien qu'actuellement axé sur les applications serveur, le contrôle précis de la température offre des avantages potentiels pour le matériel grand public à l'avenir. L'exposition présentait également des plaques froides en différents matériaux, tels que l'aluminium léger et le cuivre hautement efficace, répondant aux différents besoins de poids et de refroidissement des serveurs. Face à l'augmentation constante de la consommation d'énergie et de la dissipation thermique des puces d'IA, ces innovations en matière de refroidissement liquide deviennent des solutions cruciales pour le refroidissement des centres de données.

Lire plus
Matériel

Condor dévoile Cuzco : Un cœur RISC-V hautes performances avec une approche innovante

2025-08-30
Condor dévoile Cuzco : Un cœur RISC-V hautes performances avec une approche innovante

Condor Computing, filiale d'Andes Technology, a dévoilé son cœur RISC-V hautes performances, Cuzco, lors de Hot Chips 2025. Cuzco dispose d'un moteur d'exécution hors d'ordre à 8 voies, d'un prédicteur de branchement moderne et d'un schéma d'ordonnancement innovant basé sur le temps, le plaçant au même niveau que le P870 de SiFive et le V1 de Veyron. Son approche unique utilise principalement l'ordonnancement statique en back-end pour l'efficacité énergétique et une complexité réduite, sans nécessiter de modifications de l'ISA ou d'ajustements du compilateur pour des performances optimales. Cuzco est hautement configurable, permettant une personnalisation pour répondre aux différents besoins des clients, et prend en charge les clusters multinœuds.

Lire plus
Matériel

Refroidissement liquide à l'échelle d'un centre de données Google : une révolution pour l'IA

2025-08-26
Refroidissement liquide à l'échelle d'un centre de données Google : une révolution pour l'IA

L'essor de l'IA a créé un défi thermique important pour les centres de données. Lors de Hot Chips 2025, Google a présenté son système massif de refroidissement liquide conçu pour ses TPU. Ce système utilise des CDU (unités de distribution de liquide de refroidissement) pour un refroidissement au niveau des racks, réduisant considérablement la consommation d'énergie par rapport au refroidissement par air et garantissant la stabilité du système grâce à la redondance. Google utilise également une conception de matrice nue, similaire au « de-lidding » des passionnés de PC, pour améliorer l'efficacité du transfert thermique de son TPUv4. Cette solution répond non seulement aux besoins immenses de refroidissement de l'IA, mais indique également une nouvelle direction pour les futures solutions de refroidissement des centres de données.

Lire plus
Technologie

Intel Lion Cove : Plongeon au cœur des performances de jeu

2025-07-07
Intel Lion Cove : Plongeon au cœur des performances de jeu

La dernière architecture de CPU hautes performances d'Intel, Lion Cove, excelle dans les benchmarks SPEC CPU2017 et rivalise même avec l'AMD Zen 5. Cependant, les charges de travail de jeu diffèrent considérablement des tâches de productivité. Cet article plonge au cœur des performances de Lion Cove dans les jeux, en analysant des données détaillées sur la hiérarchie du cache, la latencia d'exécution des instructions, la prédiction de branche et plus encore. Il révèle les forces et les faiblesses de Lion Cove dans les scénarios de jeu et le compare à Zen 4. Les résultats montrent un front-end puissant, mais un goulot d'étranglement au niveau de la latence mémoire du back-end, laissant place à des améliorations des performances de jeu.

Lire plus
Matériel Performances jeu

Nvidia Blackwell : Un Colosse de Calcul, Mais à Quel Prix ?

2025-06-29
Nvidia Blackwell : Un Colosse de Calcul, Mais à Quel Prix ?

La dernière architecture Blackwell de Nvidia, illustrée par la RTX PRO 6000, arbore une puce GB202 gigantesque (750 mm², 92,2 milliards de transistors) et un nombre impressionnant de 188 unités SM, offrant des performances de calcul inégalées. Une analyse approfondie de sa microarchitecture révèle des détails sur le cache d'instructions, les unités d'exécution et les sous-systèmes de mémoire, en la comparant à l'architecture RDNA4 d'AMD. Bien que Blackwell présente quelques imperfections, comme les performances du cache L2 et l'efficacité par unité, son ampleur éclipse la concurrence, faisant d'elle la plus grande GPU grand public disponible. Cette ambition a cependant un coût, notamment la consommation d'énergie (600 W) et la latence du L2. L'article conclut par une perspective sur le paysage futur des GPU.

Lire plus
Matériel

Plongez au cœur de l'AMD Instinct MI350 : Accélérateur IA basé sur GCN

2025-06-20
Plongez au cœur de l'AMD Instinct MI350 : Accélérateur IA basé sur GCN

Dans une interview, Alan Smith, architecte en chef d'Instinct chez AMD, a approfondi les détails des nouveaux accélérateurs IA de la série MI350, basés sur l'architecture GFX9. Bien que le MI350 conserve l'architecture GFX9, des améliorations significatives des performances sont obtenues grâce à l'augmentation de la capacité de LDS (160 Ko) et de la bande passante, ainsi qu'à l'introduction de formats de micro-mise à l'échelle prenant en charge les types de données FP8, FP6 et FP4. Il est à noter que les FP6 et FP4 du MI350 affichent le même débit, ce qui reflète la confiance d'AMD dans le potentiel du FP6 pour l'apprentissage et l'inférence. De plus, le MI350 omet l'accélération matérielle TF32 au profit du BF16 optimisé, offrant une émulation logicielle pour la prise en charge de TF32. Construit avec des puces de calcul de processus N3P et des puces d'E/S de processus N6, le MI350 optimise la conception et réduit le nombre d'unités de calcul pour atteindre des performances élevées tout en réduisant la consommation d'énergie.

Lire plus
Matériel

Architecture AMD CDNA 4 : Équilibre entre les opérations matricielles et vectorielles

2025-06-17
Architecture AMD CDNA 4 : Équilibre entre les opérations matricielles et vectorielles

AMD dévoile sa dernière architecture de GPU orientée calcul, CDNA 4, une mise à jour modeste par rapport à CDNA 3. L'accent est mis sur l'amélioration des performances de la multiplication matricielle avec des types de données de faible précision, essentiels pour les charges de travail d'apprentissage automatique. Simultanément, CDNA 4 vise à maintenir l'avantage d'AMD sur les opérations vectorielles. Utilisant une architecture multicpuce similaire à celle de CDNA 3 et en augmentant les fréquences d'horloge, CDNA 4 améliore la capacité et la bande passante du partage de données local (LDS), en introduisant des instructions LDS de lecture avec transposition pour optimiser la multiplication matricielle. Bien qu'elle soit en retard sur l'architecture Blackwell de Nvidia pour les opérations matricielles à faible précision, CDNA 4 conserve un avantage significatif sur les opérations vectorielles et les types de données de haute précision grâce à son nombre de cœurs plus élevé et à ses fréquences d'horloge plus élevées.

Lire plus
Matériel

L'interconnexion compromise d'AMD Trinity : une décennie d'intégration iGPU

2025-06-17
L'interconnexion compromise d'AMD Trinity : une décennie d'intégration iGPU

Cet article explore en détail l'architecture d'interconnexion mémoire de l'APU AMD Trinity (sortie en 2012). Contrairement au Infinity Fabric ultérieur, Trinity utilise deux liens distincts, "Onion" et "Garlic", pour connecter le CPU et l'iGPU. "Onion" garantit la cohérence du cache mais est limité en bande passante, tandis que "Garlic" offre une bande passante élevée mais manque de cohérence. Cette conception reflète un compromis basé sur l'architecture Athlon 64 de l'époque, entraînant des pénalités de performances lorsque le CPU et l'iGPU accèdent à la mémoire de l'autre. Bien qu'offrant des performances adéquates pour les charges de travail graphiques comme les jeux, l'architecture de Trinity manque de l'élégance et de l'efficacité des iGPU intégrés Intel Sandy Bridge/Ivy Bridge. L'auteur utilise des tests et des analyses de données pour détailler les fonctionnalités, les avantages et les inconvénients des deux liens, démontrant l'utilisation de la bande passante mémoire de Trinity avec divers jeux et programmes de traitement d'images.

Lire plus
Matériel Interconnexion

IBM Telum II : Un processeur mainframe révolutionnaire et sa stratégie de cache virtuel

2025-05-19
IBM Telum II : Un processeur mainframe révolutionnaire et sa stratégie de cache virtuel

Le dernier processeur mainframe d'IBM, le Telum II, possède huit cœurs à 5,5 GHz et un énorme cache sur puce de 360 Mo, ainsi qu'une DPU et un accélérateur IA. Sa caractéristique la plus intrigante est sa stratégie innovante de cache virtuel L3 et L4. En utilisant intelligemment des métriques de saturation et des politiques de remplacement de cache, le Telum II combine virtuellement plusieurs caches L2 en un énorme L3 et un L4 entre les puces, augmentant considérablement les performances monofilo tout en maintenant une latence incroyablement faible, même avec jusqu'à 32 processeurs fonctionnant ensemble. Cette stratégie pourrait potentiellement éclairer les conceptions futures de CPU pour les clients, mais des défis persistent pour surmonter les limitations de bande passante d'interconnexion entre les puces.

Lire plus
Matériel Cache Virtuel

Zhaoxin Century Avenue : Plongeon au cœur des ambitions chinoises en matière de CPU x86

2025-04-30
Zhaoxin Century Avenue : Plongeon au cœur des ambitions chinoises en matière de CPU x86

Le dernier processeur de Zhaoxin, le KX-7000, doté de la nouvelle architecture "Century Avenue", vise à combler l'écart de performance avec les processeurs Intel du début des années 2010. Bien qu'il affiche des progrès avec un cœur plus large à 4 voies et des vitesses d'horloge plus élevées, le KX-7000 accuse un retard en termes de bande passante du cache, de prédiction de branche et de performances du sous-système mémoire. Les performances monofili sont à peu près équivalentes à celles de l'AMD Bulldozer, le surpassant dans les benchmarks à virgule flottante mais restant en deçà dans les tâches multi-threads face à Bulldozer et Intel Skylake. L'article suggère que le KX-7000 n'est pas conçu pour concurrencer directement AMD et Intel, mais plutôt pour répondre à la demande chinoise de processeurs nationaux, soulignant les défis techniques et de ressources dans la poursuite de la performance.

Lire plus
Matériel

Allocation dynamique de VGPR de RDNA 4 : Briser le goulot d’étranglement du ray tracing

2025-04-05
Allocation dynamique de VGPR de RDNA 4 : Briser le goulot d’étranglement du ray tracing

L’architecture AMD RDNA 4 introduit un nouveau mode d’allocation dynamique de VGPR (registres à usage général vectoriels) pour gérer le compromis entre le nombre de registres et l’occupation dans le ray tracing. Les GPU traditionnels rencontrent des limitations dans le ray tracing, où l’allocation fixe des registres par thread limite le parallélisme des threads dans les étapes ayant des demandes élevées de registres. L’allocation dynamique de RDNA 4 permet aux threads d’ajuster le nombre de registres pendant l’exécution, augmentant ainsi l’occupation sans augmenter la taille du fichier de registres, réduisant par conséquent la latence et améliorant les performances du ray tracing. Bien que ce mode puisse entraîner des blocages, AMD les atténue grâce à un mode d’évitement des blocages. Il ne s’agit pas d’une solution universelle, limitée aux shaders de calcul wave32, mais elle améliore considérablement les capacités de ray tracing d’AMD.

Lire plus

AMD RDNA 4 : Accès mémoire hors ordre et élimination des fausses dépendances

2025-03-23
AMD RDNA 4 : Accès mémoire hors ordre et élimination des fausses dépendances

L'architecture AMD RDNA 4 apporte des améliorations significatives au sous-système mémoire, notamment en corrigeant les fausses dépendances entre wavefronts présentes dans les architectures RDNA 3 et antérieures. Auparavant, un wavefront pouvait être bloqué par les accès mémoire d'un autre, affectant les performances. RDNA 4 résout ce problème en implémentant de nouvelles files d'attente hors ordre, permettant aux requêtes de différents shaders d'être traitées hors ordre. Cet article détaille des tests qui vérifient cette amélioration et compare les architectures de GPU AMD, Intel et Nvidia dans la gestion des dépendances mémoire entre wavefronts. Bien que pas totalement nouvelle, l'amélioration de RDNA 4 améliore significativement les performances, notamment dans les charges de travail émergentes comme le ray tracing.

Lire plus

Plongeon dans l'architecture Intel Xe3 : des améliorations significatives ciblent le marché haut de gamme

2025-03-19
Plongeon dans l'architecture Intel Xe3 : des améliorations significatives ciblent le marché haut de gamme

Des détails sur l'architecture GPU Intel Xe3 ont émergé, le développement logiciel étant visible dans plusieurs référentiels open source. La Xe3 dispose d'un potentiel maximum de 256 cœurs Xe, soit beaucoup plus que son prédécesseur, prenant en charge jusqu'à 32 768 voies FP32. Les améliorations comprennent 10 threads simultanés par XVE, une allocation flexible des registres, une augmentation des jetons de tableau de bord et une nouvelle instruction gather-send. De plus, la Xe3 introduit le Sub-Triangle Opacity Culling (STOC), qui subdivise les triangles pour réduire le travail de shader gaspillé, améliorant les performances du ray tracing. Ces avancées rapprochent l'architecture d'Intel de celles d'AMD et de Nvidia en termes de performances et d'efficacité, signalant l'ambition d'Intel sur le marché haut de gamme des GPU.

Lire plus
Matériel Architecture GPU

Plongeon au cœur des performances de ray tracing d'Intel Battlemage

2025-03-16
Plongeon au cœur des performances de ray tracing d'Intel Battlemage

Cet article explore en détail les performances de ray tracing du GPU Intel Arc B580 sous l'architecture Battlemage. En analysant le path tracing de Cyberpunk 2077 et le benchmark 3DMark Port Royal, il met en lumière les améliorations de l'accélérateur de ray tracing (RTA) de Battlemage, notamment un pipeline de parcours de rayons triplé, un taux de test d'intersection de triangles doublé et un cache BVH de 16 Ko. Bien que la forte occupation dans le path tracing de Cyberpunk 2077 ne se traduise pas par une utilisation élevée des unités d'exécution, le cache amélioré et l'architecture ont excellé dans Port Royal. L'article conclut que Battlemage affiche des progrès significatifs en matière de ray tracing, mais le sous-système mémoire reste un goulot d'étranglement pour les performances.

Lire plus
Matériel

AMD Strix Halo SoC : Un Threadripper portable ?

2025-03-14
AMD Strix Halo SoC : Un Threadripper portable ?

Au CES 2025, Mahesh Subramony, membre senior d'AMD, a dévoilé le Strix Halo SoC, un processeur intégré révolutionnaire doté d'un CPU Zen 5 et d'une puissante iGPU. Contrairement au Zen 5 pour ordinateur de bureau, le Strix Halo privilégie l'efficacité énergétique grâce à une technologie d'interconnexion die-to-die innovante, réduisant la latence et augmentant l'efficacité. Un cache MALL de 32 Mo amplifie principalement la bande passante du GPU ; bien qu'inaccessible directement par le CPU, sa conception permet des mises à jour logicielles futures pour étendre les fonctionnalités. Destiné à être une station de travail mobile hautes performances, le Strix Halo possède une FPU 512 bits complète et des performances multithread impressionnantes.

Lire plus
Matériel

Zen 5 : La gestion élégante d’AMD de l’AVX-512 à hautes fréquences

2025-03-01
Zen 5 : La gestion élégante d’AMD de l’AVX-512 à hautes fréquences

Cet article explore en détail les performances de l’architecture Zen 5 d’AMD exécutant des instructions AVX-512 à hautes fréquences. Contrairement à l’Intel Skylake-X, qui souffrait de décalages de fréquence fixes et de longues périodes de transition, le Zen 5 tire parti de capteurs intégrés améliorés et d’une horloge adaptative pour atteindre des performances AVX-512 complètes à sa fréquence maximale de 5,7 GHz. Les tests révèlent que le Zen 5 ne subit pas de baisses de fréquence significatives lorsqu’il rencontre des charges de travail AVX-512 ; au lieu de cela, il utilise des ajustements granulaires d’IPC (instructions par cycle) selon les besoins pour maintenir des performances élevées. Ce mécanisme d’ajustement dynamique évite efficacement les transitions de fréquence fréquentes, assurant des transitions de performances fluides entre les charges lourdes et légères. Bien que de brèves baisses d’IPC puissent survenir dans des conditions extrêmes, globalement, la prise en charge de l’AVX-512 par le Zen 5 est impressionnante, surpassant de loin les architectures Intel précédentes.

Lire plus
Matériel

Intel Battlemage : Plongeon au cœur de l'Arc B580 et de ses défis

2025-02-11
Intel Battlemage : Plongeon au cœur de l'Arc B580 et de ses défis

La nouvelle architecture GPU Battlemage d'Intel arrive avec l'Arc B580, une carte milieu de gamme visant à perturber le marché avec 12 Go de VRAM à 250 $. Cet article explore les améliorations de Battlemage par rapport à Alchemist, notamment des unités Xe Vector plus larges, des mécanismes de cache améliorés et un accès optimisé à la mémoire. Malgré des spécifications inférieures sur le papier, la B580 surpasse étonnamment son prédécesseur, l'A770, lors de tests réels. Cependant, les problèmes de pilotes et la dépendance à Resizable BAR restent des obstacles pour Intel.

Lire plus
Matériel

Le Xuantie C910 d'Alibaba : Un cœur RISC-V ambitieux, mais avec des fondamentaux faibles

2025-02-04
Le Xuantie C910 d'Alibaba : Un cœur RISC-V ambitieux, mais avec des fondamentaux faibles

La division T-HEAD d'Alibaba a lancé le Xuantie C910, un cœur RISC-V hautes performances visant à réduire la dépendance aux puces étrangères et à fournir des solutions économiques pour l'IoT et l'edge computing. Cette analyse approfondie examine l'architecture du C910, notamment son moteur d'exécution hors d'ordre, son prédicteur de branche et son système de cache, révélant les caractéristiques de performance grâce à des tests. Bien qu'il excelle dans les extensions vectorielles et la gestion des accès non alignés, le C910 souffre d'un moteur hors d'ordre déséquilibré avec une capacité insuffisante du planificateur et du fichier de registres par rapport à la taille de son ROB. Son système de cache faible limite encore plus les performances. Malgré son ambition, le C910 nécessite des améliorations pour équilibrer l'architecture du cœur et le sous-système mémoire.

Lire plus

Plongeon au cœur de la microarchitecture SiFive P550 : un pas ambitieux pour RISC-V

2025-01-27
Plongeon au cœur de la microarchitecture SiFive P550 : un pas ambitieux pour RISC-V

Cet article explore en détail la microarchitecture SiFive P550, un cœur de processeur RISC-V destiné aux applications hautes performances. Le P550 utilise une architecture d’exécution hors d’ordre à trois voies avec un pipeline à 13 étages, visant à obtenir 30 % de performances supérieures avec moins de la moitié de la surface d’un Arm Cortex A75 comparable. L’analyse compare le P550 au Cortex A75, en examinant la prédiction de branchement, la récupération et le décodage des instructions, l’exécution hors d’ordre et le sous-système de mémoire. Bien que le P550 présente des faiblesses dans des domaines tels que l’accès mémoire non aligné, il représente une avancée significative pour RISC-V. Néanmoins, des améliorations sont encore nécessaires, le P550 démontre les progrès de SiFive vers des processeurs polyvalents hautes performances.

Lire plus
Matériel

Désactivation du cache d'opérations du Zen 5 : plongée au cœur de ses décodeurs clusterisés

2025-01-24
Désactivation du cache d'opérations du Zen 5 : plongée au cœur de ses décodeurs clusterisés

Cet article explore en profondeur le mécanisme de récupération et de décodage des instructions du processeur AMD Zen 5. Le Zen 5 utilise une architecture unique de grappes de décodeurs doubles, chaque grappe servant l'un des deux threads SMT du cœur. Normalement, le Zen 5 s'appuie sur un cache d'opérations de 6 Ko pour fournir les instructions, les décodeurs ne s'activant qu'en cas de manque de cache. L'auteur désactive le cache d'opérations, forçant les décodeurs à gérer toutes les instructions, afin d'évaluer leurs performances. Les tests révèlent des baisses de performances significatives en mode monothread avec le cache d'opérations désactivé ; cependant, en mode multithread, les grappes de décodeurs doubles compensent efficacement la perte de performances, affichant même des gains de performances dans certaines charges de travail multithread. L'auteur conclut que la conception de grappes de décodeurs doubles du Zen 5 n'est pas la source principale d'instructions, mais agit comme un mécanisme secondaire, améliorant les performances dans les scénarios à IPC élevé et multithread, complétant le cache d'opérations pour un équilibre entre performances et consommation d'énergie.

Lire plus
Matériel Architecture CPU

Skymont d'Intel : Plongeon au cœur de l'architecture du cœur E

2025-01-18
Skymont d'Intel : Plongeon au cœur de l'architecture du cœur E

La dernière puce mobile d'Intel, Lunar Lake, intègre Skymont, une nouvelle architecture de cœur E remplaçant le Crestmont de Meteor Lake. Skymont améliore considérablement à la fois les performances multithread et la gestion des tâches d'arrière-plan à faible consommation. Cet article fournit une analyse approfondie de l'architecture de Skymont, couvrant la prédiction de branchements, la recherche et le décodage d'instructions, le moteur d'exécution hors d'ordre, l'exécution entière, l'exécution à virgule flottante et vectorielle, la charge/stockage et l'accès au cache et à la mémoire. Bien que Skymont excelle dans certains benchmarks, ses avantages par rapport aux cœurs Crestmont de Meteor Lake et aux cœurs Zen 5c d'AMD ne sont pas toujours évidents. Cela souligne le rôle crucial de l'architecture du cache dans les performances du CPU et les défis liés à la conception d'une seule architecture de cœur pour gérer les charges de travail multithread à faible consommation et hautes performances.

Lire plus
Matériel Cœur E

AMD Radeon Instinct MI300A : Plongez au cœur de son architecture APU massive

2025-01-18
AMD Radeon Instinct MI300A : Plongez au cœur de son architecture APU massive

L'AMD Radeon Instinct MI300A est une APU colossale intégrant 24 cœurs Zen 4 et 228 unités de calcul CDNA3. Cet article explore en profondeur son immense interconnexion Infinity Fabric, soulignant ses caractéristiques de haute bande passante et de faible latence, ainsi que le partage efficace des données entre le CPU et le GPU. Bien que son sous-système mémoire haute bande passante soit excellent pour le GPU, il impacte la latence du CPU, ce qui se traduit par des performances entières monofilaires comparables au Ryzen 9 3950X d'il y a quelques années. Malgré cela, la MI300A a connu un succès significatif en supercalcul, notamment en alimentant le système El Capitan du LLNL et en occupant la première place du classement TOP500.

Lire plus
Matériel

Le processeur Monaka de Fujitsu : ARMv9, SVE2 et empilement 3D

2024-12-14
Le processeur Monaka de Fujitsu : ARMv9, SVE2 et empilement 3D

Fujitsu s'apprête à lancer Monaka, un nouveau processeur pour les centres de données dont la sortie est prévue pour 2027. Monaka utilise l'architecture ARMv9, les extensions SVE2 et l'empilement 3D, similaire à l'architecture AMD EPYC avec une puce IO centrale et des unités SRAM et de calcul désagrégées. Chaque processeur Monaka comportera jusqu'à 144 cœurs répartis sur quatre chipsets de 36 cœurs, le tout fabriqué selon un processus de 2 nm. L'E/S offre 12 canaux de mémoire DDR5 (potentiellement dépassant 600 Go/s de bande passante), PCIe 6.0 avec prise en charge CXL 3.0 et un refroidissement par air. Contrairement à son prédécesseur, A64FX, Monaka omet la prise en charge HBM et se concentre sur le marché général des centres de données.

Lire plus
Matériel Empilement 3D