Hot Chips 2025: AI 붐을 위한 액체 냉각 기술 혁신

2025-09-05
Hot Chips 2025: AI 붐을 위한 액체 냉각 기술 혁신

Hot Chips 2025에서는 AI 칩을 위해 설계된 첨단 액체 냉각 기술이 전시되었습니다. 여러 제조업체가 칩의 과열 지점을 정확하게 냉각할 수 있는 마이크로 제트 기반 냉각판을 선보였습니다. 심지어 다이에 직접 물을 분사하는 기술도 포함되어 있었습니다. 현재는 서버 애플리케이션에 초점을 맞추고 있지만, 정확한 온도 제어는 미래에 소비자 하드웨어에도 이점을 제공할 가능성이 있습니다. 또한, 경량 알루미늄과 고효율 구리 등 다양한 재질의 냉각판도 전시되어 서버의 무게와 냉각 요구 사항을 충족했습니다. AI 칩의 전력 소비량과 발열량이 증가함에 따라 이러한 액체 냉각 기술의 혁신은 데이터 센터 냉각의 중요한 솔루션이 되고 있습니다.

더 보기
하드웨어

Condor, 혁신적인 접근 방식의 고성능 RISC-V 코어 Cuzco 발표

2025-08-30
Condor, 혁신적인 접근 방식의 고성능 RISC-V 코어 Cuzco 발표

Andes Technology의 자회사인 Condor Computing은 Hot Chips 2025에서 고성능 RISC-V 코어 Cuzco를 발표했습니다. Cuzco는 8-wide out-of-order 실행 엔진, 최신 분기 예측기 및 혁신적인 시간 기반 스케줄링 방식을 갖추고 있으며, SiFive의 P870이나 Veyron의 V1과 같은 성능을 제공합니다. 독자적인 방식은 백엔드에서 주로 정적 스케줄링을 사용하여 전력 효율성과 복잡성을 줄이고, 최적의 성능을 위해 ISA 변경이나 컴파일러 조정이 필요하지 않습니다. Cuzco는 고도로 구성 가능하며 고객의 다양한 요구 사항에 맞게 사용자 정의할 수 있으며, 멀티 코어 클러스터를 지원합니다.

더 보기
하드웨어

Google의 데이터센터 규모 액체 냉각: AI 혁명

2025-08-26
Google의 데이터센터 규모 액체 냉각: AI 혁명

AI의 부상은 데이터센터에 심각한 열 문제를 야기했습니다. Hot Chips 2025에서 Google은 TPU를 위해 설계된 대규모 액체 냉각 시스템을 선보였습니다. 이 시스템은 랙 수준의 냉각에 CDU(냉각수 분배 장치)를 사용하여 공랭식에 비해 전력 소비를 크게 줄이고, 중복성을 통해 시스템 안정성을 확보합니다. Google은 또한 PC 애호가들의 '델리딩'과 유사한 베어 다이 설계를 채택하여 TPUv4의 열 전달 효율을 개선했습니다. 이 솔루션은 AI의 막대한 냉각 요구 사항을 충족할 뿐만 아니라 미래 데이터센터 냉각 솔루션의 새로운 방향을 제시합니다.

더 보기
기술

인텔 Lion Cove: 게임 성능 심층 분석

2025-07-07
인텔 Lion Cove: 게임 성능 심층 분석

인텔의 최신 고성능 CPU 아키텍처인 Lion Cove는 SPEC CPU2017 벤치마크에서 뛰어난 성능을 보이며 AMD Zen 5와 경쟁합니다. 그러나 게임 워크로드는 생산성 워크로드와 크게 다릅니다. 본 기사에서는 Lion Cove의 게임 성능을 심층적으로 분석하여 캐시 계층, 명령어 실행 지연 시간, 분기 예측 등의 자세한 데이터를 분석합니다. Lion Cove의 게임 시나리오에서의 강점과 약점을 밝히고 Zen 4와 비교합니다. 결과는 강력한 프런트엔드를 보여주는 반면, 백엔드 메모리 지연 시간이 병목 현상을 일으켜 게임 성능 개선의 여지가 있음을 나타냅니다.

더 보기
하드웨어

Nvidia Blackwell: 막강한 컴퓨팅 성능, 하지만 그 대가는?

2025-06-29
Nvidia Blackwell: 막강한 컴퓨팅 성능, 하지만 그 대가는?

Nvidia의 최신 Blackwell 아키텍처는 RTX PRO 6000을 통해 거대한 GB202 칩(750mm², 922억 트랜지스터)과 놀라운 188개의 SM 유닛을 탑재하여 타의 추종을 불허하는 컴퓨팅 성능을 제공합니다. 본 기사에서는 명령어 캐시, 실행 유닛, 메모리 서브시스템 등 마이크로 아키텍처의 세부 사항을 심층적으로 분석하고 AMD의 RDNA4 아키텍처와 비교합니다. Blackwell은 L2 캐시 성능이나 유닛당 효율성 면에서 약점을 보이지만, 압도적인 규모 덕분에 경쟁 제품을 압도하며 현재 시장에서 가장 큰 소비자용 GPU가 되었습니다. 하지만 이러한 야심찬 접근 방식에는 전력 소비(600W)와 L2 대기 시간 등의 대가가 따릅니다. 기사는 미래 GPU 시장 전망으로 마무리됩니다.

더 보기
하드웨어

AMD 인스팅트 MI350 심층 분석: GCN 기반 AI 가속기

2025-06-20
AMD 인스팅트 MI350 심층 분석: GCN 기반 AI 가속기

AMD의 수석 인스팅트 아키텍트인 Alan Smith가 인터뷰에서 GFX9 아키텍처 기반의 새로운 MI350 시리즈 AI 가속기에 대한 자세한 내용을 설명했습니다. MI350은 GFX9 아키텍처를 유지하지만, LDS 용량 증가(160KB) 및 대역폭 향상, FP8, FP6, FP4 데이터 유형을 지원하는 마이크로 스케일링 형식 도입을 통해 상당한 성능 향상을 달성했습니다. 특히 MI350의 FP6과 FP4가 동일한 처리량을 제공하는 점은 AMD가 FP6의 훈련 및 추론 모두에서의 잠재력에 대한 자신감을 보여줍니다. 또한 MI350은 TF32 하드웨어 가속을 생략하고 최적화된 BF16을 사용하며, TF32 지원을 위한 소프트웨어 에뮬레이션을 제공합니다. N3P 공정 컴퓨팅 칩과 N6 공정 I/O 칩으로 구축된 MI350은 설계를 최적화하고 연산 유닛 수를 줄여 전력 소비를 줄이면서 고성능을 달성합니다.

더 보기
하드웨어

AMD CDNA 4 아키텍처: 행렬 연산과 벡터 연산의 균형

2025-06-17
AMD CDNA 4 아키텍처: 행렬 연산과 벡터 연산의 균형

AMD는 CDNA 3에 대한 소폭 업그레이드인 최신 컴퓨팅 중심 GPU 아키텍처인 CDNA 4를 공개했습니다. 이는 머신러닝 작업에 중요한 저정밀도 데이터 유형을 사용한 행렬 곱셈 성능 향상에 중점을 두고 있습니다. 동시에 CDNA 4는 벡터 연산에서 AMD의 선두 위치를 유지하는 것을 목표로 합니다. CDNA 3과 유사한 멀티칩렛 설계를 사용하고 클록 속도를 높임으로써 CDNA 4는 지역 데이터 공유(LDS)의 용량과 대역폭을 개선하고 행렬 곱셈을 최적화하기 위한 읽기 및 전치 LDS 명령어를 도입했습니다. 저정밀도 행렬 연산에서는 Nvidia의 Blackwell 아키텍처에 뒤처지지만, 더 많은 코어 수와 높은 클록 속도 덕분에 벡터 연산과 고정밀도 데이터 유형에서는 상당한 이점을 유지하고 있습니다.

더 보기
하드웨어

AMD Trinity의 타협된 인터커넥트: 10년간의 iGPU 통합

2025-06-17
AMD Trinity의 타협된 인터커넥트: 10년간의 iGPU 통합

이 글에서는 AMD Trinity APU(2012년 출시)의 메모리 인터커넥트 아키텍처를 자세히 분석합니다. 이후의 Infinity Fabric과 달리, Trinity는 CPU와 iGPU를 연결하기 위해 "Onion"과 "Garlic"이라는 두 개의 서로 다른 링크를 사용합니다. "Onion"은 캐시 코히어런시를 보장하지만 대역폭이 제한적이며, "Garlic"은 높은 대역폭을 제공하지만 코히어런시가 없습니다. 이 설계는 당시 Athlon 64 아키텍처를 기반으로 한 타협이며, CPU와 iGPU가 서로의 메모리에 접근할 때 성능 저하가 발생합니다. 게임과 같은 그래픽 작업 부하에서는 충분한 성능을 제공하지만, Trinity 아키텍처는 Intel Sandy Bridge/Ivy Bridge의 통합 iGPU처럼 우아하고 효율적이지 않습니다. 저자는 테스트와 데이터 분석을 통해 두 링크의 기능, 장점, 단점을 자세히 설명하고, 다양한 게임과 이미지 처리 프로그램을 사용한 Trinity의 메모리 대역폭 사용량을 보여줍니다.

더 보기
하드웨어 인터커넥트

IBM Telum II: 혁신적인 메인프레임 프로세서와 가상 캐시 전략

2025-05-19
IBM Telum II: 혁신적인 메인프레임 프로세서와 가상 캐시 전략

IBM의 최신 메인프레임 프로세서인 Telum II는 5.5GHz로 동작하는 8개의 코어와 대용량 360MB 온칩 캐시, 그리고 DPU와 AI 가속기를 탑재하고 있습니다. 가장 흥미로운 기능은 혁신적인 가상 L3 및 L4 캐시 전략입니다. 정교한 포화 메트릭과 캐시 교체 정책을 사용하여 Telum II는 여러 L2 캐시를 거대한 L3 및 칩 간 L4로 가상적으로 통합하여 단일 스레드 성능을 극적으로 향상시키고 최대 32개의 프로세서가 함께 작동하는 경우에도 놀라울 정도로 낮은 대기 시간을 유지합니다. 이 전략은 미래의 클라이언트 CPU 설계에 도움이 될 수 있지만, 칩 간 상호 연결 대역폭 제한을 극복하는 과제가 남아 있습니다.

더 보기
하드웨어 가상 캐시

Zhaoxin의 Century Avenue: 중국의 x86 CPU 야망에 대한 심층 분석

2025-04-30
Zhaoxin의 Century Avenue: 중국의 x86 CPU 야망에 대한 심층 분석

새로운 "Century Avenue" 아키텍처를 탑재한 Zhaoxin의 최신 CPU인 KX-7000은 2010년대 초반 Intel CPU와의 성능 격차를 줄이는 것을 목표로 합니다. 4-wide 코어와 높은 클럭 속도에서 발전을 보여주지만, 캐시 대역폭, 분기 예측, 메모리 서브시스템 성능에서는 뒤처집니다. 단일 스레드 성능은 AMD Bulldozer와 거의 동일하며, 부동 소수점 벤치마크에서는 앞서지만, Bulldozer와 Intel Skylake와 비교한 멀티 스레드 작업에서는 뒤처집니다. 이 기사는 KX-7000이 AMD와 Intel과 직접 경쟁하기 위한 것이 아니라 중국의 국내 CPU 수요를 충족하기 위한 것이며, 성능 향상 과정에서 발생하는 기술적 및 자원적 과제를 강조합니다.

더 보기
하드웨어

RDNA 4의 동적 VGPR 할당: 레이 트레이싱 병목 현상 해결

2025-04-05
RDNA 4의 동적 VGPR 할당: 레이 트레이싱 병목 현상 해결

AMD의 RDNA 4 아키텍처는 레이 트레이싱에서 레지스터 수와 점유율 간의 절충 문제를 해결하기 위해 혁신적인 동적 VGPR(벡터 범용 레지스터) 할당 모드를 도입했습니다. 기존 GPU는 레이 트레이싱에서 스레드당 레지스터 할당이 고정되어 있기 때문에 레지스터 요구 사항이 높은 단계가 스레드 병렬 처리를 제한하여 성능에 영향을 미쳤습니다. RDNA 4의 동적 할당 모드는 스레드가 런타임에 레지스터 수를 동적으로 조정할 수 있도록 하여 레지스터 파일 크기를 늘리지 않고도 점유율을 높이고, 대기 시간을 줄이며, 레이 트레이싱 성능을 향상시킵니다. 이 모드는 교착 상태를 유발할 수 있지만 AMD는 교착 상태 회피 모드를 통해 이를 완화합니다. 이는 만병통치약이 아니며 wave32 컴퓨트 셰이더로 제한되지만 AMD의 레이 트레이싱 기술 발전에 크게 기여합니다.

더 보기
하드웨어 동적 VGPR 할당

AMD RDNA 4: 순서에 상관없는 메모리 액세스 및 가짜 종속성 제거

2025-03-23
AMD RDNA 4: 순서에 상관없는 메모리 액세스 및 가짜 종속성 제거

AMD의 RDNA 4 아키텍처는 메모리 서브시스템에 상당한 개선을 도입하여 특히 RDNA 3 이전 아키텍처에서 존재했던 웨이브프런트 간의 가짜 종속성 문제를 해결했습니다. 이전에는 하나의 웨이브프런트가 다른 웨이브프런트의 메모리 액세스로 인해 정체될 수 있어 성능에 영향을 미쳤습니다. RDNA 4는 새로운 순서에 상관없는 큐를 구현하여 이 문제를 해결하고, 서로 다른 셰이더의 요청을 순서에 상관없이 처리할 수 있도록 합니다. 본 기사에서는 이러한 개선 사항을 검증하는 테스트에 대한 자세한 내용과 웨이브프런트 간 메모리 종속성 처리 방식에 대한 AMD, Intel, Nvidia GPU 아키텍처 비교를 보여줍니다. 완전히 새로운 것은 아니지만 RDNA 4의 개선은 레이 트레이싱과 같은 새로운 워크로드에서 성능을 크게 향상시킵니다.

더 보기

Intel Xe3 아키텍처 심층 분석: 고성능 시장을 겨냥한 상당한 개선

2025-03-19
Intel Xe3 아키텍처 심층 분석: 고성능 시장을 겨냥한 상당한 개선

Intel Xe3 GPU 아키텍처의 세부 정보가 공개되었으며, 소프트웨어 개발은 여러 오픈 소스 저장소에서 확인할 수 있습니다. Xe3은 이전 세대보다 훨씬 많은 최대 256개의 Xe 코어를 자랑하며, 최대 32,768개의 FP32 레인을 지원합니다. 개선 사항에는 XVE당 동시 실행 스레드 수 10개, 유연한 레지스터 할당, 증가된 스코어보드 토큰, 새로운 gather-send 명령어 등이 포함됩니다. 또한, Xe3은 Sub-Triangle Opacity Culling (STOC)을 도입하여 삼각형을 세분화하여 불필요한 셰이더 작업을 줄이고 광선 추적 성능을 향상시킵니다. 이러한 개선을 통해 Intel 아키텍처는 성능과 효율 면에서 AMD와 Nvidia에 더욱 근접하게 되었으며, 고성능 GPU 시장에서 Intel의 야망을 보여줍니다.

더 보기
하드웨어 GPU 아키텍처

Intel Battlemage의 광선 추적 성능 심층 분석

2025-03-16
Intel Battlemage의 광선 추적 성능 심층 분석

본 기사는 Battlemage 아키텍처를 채택한 Intel Arc B580 GPU의 광선 추적 성능을 심층적으로 분석합니다. Cyberpunk 2077의 경로 추적과 3DMark Port Royal 벤치마크 분석을 통해 Battlemage의 광선 추적 가속기(RTA) 개선 사항을 밝힙니다. 구체적으로 광선 추적 파이프라인 3배 증가, 삼각형 교차 테스트 속도 2배 증가, 16KB BVH 캐시 등이 있습니다. Cyberpunk 2077의 경로 추적에서는 높은 점유율이 반드시 높은 실행 유닛 활용으로 이어지지는 않았지만, 개선된 캐시와 아키텍처는 Port Royal 벤치마크에서 뛰어난 성능을 보였습니다. 본 기사는 Battlemage가 광선 추적 성능에서 상당한 발전을 이루었지만, 메모리 서브 시스템이 여전히 성능 병목 현상을 일으킨다는 결론을 내립니다.

더 보기
하드웨어

AMD Strix Halo SoC: 휴대용 Threadripper?

2025-03-14
AMD Strix Halo SoC: 휴대용 Threadripper?

CES 2025에서 AMD 수석 연구원인 Mahesh Subramony는 Zen 5 CPU와 강력한 iGPU를 탑재한 획기적인 통합 프로세서인 Strix Halo SoC를 공개했습니다. 데스크톱 Zen 5와 달리 Strix Halo는 혁신적인 다이 간 상호 연결 기술을 통해 전력 효율을 우선시하여 대기 시간을 줄이고 효율성을 높였습니다. 32MB MALL 캐시는 주로 GPU 대역폭을 증폭하는 데 사용됩니다. CPU에서 직접 액세스할 수 없지만, 설계 상 향후 소프트웨어 업데이트를 통해 기능을 확장할 수 있습니다. 고성능 모바일 워크스테이션으로 설계된 Strix Halo는 완벽한 512비트 FPU와 뛰어난 멀티스레딩 성능을 갖추고 있습니다.

더 보기
하드웨어

Zen 5: AMD의 고주파수 환경에서 AVX-512의 우아한 처리

2025-03-01
Zen 5: AMD의 고주파수 환경에서 AVX-512의 우아한 처리

본 기사에서는 AMD의 Zen 5 아키텍처가 고주파수에서 AVX-512 명령어를 실행할 때의 성능을 자세히 분석합니다. 고정 주파수 오프셋과 긴 전환 시간으로 어려움을 겪었던 Intel Skylake-X와 달리, Zen 5는 개선된 온다이 센서와 적응형 클럭킹을 활용하여 5.7GHz 최대 주파수에서 AVX-512의 완벽한 성능을 달성합니다. 테스트 결과, Zen 5는 AVX-512 작업 부하를 만나도 주파수가 크게 떨어지지 않으며, 대신 필요에 따라 미세한 IPC(명령어당 사이클) 조정을 통해 높은 성능을 유지합니다. 이러한 동적 조정 메커니즘은 빈번한 주파수 전환을 효과적으로 방지하여 고부하와 저부하 간의 원활한 성능 전환을 보장합니다. 극단적인 상황에서는 짧은 IPC 저하가 발생할 수 있지만, 전반적으로 Zen 5의 AVX-512 지원은 매우 인상적이며 이전 Intel 아키텍처를 훨씬 능가합니다.

더 보기
하드웨어

인텔 배틀메이지: Arc B580 심층 분석 및 과제

2025-02-11
인텔 배틀메이지: Arc B580 심층 분석 및 과제

인텔의 새로운 배틀메이지 GPU 아키텍처가 Arc B580과 함께 등장했습니다. 12GB VRAM을 탑재하고 250달러라는 가격으로 중급 시장에 도전장을 던졌습니다. 이 기사에서는 더 넓은 Xe 벡터 엔진, 개선된 캐시 메커니즘, 최적화된 메모리 액세스 등 배틀메이지의 개선 사항을 자세히 분석합니다. 종이 위의 사양은 낮지만 놀랍게도 실제 테스트에서는 이전 세대인 A770을 능가하는 성능을 보여주었습니다. 하지만 드라이버 문제와 Resizable BAR 의존성은 인텔이 극복해야 할 과제로 남아 있습니다.

더 보기
하드웨어 배틀메이지

알리바바의 Xuantie C910: 야심찬 RISC-V 코어, 그러나 기본이 부족하다

2025-02-04
알리바바의 Xuantie C910: 야심찬 RISC-V 코어, 그러나 기본이 부족하다

알리바바의 T-HEAD 부서는 외국산 칩 의존도를 줄이고 IoT 및 에지 컴퓨팅에 비용 효율적인 솔루션을 제공하기 위한 고성능 RISC-V 코어인 Xuantie C910을 출시했습니다. 본 기사에서는 C910의 아키텍처, 특히 무질서 실행 엔진, 분기 예측, 캐시 시스템을 자세히 분석하고 테스트를 통해 성능 특징을 밝힙니다. 벡터 확장 및 비정렬 액세스 처리에 뛰어나지만 C910은 ROB 크기에 비해 스케줄러와 레지스터 파일의 용량이 부족하여 불균형적인 무질서 실행 엔진에 시달립니다. 취약한 캐시 시스템 또한 성능을 더욱 제한합니다. 야심찬 목표에도 불구하고 C910은 코어 아키텍처와 메모리 서브시스템의 균형을 개선해야 합니다.

더 보기

SiFive P550 마이크로아키텍처 심층 분석: RISC-V의 야심찬 도약

2025-01-27
SiFive P550 마이크로아키텍처 심층 분석: RISC-V의 야심찬 도약

이 글에서는 고성능 애플리케이션을 위한 RISC-V 프로세서 코어인 SiFive의 P550 마이크로아키텍처를 자세히 분석합니다. P550은 3-wide 아웃오브오더 실행 아키텍처와 13단계 파이프라인을 사용하며, 비슷한 성능의 Arm Cortex A75의 절반 미만 크기로 30% 향상된 성능을 목표로 합니다. Cortex A75와의 비교를 통해 분기 예측, 명령어 페치 및 디코딩, 아웃오브오더 실행, 메모리 서브시스템 등을 분석합니다. 정렬되지 않은 메모리 접근 등 몇 가지 약점이 있지만, 전반적으로 P550은 RISC-V의 중요한 발전을 의미합니다. 추가적인 개선이 필요하지만, P550은 SiFive가 고성능 범용 CPU 개발에서 가지는 잠재력을 보여줍니다.

더 보기
하드웨어

Zen 5의 Op 캐시 비활성화: 클러스터형 디코더 심층 분석

2025-01-24
Zen 5의 Op 캐시 비활성화: 클러스터형 디코더 심층 분석

이 글에서는 AMD Zen 5 프로세서의 명령어 가져오기 및 디코딩 메커니즘을 자세히 분석합니다. Zen 5는 고유한 이중 디코더 클러스터 아키텍처를 사용하며, 각 클러스터는 코어의 두 SMT 스레드 중 하나를 처리합니다. 일반적으로 Zen 5는 6KB Op 캐시에 의존하여 명령어를 제공하며, 디코더는 캐시 미스가 발생할 때만 활성화됩니다. 저자는 Op 캐시를 비활성화하여 디코더가 모든 명령어를 처리하도록 강제하고, 디코더의 성능을 평가합니다. 테스트 결과, Op 캐시가 비활성화된 경우 단일 스레드 모드에서 성능이 크게 저하되는 것으로 나타났지만, 다중 스레드 모드에서는 이중 디코더 클러스터가 성능 저하를 효과적으로 상쇄하고, 일부 다중 스레드 작업 부하에서는 성능 향상을 보이기도 합니다. 저자는 Zen 5의 이중 디코더 클러스터 설계가 주요 명령어 소스가 아니라 보조 메커니즘으로서, 높은 IPC 및 다중 스레드 시나리오에서 성능을 향상시키고, 성능과 전력 소비의 균형을 이루기 위해 Op 캐시를 보완하는 역할을 한다고 결론짓습니다.

더 보기
하드웨어 CPU 아키텍처

인텔 Skymont: E코어 아키텍처 심층 분석

2025-01-18
인텔 Skymont: E코어 아키텍처 심층 분석

인텔의 최신 모바일 칩인 Lunar Lake는 Meteor Lake의 Crestmont를 대체하는 새로운 E코어 아키텍처인 Skymont를 채택하고 있습니다. Skymont는 멀티스레드 성능과 저전력 백그라운드 작업 처리 능력을 모두 크게 향상시켰습니다. 본 기사에서는 Skymont 아키텍처에 대한 심층 분석을 제공하며, 분기 예측, 명령어 페치 및 디코딩, 순서 밖 실행 엔진, 정수 실행, 부동 소수점 및 벡터 실행, 로드/스토어, 캐시 및 메모리 액세스를 다룹니다. Skymont는 일부 벤치마크에서 뛰어난 성능을 보여주지만, Meteor Lake의 Crestmont 코어 및 AMD의 Zen 5c 코어와 비교했을 때 그 우위가 항상 명확한 것은 아닙니다. 이는 CPU 성능에서 캐시 아키텍처의 중요한 역할과 저전력 및 고성능 멀티스레드 작업 부하를 모두 처리하는 단일 코어 아키텍처를 설계하는 어려움을 강조합니다.

더 보기
하드웨어 E코어

AMD Radeon Instinct MI300A: 거대한 APU 아키텍처 심층 분석

2025-01-18
AMD Radeon Instinct MI300A: 거대한 APU 아키텍처 심층 분석

AMD Radeon Instinct MI300A는 24개의 Zen 4 코어와 228개의 CDNA3 컴퓨트 유닛을 통합한 거대한 APU입니다. 이 기사에서는 방대한 Infinity Fabric 인터커넥트를 심층적으로 분석하여 고대역폭, 저지연 특성과 CPU와 GPU 간의 효율적인 데이터 공유에 대해 강조합니다. 고대역폭 메모리 서브시스템은 GPU에 유리하지만 CPU 지연 시간에 영향을 미쳐 몇 년 전 Ryzen 9 3950X와 비슷한 단일 스레드 정수 성능을 보입니다. 그럼에도 불구하고 MI300A는 슈퍼컴퓨팅 분야에서 큰 성공을 거두었으며, 특히 LLNL의 El Capitan 시스템을 구동하고 TOP500 목록에서 1위를 차지했습니다.

더 보기
하드웨어

후지쯔 Monaka CPU: ARMv9, SVE2 및 3D 스태킹 탑재

2024-12-14
후지쯔 Monaka CPU: ARMv9, SVE2 및 3D 스태킹 탑재

후지쯔는 2027년 출시 예정인 새로운 데이터센터용 CPU인 Monaka를 출시할 예정입니다. Monaka는 ARMv9 아키텍처, SVE2 확장 명령어 세트, 3D 스태킹 기술을 채택하여 중앙 IO 다이와 분리된 SRAM 및 연산 유닛을 갖춘 AMD EPYC 시리즈와 유사한 설계를 가지고 있습니다. 각 Monaka CPU는 최대 144개의 코어를 4개의 36코어 칩렛에 분산하여 2nm 공정으로 제조됩니다. IO는 12채널 DDR5 메모리(600GB/s 이상 대역폭), CXL 3.0 지원 PCIe 6.0, 공랭식 냉각을 지원합니다. 이전 세대인 A64FX와 달리 Monaka는 HBM을 지원하지 않으며 범용 데이터센터 시장을 타겟으로 합니다.

더 보기
하드웨어 3D 스태킹