Hot Chips 2025: ابتكارات التبريد السائل لازدهار الذكاء الاصطناعي

2025-09-05
Hot Chips 2025: ابتكارات التبريد السائل لازدهار الذكاء الاصطناعي

عرض مؤتمر Hot Chips 2025 تقنيات متقدمة للتبريد السائل مصممة خصيصًا لرقائق الذكاء الاصطناعي. عرض البائعون العديد من اللوحات الباردة القائمة على تقنية الميكرو جيتس القادرة على تبريد نقاط الحرارة على الرقائق بدقة، بل وحقن الماء مباشرة على الرقاقة. على الرغم من تركيزها الحالي على تطبيقات الخوادم، إلا أن التحكم الدقيق في درجة الحرارة يوفر مزايا محتملة للأجهزة الاستهلاكية في المستقبل. كما عرض المعرض لوحات باردة من مواد مختلفة، مثل الألومنيوم الخفيف والنحاس عالي الكفاءة، لتلبية احتياجات الوزن والتبريد المختلفة للخوادم. في مواجهة الزيادة المستمرة في استهلاك الطاقة وتبديد الحرارة من رقائق الذكاء الاصطناعي، أصبحت هذه الابتكارات في مجال التبريد السائل حلولاً بالغة الأهمية لتبريد مراكز البيانات.

اقرأ المزيد
العتاد

Condor تكشف النقاب عن Cuzco: نواة RISC-V عالية الأداء مع نهج مبتكر

2025-08-30
Condor تكشف النقاب عن Cuzco: نواة RISC-V عالية الأداء مع نهج مبتكر

كشفت Condor Computing، وهي شركة تابعة لشركة Andes Technology، عن نواتها RISC-V عالية الأداء، Cuzco، في مؤتمر Hot Chips 2025. يتميز Cuzco بمحرك تنفيذ خارج الترتيب ذي 8 مسارات، ومتنبئ فرعي حديث، ومخطط جدولة مبتكر قائم على الوقت، مما يضعه في نفس مستوى P870 من SiFive و V1 من Veyron. يستخدم نهجها الفريد بشكل أساسي الجدولة الثابتة في الخلفية من أجل الكفاءة في استهلاك الطاقة وتقليل التعقيد، دون الحاجة إلى إجراء تغييرات على ISA أو تعديلات على المترجم لتحقيق أداء مثالي. يُعد Cuzco قابلًا للتكوين بدرجة عالية، مما يسمح بالتخصيص لتلبية الاحتياجات المتنوعة للعملاء، ويدعم مجموعات متعددة النواة.

اقرأ المزيد
عتاد

تبريد Google السائل على نطاق مراكز البيانات: ثورة للذكاء الاصطناعي

2025-08-26
تبريد Google السائل على نطاق مراكز البيانات: ثورة للذكاء الاصطناعي

أدى ازدهار الذكاء الاصطناعي إلى تحدٍّ كبير في توليد الحرارة لمراكز البيانات. في مؤتمر Hot Chips 2025، عرضت Google نظام التبريد السائل الضخم الخاص بها المصمم لوحدات معالجة التنسور (TPUs). يستخدم هذا النظام وحدات توزيع سائل التبريد (CDUs) للتبريد على مستوى الرفوف، مما يقلل بشكل كبير من استهلاك الطاقة مقارنةً بالتبريد الهوائي ويضمن استقرار النظام من خلال التكرار. كما تستخدم Google تصميمًا عارٍ للرقاقة، مشابهًا لعملية إزالة الغطاء لدى هواة أجهزة الكمبيوتر الشخصية، لتحسين كفاءة نقل الحرارة لوحدات TPUv4. هذا الحل لا يعالج فقط الاحتياجات الهائلة للتبريد في مجال الذكاء الاصطناعي، بل يشير أيضًا إلى اتجاه جديد لحلول تبريد مراكز البيانات في المستقبل.

اقرأ المزيد
التكنولوجيا مركز بيانات

معالج Lion Cove من إنتل: تحليل معمّق لأداء الألعاب

2025-07-07
معالج Lion Cove من إنتل: تحليل معمّق لأداء الألعاب

تتفوّق أحدث بنية معالجات إنتل عالية الأداء، Lion Cove، في اختبارات SPEC CPU2017، بل وحتى تتنافس مع معالج AMD Zen 5. ومع ذلك، تختلف مهام ألعاب الفيديو بشكل كبير عن مهام الإنتاجية. تقدم هذه المقالة تحليلاً معمّقاً لأداء Lion Cove في الألعاب، من خلال تحليل بيانات مفصلة عن التسلسل الهرمي للذاكرة التخزينية، ووقت الوصول للتعليمات، وتوقع الفروع، وأكثر من ذلك. تكشف هذه المقالة عن نقاط القوة والضعف في معالج Lion Cove في سيناريوهات الألعاب، وتقارنه بمعالج Zen 4. وتُظهر النتائج واجهة أمامية قوية، لكنّ هناك اختناقاً في زمن الوصول لذاكرة وحدة المعالجة المركزية الخلفية، مما يترك مجالاً للتحسين في أداء الألعاب.

اقرأ المزيد

معمارية نيفيديا بلاكويل: عملاق الحوسبة، لكن بثمن؟

2025-06-29
معمارية نيفيديا بلاكويل: عملاق الحوسبة، لكن بثمن؟

تتميز أحدث معمارية نيفيديا بلاكويل، الممثلة في RTX PRO 6000، بمعالج رسوميات GB202 ضخم (750 مم²، 92.2 مليار ترانزستور) وعدد مذهل من وحدات SM (188 وحدة)، مما يوفر أداءً حاسوبيًا غير مسبوق. يتعمق التحليل في تفاصيل المعالم الدقيقة للمعمارية، بما في ذلك تخزين التعليمات، ووحدات التنفيذ، ونظم الذاكرة الفرعية، مقارنةً بمعمارية RDNA4 من AMD. على الرغم من بعض العيوب في بلاكويل، مثل أداء ذاكرة التخزين المؤقت L2 والكفاءة لكل وحدة، إلا أن حجمها الهائل يتفوق على المنافسة، مما يجعلها أكبر وحدة معالجة رسوميات مخصصة للمستهلكين متاحة حاليًا. لكن هذا الطموح له ثمن، بما في ذلك استهلاك الطاقة (600 واط) وزمن الوصول لـ L2. يختتم المقال بمنظور حول مستقبل سوق وحدات معالجة الرسوميات.

اقرأ المزيد
العتاد

نظرة متعمقة على معالج AMD Instinct MI350: معالج تسريع الذكاء الاصطناعي القائم على GCN

2025-06-20
نظرة متعمقة على معالج AMD Instinct MI350: معالج تسريع الذكاء الاصطناعي القائم على GCN

في مقابلة، قام ألان سميث، كبير مهندسي بنية Instinct في AMD، بتقديم شرح مفصل للمعجلات الجديدة للذكاء الاصطناعي من سلسلة MI350، والتي تعتمد على بنية GFX9. وعلى الرغم من أن MI350 يحتفظ ببنيه GFX9، إلا أنه تم تحقيق تحسينات كبيرة في الأداء من خلال زيادة سعة LDS (160 كيلوبايت) وعرض النطاق الترددي، بالإضافة إلى إدخال تنسيقات تغيير الحجم الدقيق التي تدعم أنواع البيانات FP8 و FP6 و FP4. ومن الجدير بالذكر أن FP6 و FP4 في MI350 يتمتعان بنفس الإنتاجية، مما يعكس ثقة AMD في إمكانات FP6 لكل من التدريب والاستنتاج. علاوة على ذلك، فإن MI350 يتجاهل تسريع الأجهزة TF32 لصالح BF16 المحسّن، مع توفير محاكاة برمجية لدعم TF32. وقد تم بناء MI350 باستخدام رقائق حسابية من عملية N3P ورقائق إدخال/إخراج من عملية N6، حيث تم تحسين التصميم وتقليل عدد وحدات الحساب للحصول على أداء عال مع تقليل استهلاك الطاقة.

اقرأ المزيد

هندسة AMD CDNA 4: تحقيق التوازن بين عمليات المصفوفة والمتجهات

2025-06-17
هندسة AMD CDNA 4: تحقيق التوازن بين عمليات المصفوفة والمتجهات

تكشف AMD النقاب عن أحدث هندسة وحدة معالجة الرسومات الخاصة بها الموجهة للحوسبة، CDNA 4، وهي ترقية متواضعة عن CDNA 3. يركز هذا الإصدار على تعزيز أداء عملية ضرب المصفوفات باستخدام أنواع بيانات منخفضة الدقة، وهو أمر بالغ الأهمية لأحمال عمل التعلم الآلي. في الوقت نفسه، تهدف CDNA 4 إلى الحفاظ على تفوق AMD في عمليات المتجهات. باستخدام تصميم متعدد الشرائح مشابه لـ CDNA 3، وزيادة سرعات الساعة، تعمل CDNA 4 على تحسين سعة وعرض نطاق مشاركة البيانات المحلية (LDS)، وإدخال تعليمات LDS للقراءة مع النسخ لتعزيز كفاءة ضرب المصفوفات. وعلى الرغم من تأخرها عن هندسة Blackwell من Nvidia في عمليات المصفوفات منخفضة الدقة، إلا أن CDNA 4 تحتفظ بميزة كبيرة في عمليات المتجهات وأنواع البيانات عالية الدقة نظرًا لعدد النوى وسرعات الساعة الأعلى.

اقرأ المزيد
عتاد

وصلة AMD Trinity المتوافقة: عقد من دمج وحدة معالجة الرسومات المتكاملة

2025-06-17
وصلة AMD Trinity المتوافقة: عقد من دمج وحدة معالجة الرسومات المتكاملة

تتناول هذه المقالة بالتفصيل بنية ربط الذاكرة لوحدة معالجة AMD Trinity المُسرّعة (تم إصدارها في عام 2012). على عكس Infinity Fabric اللاحقة، تستخدم Trinity وصلة منفصلتين، "Onion" و "Garlic"، لربط وحدة المعالجة المركزية ووحدة معالجة الرسومات المتكاملة. تضمن "Onion" اتساق ذاكرة التخزين المؤقت، ولكنها محدودة في عرض النطاق الترددي، بينما توفر "Garlic" عرض نطاق ترددي عاليًا، لكنها تفتقر إلى الاتساق. يعكس هذا التصميم حلًا وسطًا قائمًا على بنية Athlon 64 في ذلك الوقت، مما أدى إلى عقوبات في الأداء عند وصول وحدة المعالجة المركزية ووحدة معالجة الرسومات إلى ذاكرة بعضهما البعض. على الرغم من أدائها المقبول في أحمال العمل الرسومية مثل الألعاب، إلا أن بنية Trinity تفتقر إلى أناقة وكفاءة وحدات معالجة الرسومات المتكاملة Intel Sandy Bridge/Ivy Bridge. يستخدم الكاتب الاختبارات وتحليل البيانات لتفصيل وظائف كل من الوصلتين، ومزاياهما وعيوبهما، مع توضيح استخدام عرض النطاق الترددي للذاكرة في Trinity من خلال العديد من الألعاب وبرامج معالجة الصور.

اقرأ المزيد
العتاد ربط

معالج IBM Telum II: معالج رئيسي ثوري واستراتيجيته للذاكرة التخزينية الظاهرية

2025-05-19
معالج IBM Telum II: معالج رئيسي ثوري واستراتيجيته للذاكرة التخزينية الظاهرية

معالج Telum II الرئيسي الجديد من IBM يضم ثمانية نوى بتردد 5.5 جيجاهرتز وذاكرة تخزين مؤقتة ضخمة بحجم 360 ميجابايت على الشريحة، بالإضافة إلى وحدة معالجة البيانات ووحدة تسريع الذكاء الاصطناعي. تتمثل ميزته الأكثر إثارة للاهتمام في استراتيجيته المبتكرة للذاكرة التخزينية الظاهرية L3 و L4. من خلال استخدام مقاييس التشبع وسياسات استبدال الذاكرة التخزينية بذكاء، يجمع Telum II العديد من ذاكرات التخزين المؤقتة L2 افتراضيًا في L3 ضخم و L4 عبر الرقائق، مما يعزز أداء الخيط الواحد بشكل كبير مع الحفاظ على زمن انتقال منخفض بشكل لا يصدق، حتى مع وجود ما يصل إلى 32 معالجًا يعملون معًا. قد تُلهم هذه الإستراتيجية تصاميم وحدات المعالجة المركزية للعملاء في المستقبل، ولكن لا تزال هناك تحديات في التغلب على قيود عرض النطاق الترددي لربط الرقائق.

اقرأ المزيد

معمارية Zhaoxin Century Avenue: تحليل معمّق لطموحات الصين في مجال وحدات المعالجة المركزية x86

2025-04-30
معمارية Zhaoxin Century Avenue: تحليل معمّق لطموحات الصين في مجال وحدات المعالجة المركزية x86

تهدف أحدث وحدة معالجة مركزية من Zhaoxin، وهي KX-7000، والتي تتميز بمعمارية "Century Avenue" الجديدة، إلى سد الفجوة في الأداء مع وحدات المعالجة المركزية من Intel في أوائل عام 2010. وعلى الرغم من إظهارها تقدمًا من خلال نواة أوسع من 4 مسارات وسرعات ساعة أعلى، إلا أن KX-7000 تتخلف في عرض نطاق التردد للذاكرة التخزين المؤقت، وتوقع الفروع، وأداء نظام الذاكرة الفرعي. يُقارن الأداء أحادي النواة تقريبًا بأداء AMD Bulldozer، متفوقًا عليه في اختبارات الفاصلة العائمة، ولكنه يظل دون مستوى Bulldozer وIntel Skylake في المهام متعددة النواة. وتشير المقالة إلى أن KX-7000 لم تُصمم للتنافس مباشرةً مع AMD وIntel، بل لتلبية الطلب الصيني على وحدات المعالجة المركزية المحلية، مع تسليط الضوء على التحديات التقنية والموارد في السعي لتحقيق الأداء.

اقرأ المزيد

تخصيص VGPR الديناميكي في RDNA 4: كسر اختناق تتبع الأشعة

2025-04-05
تخصيص VGPR الديناميكي في RDNA 4: كسر اختناق تتبع الأشعة

تُقدم بنية AMD RDNA 4 وضعًا جديدًا لتخصيص VGPR (سجلات الأغراض العامة المتجهة) الديناميكي لمعالجة التوازن بين عدد السجلات والإشغال في تتبع الأشعة. تواجه وحدات معالجة الرسومات التقليدية قيودًا في تتبع الأشعة، حيث يحد تخصيص السجلات الثابت لكل مؤشر ترابط من توازي المؤشرات في المراحل ذات الطلبات العالية على السجلات. يسمح التخصيص الديناميكي في RDNA 4 للمؤشرات بتعديل عدد السجلات أثناء وقت التشغيل، مما يزيد من الإشغال دون زيادة حجم ملف السجلات، وبالتالي تقليل زمن الوصول وزيادة أداء تتبع الأشعة. على الرغم من أن هذا الوضع قد يؤدي إلى حالات تعطيل، إلا أن AMD تخفف من ذلك من خلال وضع تجنب حالات التعطيل. هذا ليس حلًا عالميًا، فهو يقتصر على معالجات الحوسبة wave32، ولكنه يُحسّن بشكل كبير من قدرات تتبع الأشعة في AMD.

اقرأ المزيد

AMD RDNA 4: الوصول إلى الذاكرة خارج الترتيب وإزالة التبعيات الخاطئة

2025-03-23
AMD RDNA 4: الوصول إلى الذاكرة خارج الترتيب وإزالة التبعيات الخاطئة

تقدم بنية AMD RDNA 4 تحسينات كبيرة في نظام الذاكرة الفرعي، خاصةً في معالجة التبعيات الخاطئة بين واجهات الموجة الموجودة في RDNA 3 والعمارات السابقة. في السابق، كان من الممكن حجب واجهة موجة واحدة بواسطة وصولات ذاكرة أخرى، مما يؤثر على الأداء. يُحل RDNA 4 هذه المشكلة من خلال تنفيذ قوائم انتظار جديدة خارج الترتيب، مما يسمح بمعالجة طلبات من مُظللات مختلفة خارج الترتيب. تتضمن هذه المقالة تفاصيل الاختبارات التي تُثبت هذا التحسين، وتقارن بين عمارة وحدات معالجة الرسومات من AMD و Intel و Nvidia في التعامل مع تبعيات الذاكرة بين واجهات الموجة. على الرغم من أنها ليست تقنية جديدة تمامًا، إلا أن تحسينات RDNA 4 تُحسّن الأداء بشكل كبير، خاصةً في أحمال العمل الناشئة مثل تتبع الأشعة.

اقرأ المزيد

غطس عميق في هندسة Intel Xe3: تحسينات كبيرة تستهدف سوق الأداء العالي

2025-03-19
غطس عميق في هندسة Intel Xe3: تحسينات كبيرة تستهدف سوق الأداء العالي

ظهرت تفاصيل عن هندسة وحدة معالجة الرسومات Intel Xe3، مع ظهور تطوير البرامج في العديد من مستودعات المصادر المفتوحة. تتميز Xe3 بإمكانية الوصول إلى حد أقصى يبلغ 256 نواة Xe، وهو ما يزيد بكثير عن سابقتها، مع دعم يصل إلى 32768 مسارًا FP32. تتضمن التحسينات 10 خيوط متزامنة لكل XVE، وتخصيص سجلات مرن، وزيادة في رموز لوحة النتائج، وتعليمات gather-send الجديدة. بالإضافة إلى ذلك، تقدم Xe3 تقنية إزالة التعتيم الفرعي للثلاثية (STOC)، التي تقسم المثلثات لتقليل عمل الظل المهدر، مما يحسن أداء تتبع الأشعة. هذه التطورات تقرب هندسة Intel من هندسة AMD وNvidia من حيث الأداء والكفاءة، مما يشير إلى طموح Intel في سوق وحدات معالجة الرسومات عالية الأداء.

اقرأ المزيد

غطس عميق في أداء تتبع الأشعة في معمارية Intel Battlemage

2025-03-16
غطس عميق في أداء تتبع الأشعة في معمارية Intel Battlemage

تتناول هذه المقالة بالتفصيل أداء تتبع الأشعة لوحدة معالجة الرسومات Intel Arc B580 ضمن هندسة Battlemage. من خلال تحليل تتبع المسار في لعبة Cyberpunk 2077 ومعيار الأداء 3DMark Port Royal، تكشف المقالة عن تحسينات في معجل تتبع الأشعة (RTA) في Battlemage، بما في ذلك خط أنابيب مضاعف ثلاث مرات لتتبع الأشعة، ومعدل مضاعف مرتين لاختبار تقاطع المثلثات، وذاكرة تخزين مؤقتة BVH سعتها 16 كيلوبايت. وعلى الرغم من أن الاستخدام العالي في تتبع المسار في لعبة Cyberpunk 2077 لم يُترجم إلى استخدام عالي لوحدات التنفيذ، إلا أن ذاكرة التخزين المؤقت المحسّنة والهندسة المعمارية برزت في اختبار Port Royal. وتختتم المقالة بأن معمارية Battlemage تُظهر تقدماً كبيراً في تتبع الأشعة، ولكن نظام الذاكرة لا يزال يشكل عائقاً في الأداء.

اقرأ المزيد
عتاد

معالج AMD Strix Halo SoC: هل هو Threadripper محمول؟

2025-03-14
معالج AMD Strix Halo SoC: هل هو Threadripper محمول؟

في معرض CES 2025، كشف ماهيش سوبراموني، كبير الباحثين في AMD، عن معالج Strix Halo SoC، وهو معالج متكامل ثوري يتميز بوحدة معالجة مركزية Zen 5 ووحدة معالجة رسوميات iGPU قوية. على عكس Zen 5 لسطح المكتب، يعطي Strix Halo الأولوية لكفاءة الطاقة من خلال تقنية اتصال مبتكرة بين الدوائر المتكاملة، مما يقلل من زمن الوصول ويزيد من الكفاءة. تعمل ذاكرة التخزين المؤقت MALL سعة 32 ميجابايت على تضخيم عرض النطاق الترددي لوحدة معالجة الرسوميات بشكل أساسي؛ على الرغم من عدم إمكانية الوصول إليها مباشرة من وحدة المعالجة المركزية، إلا أن تصميمها يسمح بالتحديثات البرمجية المستقبلية لتوسيع الوظائف. صُممت وحدة Strix Halo لتكون محطة عمل متنقلة عالية الأداء، وتتميز بوحدة معالجة الأعداد العائمة FPU سعة 512 بت وأداء متعدد الخيوط رائع.

اقرأ المزيد
العتاد

Zen 5: كيف تتعامل AMD مع AVX-512 بشكل أنيق عند الترددات العالية

2025-03-01
Zen 5: كيف تتعامل AMD مع AVX-512 بشكل أنيق عند الترددات العالية

تتناول هذه المقالة بالتفصيل أداء بنية AMD Zen 5 عند تشغيل تعليمات AVX-512 بترددات عالية. على عكس Intel Skylake-X، الذي عانى من انزياحات تردد ثابتة وفترات انتقال طويلة، يستخدم Zen 5 أجهزة استشعار محسّنة على الرقاقة وتوقيتًا تكيفياً لتحقيق أداء AVX-512 الكامل عند تردده الأقصى البالغ 5.7 جيجا هرتز. تكشف الاختبارات أن Zen 5 لا يتعرض لانخفاضات كبيرة في التردد عند مواجهة أحمال عمل AVX-512؛ وبدلاً من ذلك، فإنه يستخدم تعديلات IPC (تعليمات لكل دورة) دقيقة الحبيبات حسب الحاجة للحفاظ على الأداء العالي. هذه الآلية التكيفية للتعديل تتجنب بشكل فعال انتقالات التردد المتكررة، مما يضمن انتقالات أداء سلسة بين الأحمال العالية والمنخفضة. على الرغم من أن انخفاضات IPC القصيرة قد تحدث في ظل ظروف قاسية، إلا أن دعم AVX-512 في Zen 5 بشكل عام مثير للإعجاب، ويتفوق بشكل كبير على بنيات Intel السابقة.

اقرأ المزيد
عتاد

معمارية إنتل باتلماج: تحليل معمّق لوحدة معالجة الرسوميات Arc B580 وتحدياتها

2025-02-11
معمارية إنتل باتلماج: تحليل معمّق لوحدة معالجة الرسوميات Arc B580 وتحدياتها

تُطلق إنتل معمارية وحدة معالجة الرسوميات الجديدة باتلماج مع Arc B580، وهي بطاقة منتصف المدى تهدف إلى إحداث تغيير في السوق بفضل ذاكرة الوصول العشوائي (VRAM) بسعة 12 جيجابايت بسعر 250 دولارًا. يتعمق هذا المقال في التحسينات التي أدخلتها باتلماج على معمارية ألكيمست، بما في ذلك وحدات Xe Vector الأوسع، وآليات ذاكرة التخزين المؤقت المحسّنة، والوصول إلى الذاكرة المُحسّن. وعلى الرغم من المواصفات الأقل على الورق، فإن B580 تتفوق بشكل مدهش على سابقتها A770 في الاختبارات الواقعية. ومع ذلك، لا تزال مشاكل برامج التشغيل والاعتماد على تقنية Resizable BAR تُمثّل تحديات أمام إنتل.

اقرأ المزيد

معالج إكستانتي سي ٩١٠ من علي بابا: نواة RISC-V طموحة لكنها تعاني من أساسيات ضعيفة

2025-02-04
معالج إكستانتي سي ٩١٠ من علي بابا: نواة RISC-V طموحة لكنها تعاني من أساسيات ضعيفة

أطلقت شركة علي بابا، من خلال قسمها تي-هيد، معالج إكستانتي سي ٩١٠، وهو نواة RISC-V عالية الأداء تهدف إلى تقليل الاعتماد على الرقائق الأجنبية وتوفير حلول فعالة من حيث التكلفة لأنظمة إنترنت الأشياء والحوسبة الطرفية. يحلّل هذا التحليل المعمّق بنية المعالج سي ٩١٠، بما في ذلك محرّكه للتنفيذ غير المرتّب، ومتنبّئه بالفروع، ونظام ذاكرته المؤقتة، ويكشف عن خصائص الأداء من خلال الاختبارات. وبالرغم من تفوّقه في امتدادات المتجهات ومعالجة عمليات الوصول غير المحاذية، إلا أنّ المعالج سي ٩١٠ يعاني من محرّك غير مرتّب غير متوازن، مع سعة غير كافية للمخطّط وجداول التسجيل مقارنةً بحجم ROB. كما أنّ نظام ذاكرته المؤقتة الضعيف يحدّ من الأداء أكثر. وعلى الرغم من الطموح، يحتاج المعالج سي ٩١٠ إلى تحسينات لتحقيق التوازن بين بنية النواة ونظام الذاكرة.

اقرأ المزيد

غطسة عميقة في بنية SiFive P550 الدقيقة: خطوة طموحة من RISC-V

2025-01-27
غطسة عميقة في بنية SiFive P550 الدقيقة: خطوة طموحة من RISC-V

تتناول هذه المقالة بالتفصيل بنية SiFive P550 الدقيقة، وهي نواة معالج RISC-V موجهة للتطبيقات عالية الأداء. يستخدم P550 بنية تنفيذ خارج الترتيب بثلاث مسارات مع خط أنابيب من 13 مرحلة، ويهدف إلى تحقيق أداء أعلى بنسبة 30٪ في مساحة أقل من نصف مساحة Arm Cortex A75 المماثل. تقارن التحليلات P550 مع Cortex A75، مع فحص تنبؤات الفروع، وجلب وتشفير التعليمات، والتنفيذ خارج الترتيب، ونظام الذاكرة الفرعي. على الرغم من أن P550 يعرض نقاط ضعف في مجالات مثل الوصول إلى الذاكرة غير المحاذاة، إلا أنه يمثل خطوة كبيرة إلى الأمام لـ RISC-V. ومع ذلك، لا تزال هناك حاجة إلى تحسينات إضافية، حيث يوضح P550 تقدم SiFive نحو وحدات المعالجة المركزية متعددة الأغراض عالية الأداء.

اقرأ المزيد
عتاد

تعطيل ذاكرة التخزين المؤقت للعمليات في Zen 5: تحليل معمق لوحدات فك التشفير العنقودية

2025-01-24
تعطيل ذاكرة التخزين المؤقت للعمليات في Zen 5: تحليل معمق لوحدات فك التشفير العنقودية

تتناول هذه المقالة بالتفصيل آلية جلب وتشفير التعليمات في معالج AMD Zen 5. يستخدم Zen 5 بنية فريدة من نوعها تتكون من مجموعتين من وحدات فك التشفير العنقودية، حيث تخدم كل مجموعة إحدى خيوط SMT الأساسية. عادةً، يعتمد Zen 5 على ذاكرة تخزين مؤقت للعمليات بسعة 6 كيلوبايت لتقديم التعليمات، ولا تنشط وحدات فك التشفير إلا في حالة حدوث خطأ في ذاكرة التخزين المؤقت. يقوم الكاتب بتعطيل ذاكرة التخزين المؤقت للعمليات، مما يجبر وحدات فك التشفير على معالجة جميع التعليمات، لتقييم أدائها. تكشف الاختبارات عن انخفاضات كبيرة في الأداء في وضع الخيط الواحد عند تعطيل ذاكرة التخزين المؤقت للعمليات؛ ومع ذلك، في وضع الخيوط المتعددة، تعوض مجموعات وحدات فك التشفير المزدوجة بفعالية عن فقدان الأداء، بل وتظهر مكاسب في الأداء في بعض أحمال العمل متعددة الخيوط. يستنتج الكاتب أن تصميم مجموعات وحدات فك التشفير المزدوجة في Zen 5 ليس المصدر الرئيسي للتعليمات، بل يعمل كآلية ثانوية، تعمل على تحسين الأداء في سيناريوهات IPC العالية ومتعددة الخيوط، مما يكمل ذاكرة التخزين المؤقت للعمليات لتحقيق توازن بين الأداء واستهلاك الطاقة.

اقرأ المزيد

سكيمونت من إنتل: تحليل معمق لمعمارية النواة الإلكترونية

2025-01-18
سكيمونت من إنتل: تحليل معمق لمعمارية النواة الإلكترونية

تتميز أحدث شريحة متحركة من إنتل، لونار ليك، بمعمارية سكيمونت الجديدة للنواة الإلكترونية، والتي تحل محل كريستمنت في ميتيور ليك. يحسن سكيمونت بشكل كبير كل من أداء متعدد الخيوط ومعالجة مهام الخلفية منخفضة الطاقة. تقدم هذه المقالة تحليلًا متعمقًا لمعمارية سكيمونت، والتي تغطي التنبؤ بالفروع، وجلب وفك تشفير التعليمات، وآلية التنفيذ خارج الترتيب، والتنفيذ الصحيح، والتنفيذ ذو الفاصلة العائمة والمتجه، والتحميل/التخزين، والوصول إلى ذاكرة التخزين المؤقت والذاكرة. على الرغم من تفوق سكيمونت في بعض اختبارات الأداء، إلا أن مزاياه على نوى كريستمنت في ميتيور ليك ونوى زين 5 سي من إيه إم دي ليست واضحة دائمًا. يبرز هذا الدور الحاسم لمعمارية ذاكرة التخزين المؤقت في أداء وحدة المعالجة المركزية، والتحديات المتعلقة بتصميم بنية نواة واحدة للتعامل مع أحمال العمل متعددة الخيوط منخفضة الطاقة وعالية الأداء.

اقرأ المزيد

AMD Radeon Instinct MI300A: غوص عميق في بنية APU الضخمة الخاصة بها

2025-01-18
AMD Radeon Instinct MI300A: غوص عميق في بنية APU الضخمة الخاصة بها

إن AMD Radeon Instinct MI300A هي وحدة معالجة متقدمة ضخمة تجمع بين 24 نواة Zen 4 و 228 وحدة حوسبة CDNA3. تتناول هذه المقالة بالتفصيل بنية Infinity Fabric الضخمة الخاصة بها، مع تسليط الضوء على خصائصها عالية النطاق الترددي ومنخفضة الكمون، بالإضافة إلى مشاركة البيانات الفعالة بين وحدة المعالجة المركزية ووحدة معالجة الرسومات. وعلى الرغم من أن نظام الذاكرة عالي النطاق الترددي الخاص بها ممتاز لوحدة معالجة الرسومات، إلا أنه يؤثر على زمن الوصول لوحدة المعالجة المركزية، مما يؤدي إلى أداء عدد صحيح أحادي الخيط قابل للمقارنة مع Ryzen 9 3950X قبل بضع سنوات. ومع ذلك، حققت MI300A نجاحًا كبيرًا في مجال الحوسبة الفائقة، حيث قامت على وجه الخصوص بتشغيل نظام El Capitan التابع لـ LLNL واحتلت المرتبة الأولى في قائمة TOP500.

اقرأ المزيد
العتاد

معالج موناكا من فوجيتسو: ARMv9 و SVE2 والتكديس ثلاثي الأبعاد

2024-12-14
معالج موناكا من فوجيتسو: ARMv9 و SVE2 والتكديس ثلاثي الأبعاد

تستعد شركة فوجيتسو لإطلاق معالج موناكا، وهو معالج جديد لمركز البيانات من المقرر إطلاقه في عام 2027. يستخدم موناكا بنية ARMv9، وامتدادات SVE2، والتكديس ثلاثي الأبعاد، على غرار بنية AMD EPYC مع شريحة مدخل/مخرج مركزية ووحدات SRAM ووحدات الحوسبة غير المجمعة. سيحتوي كل معالج موناكا على ما يصل إلى 144 نواة موزعة على أربعة شرائح من 36 نواة، وكلها مصنوعة بمعيار 2 نانومتر. يوفر مدخل/مخرج 12 قناة من ذاكرة DDR5 (تتجاوز احتمالية عرض النطاق الترددي 600 غيغا بايت/ثانية)، و PCIe 6.0 مع دعم CXL 3.0، وتبريد هوائي. على عكس سابقه، A64FX، يغفل موناكا دعم HBM ويركز على سوق مراكز البيانات العامة.

اقرأ المزيد