اختيار وحدة المعالجة المركزية المدفوع بأحمال العمل: التشغيل الافتراضي، والذكاء الاصطناعي، والحوسبة عالية الأداء (HPC)، وقواعد البيانات
أحمال العمل الخاصة بالتشغيل الافتراضي والخدمات السحابية: عدد النوى، ومسارات PCIe، وقدرة نقل الإدخال/الإخراج (I/O)
عند اختيار وحدات المعالجة المركزية (CPUs) لأنظمة الافتراضية والحوسبة السحابية، تبرز الحاجة الفعلية إلى إيجاد التوازن المثالي بين عدد النوى المتاحة وقدرة الإدخال/الإخراج التي توفرها. فبالفعل، يُسهم زيادة عدد النوى في استضافة عدد أكبر من الآلات الافتراضية (VMs) على مضيف فيزيائي واحد، نظرًا لاحتياج كل آلة افتراضية إلى مجموعة خاصة بها من خيوط المعالجة لتشغيلها بسلاسة. لكن الأمور قد تسوء هنا إذا لم نكن حذرين. فامتلاك عدد كبير من النوى وحده لا يكفي إن لم تتوفر على اللوحة الأم ما يكفي من خطوط PCIe 5.0. فمعظم منصات أنظمة التشغيل الافتراضية (hypervisor) الحديثة تتطلب في الواقع ما لا يقل عن ١٢٨ خطاً لمعالجة أنظمة تخزين NVMe عالية السرعة واتصالات وحدات معالجة الرسوميات (GPU) في الوقت نفسه. وبغياب عرض نطاق كافٍ لإدخال/إخراج البيانات، سيلاحظ المستخدمون ظهور مشكلات التأخّر المزعجة عند محاولة نقل الآلات الافتراضية من مكان إلى آخر. ولا ينبغي أن ننسى كذلك قنوات الذاكرة. فاختيار تكوين ذاكرة بـ ٨ قنوات يُحدث فرقاً جوهرياً عند تشغيل تطبيقات قواعد البيانات الثقيلة جنباً إلى جنب مع مهام الحوسبة العادية، لأن ذلك يمنع حدوث تنافس بين العمليات المختلفة على الموارد المحدودة.
أحمال العمل الخاصة بالذكاء الاصطناعي والحوسبة عالية الأداء: زمن التأخير في الخيط الواحد، عرض النطاق الترددي للذاكرة، وتسريع العمليات الحسابية ذات الدقة المزدوجة (FP64) والعدد الصحيح ذي 8 بت (INT8)
عندما يتعلق الأمر بتدريب أنظمة الذكاء الاصطناعي وأحمال الحوسبة عالية الأداء (HPC) الثقيلة، فإنها تُطبِّق في الواقع أنواعاً مختلفة من الضغوط على وحدات معالجة المركز (CPUs). وبلا شك، يُحسِّن المعالجة المتوازية الاستفادة من الترتيبات متعددة النوى، لكن لا تزال هناك مسألةٌ أخرى كليّة تتعلّق بالتأخُّر في الخيط الواحد (single-thread latency)، وهي مسألةٌ ذات أهمية كبيرة في خطوات ما قبل المعالجة. فعلى سبيل المثال، في نماذج BERT: إذا استغرق كل نواة أكثر من 3 نانوثانية للرد، فإن سرعة معالجة الدفعات تنخفض بنسبة تقارب 22%. ولا تطلب مني الحديث عن عرض النطاق الترددي للذاكرة! فالفرق بين الأنظمة هائلٌ حقاً. جرّب تشغيل بعض عمليات المحاكاة الخاصة بالحوسبة عالية الأداء وراقب ما يحدث: فالأنظمة التي تمتلك عرض نطاق ترددي قدره 850 غيغابايت/ثانية يمكنها إنجاز حسابات ديناميكا الموائع مرتين أسرع مقارنةً بتلك الأنظمة التي تقتصر على 400 غيغابايت/ثانية. كما أن وحدات المعالجة العائمة بدقة مزدوجة (FP64) المتخصصة تُقدِّم فائدةً كبيرةً في مهام النمذجة العلمية، في حين أن تعليمات INT8 ممتازةٌ لجعل أحمال الاستنتاج (inference) تعمل بسلاسة أكبر. أما الشركات المصنِّعة التي تتجاهل هذه الميزات، فستجد أن وقت تدريب أنظمتها للذكاء الاصطناعي يزداد بنسبة تقارب 40% وفق اختبارات MLPerf. وهذه العقوبة الزمنية تتراكم بسرعةٍ كبيرةٍ في بيئات البحث حيث يُحسب كل ساعةٍ حساباً دقيقاً.
قواعد البيانات التفاعلية: لماذا تُعَدّ استقرار وحدة التحكم في الأخطاء (ECC)، وحجم الذاكرة المؤقتة، وتأخر الذاكرة أكثر أهميةً من عدد النوى
عندما يتعلق الأمر بقواعد البيانات التفاعلية، فإن الاستقرار يحتل المرتبة الأولى مقارنةً بالسرعة المطلقة. وتؤدي ذاكرة ECC دورًا حاسمًا في منع تلك التلفيات الخفية في البيانات التي لا نتنبّه لها أبدًا. فكّر فقط فيما قد يحدث عندما ينقلب بت واحد في الذاكرة المخزَّنة. ووفقًا لبعض الأبحاث التي أجرتها مؤسسة بونيمون عام 2023، يمكن أن تؤدي هذه النوعية من الأخطاء إلى نفقات باهظة جدًّا لإعادة الاستعادة، تصل إلى نحو ٧٤٠,٠٠٠ دولار أمريكي. كما تساعد الذواكر المؤقتة الكبيرة من المستوى الثالث (L3) ذات السعة التي تبلغ ٦٠ ميغابايت على الأقل في خفض أوقات الانتظار، لأنها تحتفظ بالبيانات المستخدمة بشكل شائع مباشرةً على الرقاقة نفسها. وهذا ما يجعل استعلامات OLTP تعمل أسرع بنسبة تقارب ٣٠٪ مقارنةً بأنظمة تمتلك ذواكر مؤقتة أصغر. وهناك أمرٌ مثيرٌ للاهتمام لا يتوقعه أحد: إدخال عدد كبير جدًّا من نوى المعالج يؤدي في الواقع إلى إبطاء الأداء. وأظهرت الاختبارات التي أُجريت باستخدام نظام MySQL أن الحواسيب المزودة بـ ٣٢ نواة استغرقت معاملاتها وقتًا أطول بنسبة ١٥٪ تقريبًا لإتمام العمليات مقارنةً بالحواسيب المزودة بـ ٢٤ نواة فقط، وذلك كله بسبب مشكلات NUMA المزعجة. أما بالنسبة لأي شخص يعمل في مجال التحليلات الفورية (Real-time Analytics)، فإن خفض زمن استجابة الذاكرة إلى أقل من ٨٠ نانوثانية يكتسب أهميةً بالغة تفوق بكثير مجرد عدّ عدد النوى الموجودة داخل المعالج.
أحمال العمل الاحترافية الإبداعية والتقنية: التصيير، وتحرير الفيديو، والمحاكاة
التصيير ثلاثي الأبعاد والمحاكاة العلمية: حقائق الأداء المقارنة بين معالجات Threadripper Pro وXeon W وEPYC
إن إنشاء عروض ثلاثية الأبعاد عالية الجودة وتشغيل المحاكاة العلمية المعقدة يُحمّل الأجهزة حملاً شديدًا عند ما يتعلق الأمر بقدرة المعالجة المتوازية. ويجب أن تحقّق معالجات محطات العمل توازنًا دقيقًا بين عدد النوى المدمجة فيها وبين سرعة انتقال البيانات عبر الذاكرة. ويتميّز معالج AMD Threadripper Pro في هذا السياق بتكوينه المثير للإعجاب المكوّن من 64 نواة، ودعمه لأربعة قنوات من ذاكرة DDR5. أما بالنسبة لأولئك الذين يعملون على محاكاة تشمل التحليل العنصري المحدود (FEA)، فإن الحفاظ على أداء قوي في العمليات الحسابية ذات الدقة المزدوجة (FP64) أمرٌ بالغ الأهمية. وينخفض معدل الاختناقات في تصميم معالج EPYC ذي القنوات الـ12 للذاكرة بنسبة تقارب 43% مقارنةً بالأنظمة التي تمتلك ثمانية قنوات ذاكرة فقط. وفيما يخص مهام تتبع أشعة الضوء (Ray Tracing)، يمتلك معالج Threadripper Pro ميزة تنافسية بفضل أحجام مخازن الذاكرة المؤقتة من المستوى الثالث (L3 cache) الأكبر لديه. وفي الوقت نفسه، لا يزال معالج Intel Xeon W سلسلة يحتفظ بموقعه الرائد في تطبيقات التصميم بمساعدة الحاسوب (CAD) أحادية الخيط، حيث يُعد الاستجابة الفورية العامل الأهم. كما أن معظم برامج التصيير المستندة إلى الفيزياء تتناسب طرديًّا جدًّا مع عدد النوى المتاحة، ما يعني أن تجاوز عتبة 32 نواة يصبح ضرورةً شبه ملحةٍ إذا أراد الفنانون تقليص أوقات التصيير من عدة ساعات إلى دقائق معدودة. ولا تزال إدارة الحرارة تمثّل مصدر قلق كبيرٍ أيضًا. فخلال عمليات تشغيل طويلة لمحاكاة ديناميكا الموائع الحاسوبية (CFD)، يمكن لتراكم الحرارة أن يحدّ بشكلٍ جادٍّ من الأداء الذي تستطيع هذه الأنظمة القوية تقديمه على المدى الطويل؛ ولذلك لم تعد أنظمة التبريد السائل مجرد خيارٍ مريحٍ، بل أصبحت ضرورةً عمليةً لأنظمة محطات العمل الجادة.
تحرير الفيديو وتشفيره: تأثير تقنية Intel Quick Sync وتعليمات AVX-512 وهندسة الذاكرة الموحدة على اختيار وحدة معالجة المركزية
تركّز معظم إعدادات تحرير الفيديو هذه الأيام فعليًّا على تحقيق معالجة سلسة للمشاهد التمهيدية في الوقت الفعلي، مع تسريع عمليات التصدير الطويلة في آنٍ واحد. فعلى سبيل المثال، تتيح تقنية Intel Quick Sync لوحدات معالجة الرسومات (GPU) تنفيذ مهام تشفير صيغة H.265، ما يقلّل وقت تصدير الجداول الزمنية بدقة 4K بنسبة تصل إلى 70% مقارنةً بالاعتماد فقط على التصيير البرمجي. وعند العمل مع درجات الألوان المعقدة والخرائط اللونية (LUTs) المتقدمة، فإن تعليمات AVX-512 الموجودة في معالجات Xeon W قادرة على معالجة كمّ هائل من بيانات الألوان دفعة واحدة، حيث تعالج مقاطع كاملة بعرض 512 بت في كل دورة. كما تكتسب هندسة الذاكرة الموحدة أهمية بالغة أيضًا، لا سيما عند التعامل مع ملفات RAW بدقة 8K الضخمة؛ إذ تعمل هذه البنية على إزالة كل تلك التأخيرات المزعجة التي تحدث عندما يضطر البيانات إلى الانتقال ذهابًا وإيابًا بين مناطق الذاكرة المختلفة. وإليك أمرًا قد يودّ مُنشئو المحطات الطرفية الانتباه إليه...
- نادرًا ما تُفيد تكوينات وحدتي المعالجة المركزية المزدوجتين في تحرير الفيديو بسبب زمن الوصول المرتبط بالبنية غير المتجانسة للذاكرة (NUMA)
- تتطلب سير عمل معيار الترميز H.266/VVC دعم التسريع العتادي
- تمنع ذاكرة DDR5 ذات السعة 128 جيجابايت فأكثر مع تصحيح الأخطاء (ECC) فقدان الإطارات أثناء تحرير مقاطع الفيديو المتعددة الكاميرات
تتطلب سير عمل تنسيق ProRes RAW عرض نطاق ترددي مستمر للذاكرة يتجاوز 100 جيجابايت/ثانية — وهي معلَّمة رئيسية تتفوق فيها خطوط PCIe 5.0 الخاصة بمعالجات Threadripper Pro على المنافسين.
ميزات وحدة المعالجة المركزية من الفئة المؤسسية التي تضمن الموثوقية والأمان
ذاكرة ECC، والأمان القائم على العتاد (AMD SME / Intel SGX)، والتحقق من صحة البرامج الثابتة
بالنسبة لأجهزة المحطات الطرفية المؤسسية، يحتاج وحدة معالجة البيانات المركزية (CPU) إلى ميزات خاصة لمنع تلف البيانات أو الوقوع ضحية للتهديدات الأمنية. فعلى سبيل المثال، تُستخدم ذاكرة التصحيح التلقائي للأخطاء (ECC) لاكتشاف أخطاء «انقلاب البت» المزعجة أثناء معالجة البيانات. ويكتسب هذا الأمر أهمية بالغة في مجالات مثل النمذجة المالية أو الأبحاث الجينومية، حيث قد يؤدي خطأ حسابي واحد فقط إلى إرباك كامل العملية. وهناك كذلك تدابير أمنية مدمجة في الهاردوير، مثل تشفير الذاكرة من شركة AMD وبيئات التنفيذ الآمن من شركة Intel. وهذه التدابير تُنشئ جدرانًا وقائية على مستوى الهاردوير لصد البرمجيات الخبيثة دون إبطاء الأداء بشكل ملحوظ. كما يلعب البرنامج الثابت (Firmware) دوره أيضًا عبر التحقق من صحة عملية الإقلاع كلما شُغّلت الآلة، مما يمنع أي تدخل غير مصرح به في إعدادات نظام الإدخال الأساسي (BIOS). وعندما تعمل جميع هذه العناصر التقنية معًا، فإنها تشكّل ما يسمّيه البعض «نظام دفاع ثلاثي الجوانب» للمؤسسات التي تحتاج إلى استقرارٍ قويٍّ جدًّا. وتُظهر الاختبارات الواقعية انخفاضًا بنسبة تتراوح بين ٣٥٪ و٤٠٪ في حالات تعطل النظام أثناء تنفيذ مهام تتطلب استخدامًا كثيفًا للذاكرة، كما تساعد هذه الحلول الشركات على الامتثال للوائح التنظيمية في القطاعات الخاضعة لرقابة مشددة.
مقارنة وحدات المعالجة المركزية من AMD وIntel لأجهزة المحطات الطرفية المؤسسية
المفاضلة في عدد النوى: متى تؤدي وحدات المعالجة المركزية ذات العدد العالي من النوى إلى انخفاض الاستجابة في الأحمال التشغيلية التفاعلية
ورغم أن معالجات ذات العدد المرتفع من النوى تُقدِّم أداءً استثنائيًّا من حيث الإنتاجية (Throughput) للمهام المتوازية مثل التصيير أو الحوسبة العلمية، فإنها غالبًا ما تُضعف الاستجابة في الأحمال التشغيلية التفاعلية. فتطبيقات الوقت الحقيقي — مثل تصور البيانات الحيّة، أو التعامل مع برامج التصميم بمساعدة الحاسوب (CAD)، أو نمذجة البيانات المالية — تتطلّب أداءً أحاديَّ الخيط (Single-thread) منخفض زمن الاستجابة (Low-latency) بدلًا من كثافة النوى الخام. وعندما يتجاوز عدد النوى ٢٤–٣٢ نواة، تظهر عدة اختناقات:
- عبء جدولة المهام : تُسبّب إدارة خيوط النظام التشغيلي (OS thread management) تأخيرًا بسبب انتقال المهام بين النوى
- القيود الحرارية : يؤدي التحسين العدواني لسرعة النوى المتعددة (Aggressive multi-core boosting) إلى التنشيط التلقائي للحد من السرعة (Throttling)، مما يقلل سرعة كل نواة على حدة
- تنافس النوى على الذاكرة : يؤدي زيادة عدد النوى التي تتنافس على عرض نطاق الذاكرة العشوائية (RAM bandwidth) إلى ازدياد زمن الوصول (Access latency)
تكشف بيانات المعايرة أن معالجات الـ64 نواة قد تُظهر أوقات استجابة أبطأ بنسبة 15–30% مقارنةً بمعالجات الـ16 نواة في السيناريوهات التفاعلية. أما بالنسبة لأجهزة المحطات الطرفية المؤسسية التي تُعالِج حِملاً عملَ مختلطةً، فإن التكوين المتوازن المكوَّن من 16 إلى 24 نواة يحقِّق عادةً أقصى كفاءةٍ لكلٍّ من المعالجة المتوازية والاستجابة أمام المستخدم—مع تجنُّب العوائد المتناقصة التي تحدث عندما تبقى النوى الإضافية في وضع الخمول بينما تتوقف المهام الحرجة في المقدمة.
جدول المحتويات
-
اختيار وحدة المعالجة المركزية المدفوع بأحمال العمل: التشغيل الافتراضي، والذكاء الاصطناعي، والحوسبة عالية الأداء (HPC)، وقواعد البيانات
- أحمال العمل الخاصة بالتشغيل الافتراضي والخدمات السحابية: عدد النوى، ومسارات PCIe، وقدرة نقل الإدخال/الإخراج (I/O)
- أحمال العمل الخاصة بالذكاء الاصطناعي والحوسبة عالية الأداء: زمن التأخير في الخيط الواحد، عرض النطاق الترددي للذاكرة، وتسريع العمليات الحسابية ذات الدقة المزدوجة (FP64) والعدد الصحيح ذي 8 بت (INT8)
- قواعد البيانات التفاعلية: لماذا تُعَدّ استقرار وحدة التحكم في الأخطاء (ECC)، وحجم الذاكرة المؤقتة، وتأخر الذاكرة أكثر أهميةً من عدد النوى
- أحمال العمل الاحترافية الإبداعية والتقنية: التصيير، وتحرير الفيديو، والمحاكاة
- ميزات وحدة المعالجة المركزية من الفئة المؤسسية التي تضمن الموثوقية والأمان
- مقارنة وحدات المعالجة المركزية من AMD وIntel لأجهزة المحطات الطرفية المؤسسية