Aegaeon من علي بابا كلاود يدّعي خفض عدد وحدات معالجة الرسوميات من إنفيديا (NVIDIA GPUs) اللازمة لخدمة النماذج بنسبة 82%

Aegaeon من علي بابا كلاود يدّعي خفض عدد وحدات معالجة الرسوميات من إنفيديا (NVIDIA GPUs) اللازمة لخدمة النماذج بنسبة 82%

في جملة واحدة

يدّعي نظام Aegaeon من علي بابا كلاود أنه يقلّص بصورة كبيرة عدد وحدات GPU المطلوبة لعمليات الاستدلال عبر مشاركة موارد GPU بين النماذج، لسد فجوات الاستفادة عند خدمة نماذج متعددة وخفض التكاليف التشغيلية.

التفاصيل

تقول علي بابا كلاود إن نظام تجميع وحدات معالجة الرسوميات الجديد لديها، Aegaeon، خفّض عدد بطاقات H20 من إنفيديا اللازمة لخدمة النماذج اللغوية الضخمة (LLMs) بنسبة 82% خلال تجربة تجريبية امتدت لعدة أشهر ضمن سوق النماذج لديها. ووفقاً لورقة عُرضت في الدورة الحادية والثلاثين من ندوة مبادئ أنظمة التشغيل (SOSP) في سيول، فقد خفّض النظام عدد الوحدات من 1,192 إلى 213 أثناء خدمة عشرات النماذج التي يصل حجمها إلى 72 مليار معامل.

تُبرز الدراسة أوجه عدم الكفاءة عند خدمة عدد كبير من نماذج الذكاء الاصطناعي بالتوازي: إذ تهيمن قلة من النماذج الشائعة (مثل Qwen التابعة لعلي بابا وDeepSeek) على الطلب، بينما تُستخدم نماذج عديدة أخرى بشكل متقطع. وأظهرت النتائج أن 17.7% من وحدات معالجة الرسوميات كانت مكرّسة لخدمة 1.35% فقط من الطلبات. يتصدى Aegaeon لذلك عبر تجميع موارد وحدات معالجة الرسوميات (GPU pooling)، بحيث تستطيع وحدة GPU واحدة خدمة عدة نماذج، وهو توجّه جارٍ استكشافه عالمياً لتحسين الاستفادة. وتشير الورقة البحثية، التي شارك في تأليفها كبير مسؤولي التكنولوجيا (CTO) في علي بابا كلاود، تشو جينغرِن، إلى أن هذا النهج يمكن أن يخفض تكاليف الاستدلال بشكل كبير.

النقاط الرئيسية

  • أفاد Aegaeon بأنه خفّض بطاقات إنفيديا H20 من 1,192 إلى 213 (انخفاض 82%) خلال تجربة امتدت لأكثر من ثلاثة أشهر على علي بابا كلاود.
  • يستهدف النظام أوجه عدم الكفاءة الناتجة عن خدمة نماذج عديدة بالتوازي، إذ تستحوذ قلة منها على معظم الطلب.
  • في سوق علي بابا كلاود، خدم 17.7% من وحدات GPU نسبة 1.35% فقط من الطلبات، ما يبرز قصور الاستفادة من الموارد.
  • يعتمد Aegaeon تجميع موارد وحدات معالجة الرسوميات بحيث تخدم وحدة واحدة عدة نماذج، بما ينسجم مع اتجاهات البحث الأوسع.
  • عُرض البحث في مؤتمر SOSP 2024 في سيول، وشارَك في تأليفه كبير مسؤولي التكنولوجيا (CTO) في علي بابا كلاود، تشو جينغرِن.

المصادر: 1

\