بايدو تطرح نموذج ERNIE متعدد الوسائط فعّالاً ومفتوح المصدر، وتدّعي تفوّقه على Gemini 2.5 Pro وGPT-5-High في مهام الرؤية

بايدو تطرح نموذج ERNIE متعدد الوسائط فعّالاً ومفتوح المصدر، وتدّعي تفوّقه على Gemini 2.5 Pro وGPT-5-High في مهام الرؤية

في جملة واحدة

يُعد ERNIE-4.5-VL-28B-A3B-Thinking من بايدو نموذجاً متعدد الوسائط مفتوح المصدر يركّز على الاستدلال البصري، مع ميزة لتحليل الصور ديناميكياً وتكاملات ملائمة للمؤسسات. وتدّعي الشركة تحقيق تفوّق في اختبارات معيارية على نماذج رائدة، لكن التحقق المستقل لم يتأكد بعد.

التفاصيل

أطلقت بايدو ERNIE-4.5-VL-28B-A3B-Thinking، وهو نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر على منصة Hugging Face بموجب ترخيص Apache 2.0. يستند النموذج إلى بنية مزيج الخبراء (Mixture of Experts - MoE) بإجمالي 28 مليار معامل، مع تفعيل نحو 3 مليارات معامل فقط لكل مهمة. ويستهدف فهم المستندات، وتحليل الرسوم البيانية، والاستدلال البصري، مع إمكانية تشغيله على وحدة معالجة رسومات واحدة بسعة 80 غيغابايت. وتبرز فيه ميزة «التفكير بالصور» التي تُمكّن النظام من التكبير والتصغير ديناميكياً لفحص التفاصيل الدقيقة، إلى جانب تعزيز التموضع البصري، وفهم الفيديو، واستخدام الأدوات.

تقول بايدو إن النموذج يتفوّق على Gemini 2.5 Pro من غوغل وGPT-5-High من OpenAI في عدة اختبارات معيارية خاصة بالرؤية، لكن التحقق المستقل لا يزال قيد الانتظار. وللاستخدام المؤسسي، يتضمن الإصدار دعماً لـ Transformers وvLLM وFastDeploy من بايدو، بهدف تسهيل التكامل في حالات استخدام تشمل معالجة المستندات، ومراقبة الجودة في التصنيع، ودعم العملاء. ومن أبرز المقايضات الحاجة إلى وحدة معالجة رسومات بسعة 80 غيغابايت، ونافذة سياق بحجم 128 ألف رمز، وتعقيد إضافي في توجيه MoE وآليات التكبير الديناميكي للصور. وقد تفاعل مجتمع المطورين باهتمام، مع طلبات لدعم صيغ مثل GGUF وMNN، مع توقع الكشف عن تفاصيل إضافية في فعالية Baidu World 2025.

النقاط الرئيسية

  • مفتوح المصدر بموجب ترخيص Apache 2.0، ما يتيح الاستخدام التجاري مع الالتزام بشروط الترخيص.
  • بنية مزيج الخبراء (MoE) تُفعّل نحو 3 مليارات من أصل 28 مليار معامل، ويمكن تشغيله على وحدة معالجة رسومات واحدة بسعة 80 غيغابايت.
  • ميزة "التفكير بالصور" تضيف تكبيراً وتصغيراً ديناميكياً وتموضعاً بصرياً أقوى للمهام الدقيقة.
  • بايدو تفيد بتفوّقه على Gemini 2.5 Pro وGPT-5-High في معايير رؤية محددة؛ والاختبارات المستقلة لا تزال قيد الانتظار.
  • دعم أدوات مثل Transformers وvLLM وFastDeploy يستهدف سيناريوهات النشر المؤسسي، مع محاذير تتعلق باحتياجات وحدات المعالجة الرسومية وتعقيد التكامل.

المصادر: 1

\