
في جملة واحدة
برز ERNIE 5.0 من بايدو كنموذج متعدد الوسائط أصيل (Multimodality) موجَّه بقوة للاستخدامات المؤسسية، مع تسعير تنافسي وادعاءات تفوّق في معايير فهم المستندات والمخططات. تقرن الشركة واجهة برمجة تطبيقات قوية بخيار مفتوح المصدر بينما تسرّع توسّعها العالمي، بانتظار اختبارات مستقلة ومعالجة الأعطال المبلّغ عنها.
التفاصيل
بعد ساعات فقط من إطلاق OpenAI نموذج GPT-5.1، أعلنت بايدو عن ERNIE 5.0، وهو نموذج أساسي (Foundation Model) مملوك لبايدو يتمتع بتعدد وسائط أصيل (Multimodality)، قادر على معالجة النصوص والصور والصوت والفيديو ضمن منظومة واحدة. يتاح عبر ERNIE Bot ومن خلال واجهة برمجة التطبيقات (API) لمنصة Qianfan، ويُعد ERNIE 5.0 (وإصدار Preview 1022 الموجّه للمهام النصية) منتج بايدو الرائد للاستخدامات المؤسسية. أظهرت معايير القياس (Benchmarks) الداخلية لبايدو أن ERNIE 5.0 Preview تفوّق أو عادل نموذج GPT-5-High من OpenAI وGemini 2.5 Pro من Google في الاستدلال متعدد الوسائط، وفهم المستندات، والإجابة عن الأسئلة على المخططات/الصور (QA)، محققًا نتائج متقدمة على OCRBench وDocVQA وChartQA، مع أداء تنافسي في توليد الصور وفهم الصوت. وتبقى هذه النتائج صادرة عن بايدو وتنتظر تحقّقًا مستقلاً.
حددت بايدو تسعيرًا ضمن الشريحة المتوسطة-المرتفعة مقارنة بالمنافسين في الولايات المتحدة، بسعر 0.85 دولار لكل مليون رمز إدخال و3.40 دولار لكل مليون رمز إخراج عبر Qianfan، وهو أعلى من ERNIE 4.5 Turbo، لكنه أدنى من كثير من النماذج الغربية الرائدة. يأتي الإطلاق ضمن توسّع عالمي أشمل يشمل منتجات الوكلاء الذكيين (Agents) مثل GenFlow 3.0 وFamou، ومنشئًا بدون كود (No-code) باسم MeDo، ومساحة عمل (Workspace) Oreate، إلى جانب تطوير منصة الإنسان الرقمي وتوسيع شبكة مركبات الأجرة الذاتية القيادة (Robotaxi) Apollo Go. كما أصدرت بايدو نموذج رؤية-لغة (Vision-Language Model) مفتوح المصدر بأسلوب مزيج الخبراء (Mixture-of-Experts, MoE) يحمل الاسم ERNIE-4.5-VL-28B-A3B-Thinking بموجب ترخيص Apache 2.0 للاستخدام التجاري. وأشارت ملاحظات مبكرة من مطوّرين إلى خلل في استدعاء الأدوات (Tool Calling) أثناء مهام SVG؛ وقد أقرت بايدو بالمشكلة وقالت إن إصلاحًا قيد الإنجاز.
النقاط الرئيسية
- ERNIE 5.0 نموذج مملوك متعدد الوسائط أصيل (Multimodality) متاح عبر ERNIE Bot ومنصة Qianfan؛ إصدار Preview 1022 موجّه للمهام كثيفة النص.
- تدّعي بايدو أن ERNIE 5.0 يضاهي أو يتفوّق على GPT-5-High وGemini 2.5 Pro في فهم المستندات والمخططات، محققًا نتائج متقدمة على OCRBench وDocVQA وChartQA، مع أداء تنافسي في الصور والصوت؛ ولا يزال التحقق من طرف ثالث معلّقًا.
- التسعير يبلغ 0.85 دولار لكل مليون رمز إدخال و3.40 دولار لكل مليون رمز إخراج، وهو أعلى من ERNIE 4.5 Turbo لكنه عمومًا أدنى من العديد من النماذج الأميركية الرائدة.
- يشمل التوسّع العالمي منتجات مثل GenFlow 3.0 وFamou وMeDo (منشئ بدون كود) وOreate؛ إلى جانب توسيع منصة الإنسان الرقمي وشبكة سيارات الأجرة الذاتية القيادة (Robotaxi) Apollo Go التابعة لبايدو.
- الإصدار المفتوح المصدر ERNIE-4.5-VL-28B-A3B-Thinking (Apache 2.0) يوفّر استدلالًا فعالًا بأسلوب مزيج الخبراء (MoE)؛ وتعمل بايدو على معالجة خلل مبكّر في استدعاء الأدوات (Tool Calling) أبلغه مطوّرون.
المصادر: 1