MCP‑Universe من Salesforce يبيّن أن GPT‑5 ونظراءه يواجهون صعوبات في تنسيق العمليات في العالم الواقعي

MCP‑Universe من Salesforce يبيّن أن GPT‑5 ونظراءه يواجهون صعوبات في تنسيق العمليات في العالم الواقعي

أطلقت Salesforce AI Research MCP‑Universe، وهو معيار مفتوح المصدر يقيس أداء النماذج اللغوية الكبيرة (LLMs) في مهام عملية عبر بروتوكول سياق النموذج (MCP). وعلى خلاف الاختبارات التقليدية التي تعزل مهارات كالحساب أو استدعاء الدوال، يقيس MCP‑Universe الاستخدام متعدد الدورات للأدوات، والاستدلال في سياقات طويلة، والتفاعل مع خوادم MCP فعلية ضمن ستة مجالات مؤسسية: التنقّل في المواقع، إدارة المستودعات، التحليل المالي، التصميم ثلاثي الأبعاد، أتمتة المتصفح، وبحث الويب. وفي نتائج أولية شملت 231 مهمة باستخدام 11 خادماً لـ MCP، أظهرت النماذج المتصدّرة—ومنها GPT‑5 من OpenAI—تفوقاً في مجالات بعينها؛ إذ تصدّر GPT‑5 التحليل المالي، وتفوّق Grok‑4 في أتمتة المتصفح، ومع ذلك فشلت هذه النماذج في إكمال أكثر من نصف المهام ذات الطابع المؤسسي إجمالاً.

قيّمت Salesforce النماذج بأسلوب تقييم قائم على التنفيذ بدلاً من نهج "النموذج كحَكَم"، للتكيّف مع البيانات الآنية والحالات المتغيّرة (مثل الأسعار وقضايا GitHub). ويشير الفريق إلى أن السياقات الطويلة والأدوات غير المألوفة ما تزال تمثّل نقاط ضعف رئيسية، ما يفضي إلى تراجعات حادة في الدقة والموثوقية. ويكمل MCP‑Universe معايير MCP الأخرى مثل MCP‑Radar وMCPWorld، ويطوّر تقييمات Salesforce السابقة MCPEvals (التي اعتمدت مهاماً تركيبية) إلى تقييمات واقعية مستندة إلى العالم الحقيقي. وتشجّع Salesforce المؤسسات على استخدام MCP‑Universe لتحديد أنماط الإخفاق واعتماد نهج منصّة يجمع بين سياق البيانات واستدلال أقوى وضوابط ثقة.

النقاط الرئيسية

  • MCP‑Universe يختبر الاستخدام الواقعي للأدوات عبر MCP ضمن ستة مجالات مؤسسية و231 مهمة.
  • حتى النماذج المتقدمة—بما فيها GPT‑5—عجزت عن إكمال أكثر من نصف المهام إجمالاً.
  • تتباين نقاط القوة بحسب النموذج: تصدّر GPT‑5 التحليل المالي، وتفوّق Grok‑4 في أتمتة المتصفح، كما جاء Claude‑4 Sonnet ضمن الثلاثة الأوائل.
  • أبرز نقاط الألم هي الاستدلال في سياقات طويلة والتكيّف مع أدوات غير مألوفة، ما يسبب تراجعاً كبيراً في الأداء.

في جملة واحدة

يكشف معيار MCP‑Universe من Salesforce أن النماذج اللغوية الرائدة، بما فيها GPT‑5، تتعثر في تنسيق العمليات في العالم الواقعي عبر بروتوكول MCP، إذ تفشل في إكمال غالبية المهام ذات الطابع المؤسسي. تشكّل السياقات الطويلة والأدوات غير المألوفة العائقين الرئيسيين، ما يبرز الحاجة إلى حلول على مستوى المنصّة تجمع بين سياق البيانات واستدلال أقوى وضوابط ثقة.

المصادر: 1

\