المعيار الجديد GDPval من OpenAI يشير إلى اقتراب GPT‑5 من مستوى أداء الخبراء

المعيار الجديد GDPval من OpenAI يشير إلى اقتراب GPT‑5 من مستوى أداء الخبراء — مع تحفّظات كبيرة

في جملة واحدة

يوحي المعيار GDPval من OpenAI بأن GPT‑5 يقترب من مستوى أداء الخبراء في بعض المهام على نمط التقارير، رغم أن الاختبار محدود وفي مراحله المبكرة. تخطط الشركة لإجراء تقييمات أوسع بينما تطرح الذكاء الاصطناعي كمساعد عملي عبر الصناعات.

قدّمت OpenAI معياراً باسم GDPval صُمِّم لقياس مدى اقتراب أنظمة الذكاء الاصطناعي من جودة أداء المهنيين البشريين. في إصداره الأول (GDPval‑v0)، طلبت الشركة من خبراء متخصصين في تسع صناعات كبرى بالولايات المتحدة مقارنة تقارير أنشأها الذكاء الاصطناعي بتقارير كتبها مهنيون بشريون ضمن 44 مهنة مختلفة. ووفقاً لـ OpenAI، قُيِّم نموذجها GPT‑5‑high على أنه يتفوّق على خبراء الصناعة أو يعادلهم في 40.6% من الحالات، في حين بلغ Claude Opus 4.1 من Anthropic نسبة 49%. وتلمّح OpenAI إلى أن تفوّق Claude قد يكون متأثراً بعناصر عرض بصري أكثر صقلاً، أكثر منه نتيجة لتحليل أقوى محضاً. وللمقارنة، سجّل GPT‑4o من OpenAI نسبة 13.7% في تقييمات مشابهة قبل نحو 15 شهراً.

وتؤكد OpenAI أن GDPval يغطي حالياً جزءاً محدوداً من العمل الفعلي — أساساً تقارير ذات طابع بحثي — ولا يعكس مجموعة المهام الكاملة التي ينجزها المهنيون. وتخطط الشركة لتوسيع المعيار ليشمل مزيداً من الصناعات ومسارات عمل تفاعلية. ومع ذلك، يرى فريق OpenAI أن النتائج تشير إلى أن العاملين في أدوار عديدة باتوا قادرين بشكل متزايد على استخدام الذكاء الاصطناعي للتخلّص من المهام الروتينية والتركيز على أعمال أعلى قيمة، وأن معايير عملية وواقعية مثل GDPval ستزداد أهمية مع اقتراب الاختبارات الأكاديمية التقليدية من حالة التشبّع.

النقاط الرئيسية

يقارن GDPval‑v0 بين تقارير أنشأها الذكاء الاصطناعي وأخرى كتبها بشر ضمن تسع صناعات و44 مهنة، مع قيام الخبراء باختيار المخرجات الأفضل.
قُيِّم GPT‑5‑high على أنه أفضل من الخبراء أو مكافئ لهم في 40.6% من الحالات؛ وبلغ Claude Opus 4.1 نسبة 49%، وهو ما تُرجِعه OpenAI جزئياً إلى جاذبية العناصر البصرية.
سجّل GPT‑4o نسبة 13.7% قبل نحو 15 شهراً، ما يبرز وتيرة تحسّن سريعة في نماذج OpenAI.
يقتصر المعيار على مهام على نمط التقارير ولا يعكس مسارات العمل الكاملة للأدوار الوظيفية؛ وتُخطَّط اختبارات أوسع وأكثر تفاعلية.
تطرح OpenAI معيار GDPval كقياس أكثر واقعية مع اقتراب بعض معايير الذكاء الاصطناعي التقليدية من حالة التشبّع.

المصادر: 1