OpenCUA: إطار عمل مفتوح المصدر لوكلاء استخدام الحاسوب يتحدى الحلول المملوكة الرائدة (Proprietary)

أطلق باحثون من جامعة هونغ كونغ وشركاؤهم OpenCUA، وهو إطار عمل مفتوح المصدر لبناء وكلاء استخدام الحاسوب (Computer-Use Agents) القادرين على تشغيل البرمجيات والمواقع كما يفعل البشر. ومن خلال الجمع بين الأدوات والبيانات وبروتوكولات التدريب، يمكّن OpenCUA الباحثين من جمع عروض توضيحية واقعية على نطاق واسع، ويُنتج وكلاء يتفوقون على الأنظمة مفتوحة المصدر الحالية، مع منافسة قوية للحلول المملوكة من OpenAI وAnthropic.

في صلب الإطار تأتي أداة AgentNet، التي تسجّل نشاط الشاشة والمدخلات وأشجار إمكانية الوصول (Accessibility Trees) لتوليد مسارات حالة–إجراء عالية الجودة. وبالاعتماد عليها، أنشأ الفريق مجموعة بيانات AgentNet التي تضم أكثر من 22,600 عرض توضيحي عبر Windows وmacOS وUbuntu، وقدم AgentNetBench لتقييم غير متصل فعّال. ويتمثل الابتكار المحوري في تعزيز العروض التوضيحية بتضمين سلسلة التفكير (Chain-of-Thought) — التخطيط والذاكرة والانعكاس — بما يرفع قدرة التعميم على نحو ملحوظ. وبعد تدريب نماذج من عائلات وأحجام متعددة من نماذج الرؤية–اللغة (VLMs) تتراوح بين 3B و32B، حقق OpenCUA-32B أفضل مستوى مفتوح المصدر (SOTA) على OSWorld-Verified، متجاوزًا وكيل استخدام الحاسوب (CUA) المبني على GPT-4o ومقاربًا أداء Anthropic. يتميز الإطار بضمانات خصوصية متعددة الطبقات، وهو ملائم لأتمتة سير عمل مؤسسي قابل للتكرار، رغم أن السلامة والموثوقية ما تزالان عائقين أمام النشر المباشر. الكود ومجموعات البيانات وأوزان النماذج متاحة للعامة.

النقاط الرئيسية

يوفر OpenCUA حزمة شاملة متكاملة طرفًا لطرف (End-to-End) مفتوحة المصدر — أدوات وبيانات ومعايير مرجعية (Benchmarks) — لتدريب وكلاء استخدام الحاسوب، بما في ذلك مجموعة بيانات AgentNet التي تضم أكثر من 22.6 ألف عرض توضيحي عبر أنظمة التشغيل الرئيسية.
يعزّز خط الأنابيب بسلسلة التفكير (Chain-of-Thought) العروض التوضيحية باستدلال منظّم — التخطيط والذاكرة والانعكاس — ما يحسّن متانة الوكيل وقدرته على التعميم بشكل كبير.
يحقق OpenCUA-32B أفضل مستوى مفتوح المصدر (SOTA) على OSWorld-Verified، متفوقًا على وكيل استخدام الحاسوب (CUA) المبني على GPT-4o، ومقلّصًا الفجوة مع نماذج Anthropic الرائدة.
المنهجية محايدة للنموذج (Model-Agnostic)، إذ تحسّن أداء كلٍ من النماذج الكثيفة ونماذج مزيج الخبراء (MoE) من فئة الرؤية–اللغة (VLMs) بمختلف الأحجام، وتُظهر أداءً قويًا عبر التطبيقات وأنظمة التشغيل.
صُمّم الإطار بضمانات خصوصية متعددة الطبقات ومع مراعاة الاستخدام المؤسسي العملي، ويستهدف سير عمل قابلًا للتكرار، لكنه ما يزال يواجه تحديات في السلامة والموثوقية قبل النشر على نطاق واسع.

في جملة واحدة

يوفر OpenCUA مسارًا مفتوح المصدر وقابلًا للتوسع ويراعي الخصوصية لبناء وكلاء استخدام الحاسوب ذوي أداء عالٍ ينافسون الأنظمة المملوكة. ويقدّم خط تدريب معزز بسلسلة التفكير (Chain-of-Thought) نتائج رائدة مفتوحة المصدر وفوائد عملية لأتمتة المؤسسات.

المصادر: 1