AgentEvolver من علي بابا يعزّز قدرة وكلاء الذكاء الاصطناعي على استخدام الأدوات بنحو 30% عبر مهام تدريبية مولَّدة ذاتيًا

AgentEvolver من علي بابا يعزّز قدرة وكلاء الذكاء الاصطناعي على استخدام الأدوات بنحو 30% عبر مهام تدريبية مولَّدة ذاتيًا

في جملة واحدة

يعتمد AgentEvolver من علي بابا على توليد مهام تدريبية ذاتيًا عبر استكشاف البيئة لتعليم وكلاء الذكاء الاصطناعي، محققًا تحسنًا في استخدام الأدوات بنحو 30% مقارنةً بخط الأساس الشائع في التعلّم التعزيزي (RL). يقلّل التصميم المتطوّر ذاتيًا الحاجة إلى بيانات يدوية، ويجعل بناء وكلاء مؤسسيين مخصّصين أكثر سهولة وجدوى.

التفاصيل

أعلن باحثو مختبر تونغيي التابع لعلي بابا عن AgentEvolver، وهو إطار عمل للوكلاء يتطوّر ذاتيًا يدرّب نماذج الذكاء الاصطناعي عبر السماح لها باستكشاف بيئات برمجية وتوليد مهامها التدريبية الخاصة. وبالانتقال من الاعتماد على إنشاء مجموعات بيانات يدويّة ومكلفة، ومن التعلّم التعزيزي (Reinforcement Learning, RL) كثيف التجارب، إلى حلقة تدريب ذاتي موجَّهة بنموذج لغوي كبير (LLM)، يقلّل AgentEvolver الجهد والكلفة اللازمة لبناء وكلاء مخصّصين لتدفّقات العمل المؤسسية.

يتعلّم النظام عبر ثلاث آليات أساسية: التساؤل الذاتي (self-questioning) — لاستكشاف مستقل وتوليد مهام متنوعة؛ والتنقّل الذاتي (self-navigating) — لإعادة استخدام الرؤى المستخلصة من النجاحات والإخفاقات السابقة؛ والإسناد الذاتي (self-attributing) — لتقديم تغذية راجعة دقيقة على مستوى كل خطوة، وليس على النتيجة النهائية فقط. ويساعد مدير السياق (Context Manager) الوكيل على إدارة الذاكرة والتعامل مع سجلات تفاعل طويلة مع مجموعات أدوات وواجهات برمجة تطبيقات واسعة. وفي اختبارات على AppWorld وBFCL v3 باستخدام نماذج Qwen2.5 (7B و14B)، تفوّق AgentEvolver على خط الأساس GRPO مع متوسط مكاسب في الدرجات بلغ 29.4% و27.8% على التوالي، وكان للتساؤل الذاتي الأثر الأكبر في هذه الزيادة. يوفّر هذا النهج توليدًا فعّالًا لبيانات تدريب عالية الجودة، ما يجعل المساعدين الذكيين القادرين على استخدام الأدوات أكثر عملية للمؤسسات.

النقاط الرئيسية

  • يمكّن AgentEvolver وكلاء الذكاء الاصطناعي من توليد مهامهم التدريبية بأنفسهم عبر استكشاف التطبيقات المستهدفة، ما يخفّض الكلفة والوقت اللازمين لإنشاء البيانات.
  • ثلاث آليات أساسية — التساؤل الذاتي (self-questioning)، والتنقّل الذاتي (self-navigating)، والإسناد الذاتي (self-attributing) — تحسّن الاستكشاف، وتعيد استخدام الخبرات، وتوفّر تغذية راجعة دقيقة على مستوى الخطوات.
  • على AppWorld وBFCL v3، حقّقت نماذج Qwen2.5 المدرَّبة بواسطة AgentEvolver درجات أعلى بنحو 28–29% مقارنةً بخط الأساس GRPO في التعلّم التعزيزي (RL).
  • يدعم مدير السياق في الإطار سجلات تفاعل طويلة ومجموعات كبيرة من واجهات برمجة التطبيقات (APIs) والأدوات، وهو متطلب شائع في البيئات المؤسسية.
  • يتوفر AgentEvolver كمشروع مفتوح المصدر (open-source)، موفّرًا مسارًا قابلًا لإعادة الاستخدام لبناء مساعدين ذكاء اصطناعي متكيّفين يستخدمون الأدوات.

المصادر: 1

\