شارك مهندسو DeepSeek-R1، وهو نموذج ذكاء اصطناعي مفتوح المصدر انتشر على نطاق واسع من شركة DeepSeek الناشئة مقرّها هانغتشو، تفاصيل تدريب النظام على معالجة مهام الاستدلال المعقّدة. في ورقة بحثية محكّمة نُشرت الأربعاء في مجلة Nature، يوضح الفريق أنه اعتمد نهج التدريب القائم على المكافآت لتوجيه النموذج نحو حل المشكلات على نحو أفضل، بما يمكّنه من الاستدلال بصورة أقرب إلى البشر مع الحدّ من بعض التكاليف الحوسبية الباهظة المصاحبة عادةً للتدريب واسع النطاق لنماذج الذكاء الاصطناعي.
لفت DeepSeek-R1 الأنظار عالميًا عند إطلاقه في يناير، بعدما نافس نموذج o1 من OpenAI. ويؤكد الباحثون أن الاستدلال العام—أي توظيف المعارف القائمة والمعلومات الجديدة للوصول إلى استنتاجات سليمة—يمثل تحديًا جوهريًا في الذكاء الاصطناعي (AI). ويُعدّ إتقان هذا الجانب حاسمًا لمهام مثل حل المسائل الرياضية وغيرها من الأعمال الإدراكية المعقّدة، ما يجعل منهجية التدريب خطوة مهمة نحو ذكاء اصطناعي أكثر قدرة وأقرب إلى السلوك البشري.
النقاط الرئيسية
- نشر مبتكرو DeepSeek-R1 التفاصيل التقنية في Nature، مع التركيز على أثر آليات المكافأة في تحسين استدلال النموذج.
- يهدف هذا النهج إلى تجاوز بعض عقبات الحوسبة المكلفة وقضايا التوسّع الشائعة في تدريب أنظمة الذكاء الاصطناعي المتقدمة.
- R1 مفتوح المصدر وأصبح منافسًا بارزًا لنموذج o1 من OpenAI منذ إطلاقه في يناير.
- التقدّم في الاستدلال العام أساسي للرياضيات وسائر المهام الإدراكية المعقّدة في الذكاء الاصطناعي (AI).
في جملة واحدة
كشف فريق DeepSeek أن نهج التدريب القائم على المكافآت ساعد نموذجهم المفتوح المصدر R1 على تحسين الاستدلال مع تقليل الحاجة إلى موارد حوسبة ضخمة. تسلّط الورقة المنشورة في Nature الضوء على تقدم نحو ذكاء اصطناعي (AI) أقرب إلى البشر وأكثر قدرة على حل مسائل معقّدة.
المصادر: 1