«التفكير الماركوفي» (Markovian Thinking) من Mila يوفّر استدلالاً أطول بتكلفة أقل للذكاء الاصطناعي

«التفكير الماركوفي» (Markovian Thinking) من Mila يوفّر استدلالاً أطول بتكلفة أقل للذكاء الاصطناعي

في جملة واحدة

يُحافظ «التفكير الماركوفي» (Markovian Thinking) من Mila على كفاءة استدلال نماذج اللغة الكبيرة عبر تجزئة التفكير إلى نوافذ ثابتة مع ملخّصات مُرحَّلة صغيرة، ما يخفض التكاليف ويتوسّع إلى ما يتجاوز ميزانيات التدريب، ويُمهّد لاستدلال بمليون رمز—دون الحاجة إلى تغيير الموجّه الأصلي (prompt).

التفاصيل

قدّم باحثو Mila تقنية تُسمّى «التفكير الماركوفي» (Markovian Thinking) تُمكّن نماذج اللغة الكبيرة (LLMs) من الاستدلال لفترات أطول بكثير دون التكاليف المتصاعدة التي ترافق عادةً سلسلة التفكير المطوّلة (Chain-of-Thought). تُطبَّق المنهجية داخل بيئة تُدعى Delethink، حيث تُقسَّم عملية الاستدلال إلى كتل ثابتة الحجم (مثلاً 8,000 رمز (tokens)) مع تمرير ملخّص قصير بين الكتل. ومن خلال إبقاء نافذة السياق (context window) النشطة ثابتة، تحوّل هذه الطريقة نمو الحوسبة التربيعي (quadratic compute) الملاحظ في التدريب القياسي على سلسلة التفكير الطويلة (LongCoT) إلى حوسبة خطية (linear compute) بذاكرة ثابتة—وذلك من دون تغيير الموجّه الأصلي (prompt).

في الاختبارات، تمكّن نموذج يضمّ 1.5 مليار مُعامِل (1.5B-parameter) دُرِّب باستخدام Delethink على التفكير حتى 24,000 رمز (tokens) من مجاراة LongCoT أو التفوّق عليه في مسائل الرياضيات والبرمجة وأسئلة بمستوى الدكتوراه، بل وحلّ بعض مسائل الرياضيات بعد استدلال امتدّ إلى 140,000 رمز—أي بما يتجاوز كثيراً ميزانية تدريبه. يقدّر الفريق وفورات كبيرة في التكلفة: فالتدريب للوصول إلى متوسّط طول تفكير قدره 96,000 رمز قد يستغرق نحو 7 «أشهر GPU» من فئة H100 (H100-GPU-months) مع Delethink مقابل 27 مع LongCoT. وتمتدّ الكفاءة ذاتها إلى طور الاستدلال (inference)، كما يمكن للنماذج الجاهزة (off-the-shelf) الاستفادة مباشرةً عبر مغلّف Delethink البرمجي (wrapper). وتشير النتائج الأولية مع نماذج أكبر مثل GPT-OSS 120B إلى قابلية المنهجية للتوسّع، ما يفتح الطريق نحو استدلال بمليون رمز (million-token) وقدرات الجيل التالي.

النقاط الرئيسية

  • يقسّم Delethink الاستدلال إلى كتل ثابتة الحجم ويمرّر ملخّصاً مُرحَّلاً بين الكتل، مع إبقاء نافذة السياق (context window) ثابتة.
  • هذا الإعداد يحوّل نمو الحوسبة التربيعي (quadratic compute) إلى حوسبة خطية (linear compute) بذاكرة ثابتة، ما يتيح استدلالاً أطول بكثير بتكلفة أقل.
  • نموذج يضمّ 1.5B مُعامِلاً، دُرِّب حتى 24,000 رمز (tokens)، تمكّن من مجاراة LongCoT أو التفوّق عليه عبر عدة معايير قياس (benchmarks) وحلّ بعض المهام بعد 140,000 رمز.
  • مثال على تكلفة التدريب: نحو 7 أشهر GPU من فئة H100 (H100-GPU-months) للوصول إلى متوسّط طول تفكير 96 ألف رمز مع Delethink، مقابل نحو 27 شهراً مع LongCoT.
  • تمتد الفوائد إلى مرحلة الاستدلال (inference) وتعمل مع النماذج القائمة عبر مغلّف برمجي (wrapper)، مع دلائل مبكرة على التوسّع إلى نماذج أكبر مثل GPT-OSS 120B.

المصادر: 1

\