
في جملة واحدة
يستبدل Brumby-14B-Base من Manifest AI آلية الانتباه في المحوِّلات بهندسة «استبقاء القدرة (Power Retention)»، مقدّماً أداءً قريباً من المحوِّلات مع زمن حوسبة شبه ثابت لكل رمز وتكلفة منخفضة لإعادة التدريب. تشير هذه المقاربة إلى ذكاء اصطناعي أكفأ في التعامل مع السياقات الطويلة (long-context)، فيما لا تزال الأدوات الأوسع وعمليات التحقق قيد التطوير.
التفاصيل
أعلنت Manifest AI عن Brumby-14B-Base، وهي نسخة أُعيد تدريبها من Qwen3-14B-Base تستبدل آلية الانتباه بالكامل بآلية جديدة تُدعى «استبقاء القدرة (Power Retention)». وبدلاً من مقارنة كل رمز (token) بكل رمز آخر — وهي العملية المكلفة التي تشكّل جوهر نماذج المحوِّلات (transformers) — تقوم آلية استبقاء القدرة بتحديث حالة عودية داخلية أثناء القراءة، محافظةً على تكلفة حوسبة شبه ثابتة لكل رمز بغضّ النظر عن طول الإدخال. وبعد إعادة تدريب استغرقت نحو 60 ساعة على 32 معالجاً رسومياً من نوع H100 وبتكلفة تقارب 4,000 دولار عبر تكييف أوزان Qwen3 القائمة، يحقق Brumby تكافؤاً تقريبياً مع نماذج المحوِّلات المماثلة في الحجم، بينما يلمع في الرياضيات والاستدلال ضمن سياقات طويلة (long-context).
تشير النتائج الأولية إلى كفاءة عتادية عالية وتسارعات واعدة على المدخلات فائقة الطول؛ إذ تفيد Manifest بتحقيق معدل استغلال أعلى من FlashAttention2 وMamba ضمن أنوية (kernels) لا تزال في مرحلة ألفا. وبينما يتراجع النموذج في بعض الاختبارات الثقيلة معرفياً (مثل MMLU-Pro)، فإنه يضاهي أو يتفوّق على نظرائه في الرياضيات والاستدلال. ويذكر الفريق أن تحويل نقاط تحقق المحوِّلات الحالية (transformer checkpoints) مباشر نسبياً — استبدال طبقات الاستبقاء (retention layers)، ثم إعادة تدريب لبضعة آلاف خطوة، واستعادة الأداء — على أن التكامل الأوسع مع محركات الاستدلال الشائعة (inference engines) ما زال قيد العمل. كما أثار الإطلاق نقاشاً حول ادعاء «تدريب بقيمة 4,000 دولار»، وهو في الواقع يعكس إعادة تدريب فعّالة لا تدريباً من الصفر.
النقاط الرئيسية
- Brumby-14B-Base يستبدل الانتباه (attention) بطبقات استبقاء قدرة عودية (Power Retention) ليُبقي تكلفة كل رمز شبه ثابتة مع ازدياد طول السياق.
- إعادة التدريب انطلاقاً من Qwen3-14B-Base استغرقت نحو 3,000 خطوة وكلفت قرابة 4,000 دولار، محققةً تكافؤاً تقريبياً على معايير التقييم الأساسية (benchmarks).
- تظهر نقاط القوة في الرياضيات والاستدلال ضمن سياقات طويلة (long-context)، بينما تبقى المهام الثقيلة معرفياً مثل MMLU-Pro نقطة ضعف نسبية.
- تفيد Manifest بتحقيق استغلالية عتادية مرتفعة وإمكانات تسارع كبيرة على المدخلات الطويلة، رغم أن اختبارات الضغط على مستوى الإنتاج لا تزال قيد الانتظار.
- صُمّم مسار التحويل من المحوِّلات (transformers) ليكون بسيطاً، لكن التكامل الكامل مع محركات الاستدلال الشائعة (inference engines) لا يزال جارياً.
المصادر: 1