
في جملة واحدة
يحوّل تقرير LFM2 من Liquid AI تدريب النماذج الصغيرة إلى وصفة عملية قابلة لإعادة الإنتاج ومصممة للأجهزة الفعلية. ويشير إلى أن الذكاء الاصطناعي على الجهاز (on-device) أصبح خيارًا تصميميًا لا تنازلًا ضمن المكدس المؤسسي.
التفاصيل
أصدرت Liquid AI تقريرًا تقنيًا مفصلًا يقع في 51 صفحة لعائلة نماذجها LFM2، يقدّم وصفة قابلة لإعادة الإنتاج لتدريب نماذج صغيرة وفعّالة تعمل جيدًا على الأجهزة الفعلية. بدلًا من الاكتفاء بنشر الأوزان المفتوحة (open weights)، يقدّم التقرير دليلًا كاملًا—يشمل بحثًا معماريًا مع العتاد في الحلقة (hardware-in-the-loop)، ومزيج بيانات التدريب، وهدف تقطير مستقر (distillation)، واستراتيجية منهج (curriculum)، وخط أنابيب لما بعد التدريب (post-training pipeline)—لتمكين المؤسسات من بناء نماذج على الجهاز (on-device) مضبوطة على قيود النشر المحددة.
صُمّمت LFM2 لتراعي قيودًا تشغيلية مثل زمن الاستجابة (latency)، والذاكرة، والحرارة، وتتّبع بنية هجينة بسيطة يغلب عليها التفافات قصيرة ذات بوابات (gated short convolutions) مع عدد محدود من طبقات الانتباه ذات الاستعلامات المجمّعة (grouped-query attention, GQA)، ما يحقق جودة قوية ونحو ضعف إنتاجية المعالج (CPU throughput) مقارنةً بالأقران من الحجم نفسه. تشمل وصفة التدريب مرحلة ما قبل التدريب على 10–12 تريليون رمز (tokens)، ومرحلة وسطية بسياق 32 ألف (32K)، وتقطيرًا منفصلًا بأسلوب Top-K (decoupled Top-K distillation)، وعملية ما بعد تدريب من ثلاث مراحل لضمان اتباع التعليمات واستخدام الأدوات بموثوقية. ومع إصدارات متعددة الوسائط (multimodal) كفؤة رمزيًا مثل VL وAudio، ومسترجِع ColBERT مدمج، يشير هذا النهج إلى مستقبل هجين: نماذج صغيرة تعمل كطبقة تحكم على الجهاز من أجل الخصوصية والتكلفة وزمن الاستجابة، مع إسناد الاستدلال الثقيل إلى نماذج سحابية أكبر.
النقاط الرئيسية
- تقرير LFM2 من Liquid AI هو مخطط كامل—يغطي البحث المعماري، ومزيج البيانات التدريبية، والتقطير (distillation)، والمنهج (curriculum)، وما بعد التدريب (post-training)—يهدف إلى تدريب نماذج صغيرة قابلة لإعادة الإنتاج.
- يُفضي البحث مع العتاد في الحلقة (hardware-in-the-loop) إلى تصميم بسيط وسريع (التفافات قصيرة ذات بوابات + GQA محدود [grouped-query attention]) ضمن نطاق 350 مليون–2.6 مليار معامل (parameters)، مع مضاعفة إنتاجية المعالج (CPU throughput) في الغالب مقارنة بنماذج مفتوحة مماثلة.
- تشمل الوصفة مرحلة ما قبل التدريب على 10–12 تريليون رمز (tokens)، ومرحلة تدريب وسطية بسياق 32 ألف (32K)، وتقطيرًا معرفيًا بأسلوب Top-K منفصل (decoupled knowledge distillation, Top-K)، وخط أنابيب لما بعد التدريب من ثلاث مراحل لضمان اتباع التعليمات واستخدام الأدوات بموثوقية.
- إصدارات متعددة الوسائط والاسترجاع (multimodal & retrieval) مثل LFM2-VL مع SigLIP2 الكفؤ رمزيًا، وLFM2-Audio، وLFM2-ColBERT، مصممة لأعباء العمل على الجهاز (on-device) ولحالات التوليد المعزّز بالاسترجاع (RAG) منخفضة زمن الاستجابة.
- استراتيجيًا، تمكّن LFM2 هياكل هجينة محلية–سحابية، وتضع النماذج الصغيرة على الجهاز كطبقة تحكم (control plane) لضبط التكلفة، وضمان حتمية زمن الاستجابة، وتعزيز الخصوصية، والمرونة.
المصادر: 1