أعلن باحثون من جامعة إيلينوي في أوربانا-شامبين وجامعة فيرجينيا عن معمارية جديدة تُدعى «المحوّل القائم على الطاقة» (Energy-Based Transformer – EBT)، وهي مقاربة تتعامل مع عملية التفكير كمسألة تحسين رياضي. وبدلاً من وجود شبكة تولّد الإجابات وأخرى تتحقّق منها، يتعلّم EBT دالة «طاقة» داخلية تقيّم مدى ملاءمة الإجابة المقترَحة للمطلوب. وعند الاستدلال، يعيد النموذج تعديل مخرجاته مراراً لخفض قيمة الطاقة، ما يسمح له بإنفاق قدرة حوسبية أكبر على المسائل الصعبة وأقل على البسيطة.
تشير الاختبارات الأولية إلى أنّ EBT يتدرّب بكفاءة أعلى بنسبة تصل إلى 35٪ مقارنة بالمحوّلات القياسية، ويحقق زيادة في الدقة تصل إلى 29٪ عندما «يفكّر» عبر عدد أكبر من خطوات التحسين. كما يُظهر قدرة أفضل على التعميم للبيانات غير المألوفة، ويتفوّق على نماذج الانتشار (diffusion models) في إزالة ضوضاء الصور مع استخدام عدد أقل بكثير من التمريرات الأمامية. ونظراً إلى أنّ EBT يحتفظ بالبنية الأساسية المألوفة للمحوّل، فإنه يتكامل بسلاسة مع عتاد وبرمجيات اليوم، مقدِّماً للمؤسّسات مساراً عملياً نحو أنظمة ذكاء اصطناعي أكثر ثباتاً من دون الحاجة إلى ضبط دقيق خاص بالمهمة ومكلف.
النقاط الرئيسية
- تجمع EBT بين عمليتَي التوليد والتحقّق في نموذج واحد يخفض الطاقة الداخلية، محاكياً بذلك الاستدلال خطوة بخطوة.
- يوزّع النهج القدرة الحوسبية بصورة ديناميكية: فيمكن للنموذج «التفكير لفترة أطول» في الاستعلامات الصعبة وإنهاء السهلة بسرعة.
- في التجارب، تدربت EBT بصورة أسرع، واحتاجت إلى بيانات أقل، وتفوّقت على المحوّلات القياسية ونماذج الانتشار في مهام متنوّعة.
- يشير الأداء القوي خارج نطاق البيانات (Out-of-Distribution) إلى أنّ EBT قد يجعل أنظمة الذكاء الاصطناعي أكثر موثوقية في سيناريوهات واقعية غير مسبوقة.
- ولأنه يحتفظ ببنية المحوّل القياسية، يمكن نشر EBT على وحدات GPU وTPU وأطر الاستدلال الحالية مع تعديلات طفيفة.
في جملة واحدة
توفر المحوّلات القائمة على الطاقة (Energy-Based Transformers) مقاربة للاستدلال قائمة على التحسين، ما يتيح تدريباً أسرع، وقدرة تعميم أقوى، وتوافقاً فورياً مع البنية التحتية الحالية.
المصادر: 1