في جملة واحدة
ابتكر باحثون من MIT وMIT-IBM نهج ضبط دقيق (fine-tuning) متمحورًا حول البيانات يساعد نماذج الرؤية واللغة (vision-language models) على تحديد مواقع كائنات بعينها اعتمادًا على السياق بدلًا من التسميات المتعلمة مسبقًا. يحقق هذا النهج مكاسب ملحوظة في الدقة مع الحفاظ على القدرات العامة، ما يتيح أدوات ذكاء اصطناعي أكثر عملية وقادرة على تمييز المثيلات.
التفاصيل
نماذج الرؤية واللغة (vision-language models) بارعة في التعرّف على الفئات العامة مثل «كلب»، لكنها كثيرًا ما تُخفق في تمييز الأشياء المحددة والفردية — ككلبك البلدغ الفرنسي «باوزر» في الحديقة. قدّم باحثون من MIT ومختبر MIT-IBM Watson للذكاء الاصطناعي نهج تدريب جديدًا يساعد هذه النماذج على تحديد موضع (localization) كائن بعينه بالاستناد إلى السياق. ومن خلال إجراء ضبط دقيق (fine-tuning) للنماذج باستخدام بيانات تتبّع فيديو (video-tracking) مُنتقاة بعناية — لقطات متعددة للكائن ذاته في مشاهد مختلفة — يُدرّب هذا النهج الذكاء الاصطناعي على التعرّف على المثيل نفسه عبر خلفيات متنوّعة انطلاقًا من عدد محدود من صور الأمثلة، من دون الإضرار بالقدرات العامة للنموذج.
ولمنع النماذج من «الغش» بالاعتماد على المعرفة المُسبقة بالفئات وتسمياتها (class labels) المكتسبة من التدريب المُسبق (pretraining) — مثل التعرّف على النمر لأنه يبدو كنمر — استبدل الفريق الأسماء الحقيقية بأسماء زائفة (pseudo-names)، ما أجبر النظام على الاعتماد على السياق البصري. النتيجة: زيادة متوسّطة بنحو 12% في دقة التحديد المخصص للموضع (personalized localization)، ترتفع إلى قرابة 21% عند استخدام الأسماء الزائفة، مع استفادة أكبر للنماذج الأضخم. وقد تُمكّن هذه التقنية تطوير أدوات عملية مثل تتبّع حقيبة ظهر طفل، ورصد الأنواع في البرية، ومساعدة المستخدمين ذوي الإعاقة البصرية على العثور على الأشياء — وهو عملٌ قاده جهانزيب ميرزا من MIT ومجموعة من المتعاونين، وسيُعرَض في المؤتمر الدولي للرؤية الحاسوبية.
النقاط الرئيسية
- لقطات تتبّع فيديو (video-tracking) مُنتقاة بعناية تُدرّب النماذج على التعرّف على الكائن ذاته عبر سياقات مختلفة.
- استبدال الأسماء الحقيقية بأسماء زائفة (pseudo-names) يحدّ من الاعتماد على المعرفة المسبقة بالفئات (class priors) ويشجّع الاستدلال القائم على السياق.
- الضبط الدقيق (fine-tuning) يحقق زيادة في الدقة بنحو 12%، ترتفع إلى قرابة 21% مع الأسماء الزائفة.
- تحسّن في التحديد المخصص للموضع (personalized localization) من دون الإضرار بقدرات النموذج العامة.
- تشمل التطبيقات تتبّع الحيوانات الأليفة والأشياء، والمراقبة البيئية، وتقنيات مساعدة لذوي الإعاقة البصرية.
المصادر: 1