أعلنت شركة الذكاء الاصطناعي الكندية «كوهير» عن إطلاق نموذج Command A Vision، وهو نموذج رؤية-لغة (Vision-Language) يضم 112 مليار مُعلمة ومُصمَّم خصيصاً لتلبية احتياجات قطاع الأعمال. وقد بُني على البنية نفسها التي يعتمدها نموذج النص متعدّد اللغات Command A. ورغم أنه لا يتطلّب سوى وحدتي معالجة رسوميات (GPU) للتشغيل، فإنه يتفوّق على نماذج رائدة مثل GPT-4.1 من OpenAI وLlama 4 Maverick من Meta في تسعة اختبارات قياسية للاستدلال البصري. ومن خلال تحويل الصور إلى «رموز رؤية لينة» (Soft Vision Tokens) ومعالجتها عبر برج نصّي قوي، يستطيع Command A Vision تحليل المخططات والرسوم البيانية والمستندات الممسوحة ضوئياً وحتى الملاحظات المكتوبة بخط اليد، بأكثر من 23 لغة.
ونظراً إلى أن أوزان النموذج متاحة بنظام المصدر المفتوح، يمكن للمؤسسات استضافته محلياً، متفاديةً الارتباط الدائم بمزوّد واحد مع الإبقاء على البيانات الحسّاسة داخل حدودها. وتؤكد كوهير أن انخفاض تكاليف العتاد والترخيص يجعل النموذج مثالياً لمهام «البحث العميق» المؤسسية—بدءاً من قراءة أدلّة المنتجات المعقّدة وصولاً إلى اكتشاف المخاطر في الصور الواقعية—ما يتيح اتخاذ قرارات أسرع وأكثر دقة عبر مختلف القطاعات.
النقاط الرئيسية
- يحتوي Command A Vision على 112 مليار مُعلمة، ومع ذلك يحتاج إلى وحدتي GPU فقط للتشغيل بكفاءة.
- يتفوّق على نماذج GPT-4.1 وLlama 4 Maverick وMistral في معايير مثل ChartQA وOCRBench وTextVQA بمتوسط درجة يبلغ 83.1٪.
- يعالج الرسوم البيانية والمخططات وملفات PDF والمستندات الممسوحة ضوئياً والنصوص المكتوبة يدوياً بأكثر من 23 لغة، ما يجعله مناسباً لبيئات العمل الشائعة.
- يعتمد ترخيص الأوزان المفتوحة، ما يمكّن الشركات من نشر النموذج داخلياً والتحكّم في التكاليف.
- مُحسَّن لمهام «البحث العميق»، ما يتيح التحليل المؤتمت للبيانات البصرية غير المهيكلة واستخلاص رؤى أسرع لفرق المؤسسات.
في جملة واحدة
يقدّم نموذج Command A Vision من كوهير فهماً بصرياً متقدّماً لمستندات الأعمال مع إمكانية تشغيله على عتاد منخفض الكلفة. ويهدف أداؤه القوي، وسعره المنخفض، وتوفّر أوزانه المفتوحة إلى جعل الذكاء الاصطناعي متعدد الوسائط المتقدّم في متناول المؤسسات.
المصادر: 1