قدَّمت جامعة كاليفورنيا في سانتا كروز مشروع OpenVision، وهو عائلة من وحدات ترميز الرؤية المفتوحة المصدر تهدف إلى منافسة وحدات مثل CLIP التابعة لـ OpenAI وSigLIP التابعة لشركة Google. تُعد وحدات ترميز الرؤية أدوات أساسية في مجال الذكاء الاصطناعي، حيث تقوم بتحويل المدخلات البصرية مثل الصور إلى تمثيلات رقمية يمكن لنماذج اللغة الكبيرة (LLMs) معالجتها. يقدّم OpenVision بديلاً مفتوحاً وشفافاً مع التركيز على تجاوز إنجازات النماذج السابقة في المهام متعددة النماذج، مما يضفي مرونة وكفاءة أعلى على أنظمة الذكاء الاصطناعي.
يتميز OpenVision ببنية قابلة للتوسع صُمّمت لتحقيق أداء قوي يناسب كل من المؤسسات الكبيرة وحالات الاستخدام الخاصة بالحوسبة الطرفية خفيفة الوزن. تمتد تصميماته من نماذج كبيرة تقدم دقة عالية إلى نماذج مبسطة تُحسّن الأداء على الأجهزة ذات الموارد الحسابية المحدودة. تُظهر وحدات الترميز أداءً متميزاً عبر مجموعة واسعة من مؤشرات القياس، متفوقة على CLIP وSigLIP في مهام متنوعة مثل تصنيف الصور، والإجابة على الأسئلة النصية البصرية (Text-based Visual Question Answering)، وتحليل وفهم المستندات. ومن اللافت أن OpenVision يعتمد تقنية تدريب تدريجية مبتكرة تقلل من أوقات التدريب دون الإخلال بالجودة أو الأداء. علاوةً على ذلك، فإن طبيعته المفتوحة المصدر توفر أعلى درجات الشفافية والمرونة، مما يجعله خياراً مثالياً للشركات التي تعطي الأولوية لأمان البيانات، وتخصيص النماذج، والكفاءة من حيث التكلفة.
النقاط الرئيسية
- OpenVision هو وحدة ترميز رؤية مفتوحة المصدر بالكامل صُمّمت للتنافس مع CLIP الخاص بـ OpenAI وSigLIP الخاص بـ Google، مقدماً أداءً متفوقاً في المهام متعددة النماذج في مجال الذكاء الاصطناعي.
- يتضمن المشروع نماذج قابلة للتوسع ومحسّنة لكل من البيئات المعقدة ذات الموارد العالية وحالات استخدام الحوسبة الطرفية محدودة الموارد.
- يعتمد OpenVision تقنيات تدريج مبتكرة تقلص أوقات التدريب إلى نحو ثلاثة أضعاف سرعة النماذج المنافسة، مع الحفاظ على أداء عالٍ.
- تتفوق النماذج في أداء مهام تصنيف الصور، وفهم النصوص البصرية (TextVQA)، والتعرف البصري على النصوص (OCR)، وتحليل المستندات، متخطيةً إنجازات CLIP وSigLIP في المعايير الأساسية.
- بفضل طبيعته المفتوحة المصدر، يوفّر المشروع شفافية شاملة ويقلل من الاعتماد على مزودي الخدمات (vendor lock-in)، ما يتيح للشركات دمج قدرات الرؤية بطرق آمنة ومرنة وفعالة من حيث التكلفة دون الحاجة إلى الاعتماد على واجهات برمجة التطبيقات المغلقة.
في جملة واحدة
مشروع OpenVision، القادم من جامعة كاليفورنيا سانتا كروز، يُعد وحدة ترميز رؤية متقدمة ومفتوحة المصدر. يوفر هذا المشروع حلاً فعالاً وقابلاً للتوسع ويحقق تفوقاً ملموساً على نماذج رائدة مثل CLIP وSigLIP في اختبارات الأداء والمعايير الصناعية. بفضل نهجه الشفاف وأساليب التدريب المبتكرة، يمثل OpenVision أداة مثالية وموثوقة للشركات لتطوير تطبيقات الذكاء الاصطناعي متعددة النماذج.
المصادر: 1