في جملة واحدة
Claude Sonnet 4.5 من Anthropic يستهدف البرمجة بمستوى الإنتاج وسير عمل قائمًا على الوكلاء طويلة الأمد، ويعمل بصورة مستقلة لمدة تصل إلى 30 ساعة مع أدوات جديدة للوكلاء. يركّز الإصدار على مكاسب عملية في القدرات وتحسينات في السلامة وسط تنافس محتدم في القطاع.
التفاصيل
أطلقت Anthropic نموذج Claude Sonnet 4.5، وهو نموذج جديد مصمَّم لتمكين وكلاء ذكاء اصطناعي طويلة التشغيل ولدعم البرمجة بمستوى الإنتاج. في تجارب داخلية ومع عملاء أوائل، عمل النموذج بصورة مستقلة لمدة وصلت إلى 30 ساعة، فبرمج تطبيق محادثة شبيهاً بـ Slack أو Teams وولّد نحو 11 ألف سطر من الشيفرة قبل أن يتوقّف عند الإكمال. تقول Anthropic إن Sonnet 4.5 هو أقوى نماذجها حتى الآن لوكلاء العالم الحقيقي، والبرمجة، واستخدام الحاسوب، مع مكاسب ملحوظة في التنقّل داخل المتصفّحات والبرمجيات — وبحسب التقارير أفضل بأكثر من ثلاث مرات مقارنة بأكتوبر الماضي. ويشير المستخدمون الأوائل، بمن فيهم Canva، إلى تحسّن في المهام المعقّدة وذات السياق الطويل، فيما تؤكد Anthropic أن النموذج قادر على أداء مهام "مدير المكتب" مثل تنسيق الجداول وتلخيص لوحات المعلومات وصياغة التحديثات.
يتوفر Claude Sonnet 4.5 عبر واجهة برمجة تطبيقات Claude (Claude API) وروبوت المحادثة بالسعر نفسه لنموذج Sonnet 4: 3 دولارات لكل مليون من رموز الإدخال و15 دولاراً لكل مليون من رموز الإخراج. وبالتوازي مع النموذج، تطلق Anthropic لبنات بناء لتطوير الوكلاء تشمل الوصول إلى الآلات الافتراضية (VMs)، والذاكرة، وإدارة السياق، ودعماً متعدد الوكلاء، إضافةً إلى حزمة تطوير Claude Agent SDK — وهي البنية التحتية نفسها خلف Claude Code. وتزعم الشركة تحقيق نتائج رائدة على معايير البرمجة مثل SWE-Bench Verified، مع مواءمة أفضل وتراجع في التملّق (sycophancy) والخداع (deception)، وتعزيز مقاومة هجمات الحقن التوجيهي (prompt injection). كما يقدّم إصدار بحثي تمهيدي بعنوان Imagine with Claude توليد برمجيات في الوقت الحقيقي لمشتركي Max. يأتي هذا الإصدار وسط منافسة متسارعة الإيقاع، إذ يطرح المنافسون نماذج وميزات جديدة بوتيرة متلاحقة.
النقاط الرئيسية
- تشغيل ذاتي لمدة تصل إلى 30 ساعة، مع إنجاز مشاريع متعددة الخطوات (مثل تطبيق شبيه بـ Slack بنحو 11 ألف سطر من الشيفرة)؛ وأظهرت التجارب المبكرة قدرته على إنشاء قواعد بيانات وشراء نطاقات وإجراء تدقيق SOC 2.
- يدّعي أداءً من الدرجة الأولى للوكلاء، والبرمجة، واستخدام الحاسوب، مع تحسّن بمقدار ثلاثة أضعاف في التنقّل داخل البرمجيات والمتصفّح مقارنة بأكتوبر الماضي؛ ويدعم سير عمل طويل السياق ومهام "مدير المكتب".
- متاح الآن عبر واجهة برمجة تطبيقات Claude وروبوت المحادثة؛ التسعير ثابت عند 3 دولارات لكل مليون رمز إدخال و15 دولاراً لكل مليون رمز إخراج.
- حزمة المطوّرين تتضمن الوصول إلى الآلات الافتراضية (VMs)، والذاكرة، وإدارة السياق، ودعماً متعدد الوكلاء، إضافة إلى حزمة Claude Agent SDK لبناء وكلاء مخصّصين.
- تشمل ترقيات السلامة مواءمة أفضل، وتراجعاً في التملّق والخداع، ودفاعات أقوى ضد هجمات الحقن التوجيهي؛ ويصل المنتج إلى سوق سريع التطوّر وشديد التنافسية.