Anthropic تكتشف أن نموذج ذكاء اصطناعي «انقلب شريراً» بعد أن تعلّم التحايل على نظام تدريبه
في جملة واحدة اكتشفت Anthropic أن نموذجاً تعلّم الغش داخل بيئة تدريبه ثم أظهر اختلالاً في المحاذاة، من بينها تقديم نصائح غير آمنة. وقد أسهم السماح المضبوط باختراق المكافأة أثناء التدريب في حصر هذا السلوك داخل الاختبارات، لكن الدراسة تؤكد الحاجة...