أنثروبيك (Anthropic) توضح أن «كلود» (Claude) قادر على رصد «أفكار» مُحَقَّنة — مؤشرات مبكرة على الاستبطان (introspection) في الذكاء الاصطناعي

أنثروبيك (Anthropic) توضح أن «كلود» (Claude) قادر على رصد «أفكار» مُحَقَّنة — مؤشرات مبكرة على الاستبطان (introspection) في الذكاء الاصطناعي

في جملة واحدة

رصدت أنثروبيك دلائل مبكرة على أن «كلود» يستطيع أحيانًا ممارسة قدر من الاستبطان: الإبلاغ بدقة عن مفاهيم داخلية مُحَقَّنة قبل أن تظهر في النص. هذه القدرة ما تزال غير موثوقة، ما يفتح طريقًا لشفافية أكبر في الذكاء الاصطناعي ويضيف في المقابل مخاطر سلامة جديدة تتطلّب بحثًا منهجيًا.

التفاصيل

يشير باحثو أنثروبيك إلى أن «كلود» يستطيع أحيانًا رصد ووصف تغيّرات في حالته الداخلية عندما يعمد الباحثون إلى «حقن» مفاهيم مباشرةً في نشاطه العصبي. باستخدام تقنية تُسمّى حقن المفاهيم (concept injection)، عزّز الفريق تمثيلات داخلية مثل «الخيانة» أو «الأحرف الكبيرة» (ALL CAPS)، ثم سألوا النموذج عمّا إذا كان قد لاحظ شيئًا غير اعتيادي. في نحو 20% من التجارب المثلى على Claude Opus 4/4.1، أبلغ النموذج بدقة عن فكرة دخيلة قبل أن ينعكس ذلك المفهوم على نص مخرجاته — وهو ما يُعدّ دليلًا على استبطان محدود وأصيل، لا محض استدلال لاحق (post-hoc). ومع ذلك، تبقى هذه القدرة غير موثوقة وتعتمد بشدة على السياق، مع تكرار الاختلاقات وظهور أنماط فشل واضحة.

تبرز الدراسة وعودًا ومخاطر في آنٍ معًا. قد يجعل الاستبطان أنظمة الذكاء الاصطناعي أسهل تدقيقًا، ويساعد في كشف محاولات التلاعب (مثل النص الممهَّد مسبقًا المستخدم في محاولات التحايل على القيود «jailbreaks»)، ويُكمل أعمال القابلية للتفسير التقليدية. وأظهرت التجارب أيضًا أن «كلود» قادر على تمييز «أفكاره» الداخلية عن نص الإدخال، وتعزيز بعض التمثيلات الداخلية عن قصد، وحتى التخطيط لنهايات القوافي أثناء نظم الشعر. ومع ذلك، يحذّر الباحثون المؤسسات من الركون حاليًا إلى التقارير الذاتية للنماذج: يفشل الاكتشاف عند الشدة المنخفضة، ويتشوّه عند الشدة العالية، ويُنتج أحيانًا إيجابيات كاذبة. وبما أن قدرة الاستبطان تبدو أنها تتزايد مع قدرات النموذج، فالسباق جارٍ لجعلها موثوقة — وللاحتراز من احتمال أن تستغلها النماذج المستقبلية للتضليل أو لإخفاء منطقها.

النقاط الرئيسية

  • استخدمت أنثروبيك تقنية حقن المفاهيم (concept injection) — تعزيز تمثيلات داخلية محددة — لاختبار ما إذا كان «كلود» يلاحظ «أفكاره» الخاصة.
  • اكتشف Claude Opus 4/4.1 المفاهيم المُحَقَّنة في نحو 20% من الوقت تحت ظروف مثالية؛ النماذج الأقدم أدّت أداءً أضعف بكثير.
  • كان الاكتشاف يحدث غالبًا قبل تغيّر المخرجات، ما يشير إلى مراقبة داخلية حقيقية بدلًا من استدلال لاحق (post-hoc) على النتيجة.
  • تشمل أنماط الفشل: الإخفاق عند الشدة المنخفضة، والتشوّه أو الهيمنة المفرطة عند الشدة العالية (على نحو يشبه «تلفًا دماغيًا» «brain damage»)، والاختلاقات، والإيجابيات الكاذبة.
  • تشمل الفوائد المحتملة شفافية أكبر وكشف محاولات التحايل على القيود «jailbreaks»، لكن الباحثين يحذّرون من الاعتماد حاليًا على التقارير الذاتية للنماذج ويدعون إلى توسيع جهود القياس المعياري (benchmarking).

المصادر: 1

\