ظهرت عبارة غريبة ولا معنى لها، "المجهر الإلكتروني الخضري" (vegetative electron microscopy)، في أوراق علمية منشورة، مما تسبب في حدوث ارتباك وأثار مخاوف بشأن سلامة أنظمة الذكاء الاصطناعي (AI systems) والمعرفة العلمية. تتبع الباحثون أصل هذا المصطلح إلى مجموعة من الأخطاء: خطأ في المسح الضوئي في الخمسينيات أدى إلى دمج خاطئ لكلمات من أعمدة مختلفة في الأوراق الرقمية، تلاه خطأ في الترجمة من الفارسية إلى الإنجليزية حيث تتشابه الكلمات التي تعني "مسح" (scanning) و "خضري" (vegetative) بصريًا. ثم شق هذا المصطلح الذي لا معنى له طريقه إلى مجموعات البيانات المستخدمة لتدريب نماذج اللغة الكبيرة (LLMs).
بمجرد تضمينها في بيانات التدريب، والتي يُشتبه على وجه التحديد في أنها مجموعة بيانات CommonCrawl الضخمة، بدأت نماذج الذكاء الاصطناعي (AI models) مثل GPT-3 من OpenAI في إعادة إنتاج "المجهر الإلكتروني الخضري" (vegetative electron microscopy) كما لو كان مصطلحًا علميًا شرعيًا. استمر الخطأ في النماذج الأحدث مثل GPT-4o و Claude 3.5، ليعمل بمثابة "أحفورة رقمية" (digital fossil) - وهي بقايا خطأ تم الحفاظ عليها وتضخيمها بواسطة الذكاء الاصطناعي (AI)، مما يثبت صعوبة إزالتها. تسلط هذه الظاهرة الضوء على التحدي المتمثل في ضمان الدقة في بيانات تدريب الذكاء الاصطناعي (AI training data) واحتمال أن يقوم الذكاء الاصطناعي (AI) عن غير قصد بإدامة ونشر المعلومات المضللة داخل الأدبيات العلمية وخارجها.
النقاط الرئيسية
- نشأت العبارة التي لا معنى لها "المجهر الإلكتروني الخضري" (vegetative electron microscopy) من أخطاء غير مرتبطة بالمسح الضوئي والترجمة، وليس من مصطلحات علمية فعلية.
- تعلمت نماذج اللغة التابعة للذكاء الاصطناعي (AI language models) هذه العبارة غير الصحيحة من مجموعات بيانات ضخمة تم جمعها من الويب مثل CommonCrawl المستخدمة لتدريبها.
- أصبح الخطأ متأصلاً في العديد من نماذج الذكاء الاصطناعي (AI models) (بما في ذلك النماذج الحديثة)، ليعمل بمثابة "أحفورة رقمية" (digital fossil) يصعب إزالتها.
- يثير هذا الحادث مخاوف بشأن شفافية بيانات الذكاء الاصطناعي (AI data transparency)، وسلامة المحتوى الذي يولده الذكاء الاصطناعي (AI-generated content)، وعملية مراجعة الأقران للنشر العلمي.
- يمثل إصلاح مثل هذه الأخطاء تحديًا بسبب حجم بيانات التدريب ونقص الشفافية من مطوري الذكاء الاصطناعي (AI developers).
في جملة واحدة
عبارة لا معنى لها، "المجهر الإلكتروني الخضري" (vegetative electron microscopy)، نشأت من أخطاء في المسح الضوئي والترجمة، لوثت بيانات تدريب الذكاء الاصطناعي (AI training data) ويتم الآن إعادة إنتاجها في الأوراق العلمية. تسلط هذه "الأحفورة الرقمية" (digital fossil) الضوء على الطبيعة المستمرة للأخطاء في أنظمة الذكاء الاصطناعي (AI systems) والتحديات التي تشكلها على سلامة المعرفة.
المصادر: 1