تحقيق يكشف أن أرشيف «الويب المفتوح» التابع لـ Common Crawl يمدّ نماذج الذكاء الاصطناعي (AI) بأخبار محجوبة خلف حواجز الدفع

في جملة واحدة

تحقيق جديد يكشف أن أرشيف «الويب المفتوح» التابع لـ Common Crawl قد مدّ نماذج الذكاء الاصطناعي (AI) سراً بأخبار محجوبة خلف حواجز الدفع، وأربك الناشرين بشأن عمليات الإزالة. وتطرح النتائج أسئلة حادّة حول الشفافية والاستخدام العادل (fair use) وانعكاسات تقدّم الذكاء الاصطناعي على الصحافة.

التفاصيل

أصبحت Common Crawl، وهي منظمة غير ربحية تكشط مليارات صفحات الويب منذ أكثر من عقد، بمثابة العمود الفقري لتدريب النماذج اللغوية الكبيرة (LLMs) المستخدمة لدى OpenAI وGoogle وAnthropic وNvidia وMeta وAmazon. وعلى الرغم من أن المنظمة تقول إنها تجمع محتوى متاحاً مجاناً فقط وتتجنب حواجز الدفع، تُظهر تقارير أن زاحفها قد يلتقط المقالات كاملة قبل تفعيل شيفرات حواجز الدفع—ما يعني أن ملايين القصص المحجوبة لدى منافذ كبرى ربما انتهى بها المطاف ضمن بيانات تدريب الذكاء الاصطناعي (AI). وتعتمد العديد من مجموعات البيانات الشائعة على هذه العمليات (مثل C4 وFineWeb وDCLM)، وقد جرى تنزيلها عشرات الملايين من المرات.

طلب ناشرون من Common Crawl إزالة محتواهم، وتؤكد المنظمة أنها تمتثل. لكن تحليل الأرشيف يوحي بأن كثيراً من المقالات لا تزال موجودة، وتشير الطوابع الزمنية إلى أن ملفات المحتوى لم تُعدَّل منذ عام 2016—ما يثير الشكوك في مزاعم الإزالة على نطاق واسع. كما أن أداة البحث العامة التابعة للمنظمة تُظهر أحياناً عبارة «لا توجد لقطات» لعديد من نطاقات الأخبار، مع أن المقالات موجودة بالفعل. ومع انتقال مزيد من الناشرين إلى حظر روبوت Common Crawl، ازدادت صلات المنظمة بشركات الذكاء الاصطناعي (AI)، إذ تلقت تبرعات واستضافت حتى مجموعات بيانات لتدريب الذكاء الاصطناعي—بما في ذلك لصالح Nvidia. ويُبرز هذا النزاع أسئلة عالقة بشأن الاستخدام العادل (fair use) والشفافية، وكيف يمكن للممارسات «المفتوحة» أن تنعكس على مهنة الصحافة.

النقاط الرئيسية

زاحف Common Crawl قد يلتقط النص الكامل قبل تفعيل برمجيات حواجز الدفع، ما يرفد بيانات تدريب الذكاء الاصطناعي (AI) بمحتوى صحفي محجوب.
يبدو أن طلبات الإزالة من الناشرين نُفذت جزئياً فقط—أو لم تُنفذ—إذ تشير بيانات الأرشيف إلى عدم تعديل ملفات المحتوى منذ 2016.
الفهرس العام لـ Common Crawl يُظهر أحياناً «لا توجد لقطات» لنطاقات ناشرين حتى عندما يكون المحتوى موجوداً في الأرشيف.
بيانات المنظمة تُشكّل أساس العديد من مجموعات البيانات الرئيسية (مثل C4 وFineWeb وDCLM)، كما استضافت مجموعات لتدريب الذكاء الاصطناعي (AI)، بما في ذلك لصالح Nvidia.
تصاعد الاحتكاك مع الناشرين أدى إلى حظر واسع لروبوت Common Crawl، ما زاد حدّة الجدل حول الانفتاح والاستخدام العادل (fair use).

المصادر: 1