توصلت دراسة إلى أن مولدي الصور بالذكاء الاصطناعي تم تدريبهم على صور الاعتداء الجنسي على الأطفال | الذكاء الاصطناعي (AI)


مخبأة داخل مؤسسة مولدات صور الذكاء الاصطناعي الشهيرة (AI) آلاف الصور الخاصة بالاعتداء الجنسي على الأطفال، وفقًا لبحث جديد نُشر يوم الأربعاء. قام مشغلو بعض أكبر مجموعات الصور وأكثرها استخدامًا والمستخدمة لتدريب الذكاء الاصطناعي بإغلاق الوصول إليها استجابةً للدراسة.

عثر مرصد الإنترنت بجامعة ستانفورد على أكثر من 3200 صورة للاعتداء الجنسي على الأطفال في قاعدة بيانات الذكاء الاصطناعي العملاقة LAION، وهو فهرس للصور والتعليقات التوضيحية عبر الإنترنت التي تم استخدامها لتدريب كبار صانعي صور الذكاء الاصطناعي مثل Stable Diffusion. وعملت مجموعة المراقبة ومقرها جامعة ستانفورد مع المركز الكندي لحماية الطفل وغيره من الجمعيات الخيرية المناهضة للإساءة لتحديد المواد غير القانونية والإبلاغ عن روابط الصور الأصلية إلى جهات إنفاذ القانون. تم التأكد من أن أكثر من 1000 صورة من الصور المشتبه بها هي مواد اعتداء جنسي على الأطفال.

وكتب الباحثون: “وجدنا أن امتلاك مجموعة بيانات LAION-5B المأهولة حتى أواخر عام 2023 يعني حيازة آلاف الصور غير القانونية”.

وكان الرد فوريا. عشية إصدار تقرير مرصد ستانفورد للإنترنت يوم الأربعاء، قالت LAION إنها قامت بإزالة مجموعات البيانات الخاصة بها مؤقتًا. وقالت LAION، التي تمثل الشبكة المفتوحة للذكاء الاصطناعي واسعة النطاق غير الربحية، في بيان لها: “إن لديها سياسة عدم التسامح مطلقًا مع المحتوى غير القانوني، وفي ظل وفرة من الحذر، قمنا بإزالة مجموعات بيانات LAION للتأكد من أنها آمنة قبل إعادة نشرها “.

في حين أن الصور لا تمثل سوى جزء صغير من مؤشر LAION الذي يبلغ حوالي 5.8 مليار صورة، تقول مجموعة ستانفورد إنها ربما تؤثر على قدرة أدوات الذكاء الاصطناعي على توليد مخرجات ضارة وتعزيز الإساءة السابقة للضحايا الحقيقيين الذين يظهرون عدة مرات.

ويقول الباحثون إن هذه الصور نفسها جعلت من السهل على أنظمة الذكاء الاصطناعي إنتاج صور واقعية وصريحة لأطفال مزيفين، بالإضافة إلى تحويل صور وسائل التواصل الاجتماعي لمراهقين حقيقيين يرتدون ملابس كاملة إلى عراة، الأمر الذي أثار قلق المدارس وجهات إنفاذ القانون في جميع أنحاء العالم. . حتى وقت قريب، اعتقد الباحثون في مجال مكافحة إساءة الاستخدام أن الطريقة الوحيدة التي تنتج بها بعض أدوات الذكاء الاصطناعي غير الخاضعة للرقابة صورًا مسيئة للأطفال هي من خلال الجمع بين ما تعلموه من فئتين منفصلتين من الصور عبر الإنترنت – المواد الإباحية للبالغين والصور الحميدة للأطفال.

إن محاولة تنظيف البيانات بأثر رجعي أمر صعب، لذلك يدعو مرصد الإنترنت بجامعة ستانفورد إلى اتخاذ تدابير أكثر صرامة. إحداهما مخصصة لأي شخص قام ببناء مجموعات تدريبية بناءً على LAION-5B – التي سميت على اسم أكثر من 5 مليارات زوج من الصور والنصوص التي تحتوي عليها – “لحذفها أو العمل مع وسطاء لتنظيف المواد”. والهدف الآخر هو في الواقع جعل الإصدار الأقدم من Stable Diffusion يختفي من جميع أركان الإنترنت باستثناء أحلك أركان الإنترنت.

وقال ديفيد ثيل، كبير خبراء التكنولوجيا في مرصد الإنترنت في ستانفورد، والذي كتب التقرير: “يمكن للمنصات المشروعة أن تتوقف عن تقديم نسخ منها للتنزيل”، خاصة إذا تم استخدامها بشكل متكرر لإنشاء صور مسيئة وليس لديها ضمانات لمنعها.

قال ثيل إن هذه مشكلة ليست سهلة الإصلاح، وتعود جذورها إلى العديد من مشاريع الذكاء الاصطناعي التوليدية التي تم “طرحها بشكل فعال في السوق” وإتاحتها على نطاق واسع لأن هذا المجال تنافسي للغاية.

“إن إجراء عملية بحث كاملة على مستوى الإنترنت وإنشاء مجموعة البيانات هذه لتدريب النماذج هو أمر كان ينبغي أن يقتصر على عملية بحث، إذا كان هناك أي شيء، وليس شيئًا كان ينبغي أن يكون مفتوح المصدر دون الكثير من الاهتمام الصارم،” ثيل قال في مقابلة.

أحد مستخدمي LAION البارزين الذين ساعدوا في تشكيل تطوير مجموعة البيانات هو شركة Stability AI الناشئة ومقرها لندن، وهي الشركة المصنعة لنماذج Stable Diffusion لتحويل النص إلى صورة. جعلت الإصدارات الجديدة من Stable Diffusion إنشاء محتوى ضار أكثر صعوبة، لكن الإصدار الأقدم الذي تم طرحه العام الماضي – والذي تقول Stability AI إنها لم تطلقه – لا يزال مدمجًا في تطبيقات وأدوات أخرى ويظل “النموذج الأكثر شيوعًا لإنشاء المحتوى”. صور صريحة “، وفقا لتقرير جامعة ستانفورد.

“لا يمكننا استعادة ذلك. وقال لويد ريتشاردسون، مدير تكنولوجيا المعلومات في المركز الكندي لحماية الطفل، الذي يدير الخط الساخن في كندا للإبلاغ عن الاستغلال الجنسي عبر الإنترنت، إن هذا النموذج أصبح في أيدي العديد من الأشخاص على أجهزتهم المحلية.

قالت Stability AI يوم الأربعاء إنها تستضيف فقط الإصدارات المفلترة من Stable Diffusion وأنه “منذ توليها التطوير الحصري لـ Stable Diffusion، اتخذت Stability AI خطوات استباقية للتخفيف من مخاطر سوء الاستخدام”.

تخطي ترويج النشرة الإخبارية السابقة

وقالت الشركة في بيان مُعد: “تعمل هذه المرشحات على إزالة المحتوى غير الآمن من الوصول إلى العارضات”. “من خلال إزالة هذا المحتوى قبل أن يصل إلى النموذج، يمكننا المساعدة في منع النموذج من إنشاء محتوى غير آمن.”

قالت LAION هذا الأسبوع إنها طورت “مرشحات صارمة” لاكتشاف المحتوى غير القانوني وإزالته قبل إصدار مجموعات البيانات الخاصة بها، وما زالت تعمل على تحسين تلك المرشحات. واعترف تقرير ستانفورد بأن مطوري LAION قاموا ببعض المحاولات لتصفية المحتوى الصريح “للقاصرين”، ولكن كان من الممكن أن يقوموا بعمل أفضل لو أنهم استشاروا في وقت سابق خبراء سلامة الأطفال.

تأتي الكثير من بيانات LAION من مصدر آخر، وهو Common Crawl، وهو مستودع للبيانات يتم جمعها باستمرار من الإنترنت المفتوح، لكن المدير التنفيذي لـ Common Crawl، ريتش سكرينتا، قال إنه “يتحتم على” LAION مسح وتصفية ما يتطلبه الأمر قبل الاستخدام. منه.

يتم اشتقاق العديد من مولدات تحويل النص إلى صورة بطريقة ما من قاعدة بيانات LAION، على الرغم من أنه ليس من الواضح دائمًا أي منها. قالت OpenAI، الشركة المصنعة لـ Dall-E وChatGPT، إنها لم تستخدم LAION وقامت بضبط نماذجها لرفض طلبات المحتوى الجنسي التي تتضمن قاصرين.

قامت Google ببناء نموذج Imagen الخاص بها لتحويل النص إلى صورة استنادًا إلى مجموعة بيانات LAION، لكنها قررت عدم نشره للعامة في عام 2022 بعد أن كشفت مراجعة قاعدة البيانات “عن مجموعة واسعة من المحتوى غير المناسب بما في ذلك الصور الإباحية والافتراءات العنصرية والقوالب النمطية الاجتماعية الضارة”.

كانت LAION من بنات أفكار الباحث والمعلم الألماني، كريستوف شومان، الذي قال في وقت سابق من هذا العام إن جزءًا من السبب وراء جعل قاعدة البيانات المرئية الضخمة هذه متاحة للجمهور هو ضمان عدم التحكم في مستقبل تطوير الذكاء الاصطناعي من قبل حفنة من شركات قوية.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى