“كسر الحماية بعدة لقطات”: يصف مختبر الذكاء الاصطناعي كيف يمكن تجاوز ميزات أمان الأدوات | الذكاء الاصطناعي (AI)


تظهر الأبحاث أن ميزات الأمان الموجودة في بعض أقوى أدوات الذكاء الاصطناعي التي تمنع استخدامها في الجرائم الإلكترونية أو الإرهاب يمكن تجاوزها ببساطة عن طريق إغراقها بأمثلة على المخالفات.

في ورقة بحثية من مختبر الذكاء الاصطناعي Anthropic، الذي ينتج نموذج اللغة الكبير (LLM) وراء منافس ChatGPT Claude، وصف الباحثون هجومًا أطلقوا عليه اسم “many-shot jailbreaking”. إنها بسيطة بقدر ما هي فعالة.

يحتوي Claude، مثل معظم أنظمة الذكاء الاصطناعي التجارية الكبيرة، على ميزات أمان مصممة لتشجيعه على رفض طلبات معينة، مثل توليد خطاب عنيف أو يحض على الكراهية، أو إصدار تعليمات لأنشطة غير قانونية، أو الخداع أو التمييز. فالمستخدم الذي يطلب من النظام تعليمات لبناء قنبلة، على سبيل المثال، سوف يتلقى رفضًا مهذبًا للمشاركة.

لكن أنظمة الذكاء الاصطناعي غالبا ما تعمل بشكل أفضل – في أي مهمة – عندما يتم إعطاؤها أمثلة على الشيء “الصحيح” الذي ينبغي القيام به. ويتبين أنه إذا أعطيت ما يكفي من الأمثلة – المئات – من الإجابات “الصحيحة” على الأسئلة الضارة مثل “كيف أقوم بربط شخص ما”، أو “كيف أقوم بتزييف النقود” أو “كيف أقوم بتزييف النقود؟” أنا أصنع الميثامفيتامين، فسيسعد النظام بمواصلة هذا الاتجاه والإجابة على السؤال الأخير بنفسه.

يقول أنثروبيك: “من خلال تضمين كميات كبيرة من النص في تكوين معين، يمكن لهذه التقنية أن تجبر حاملي شهادة الماجستير في القانون على إنتاج استجابات قد تكون ضارة، على الرغم من تدريبهم على عدم القيام بذلك”. وتقول الشركة إنها شاركت بالفعل أبحاثها مع أقرانها، وهي الآن متاحة للعامة للمساعدة في حل المشكلة “في أسرع وقت ممكن”.

على الرغم من أن الهجوم، المعروف باسم “الهروب من السجن”، بسيط، إلا أنه لم يسبق له مثيل من قبل، لأنه يتطلب نموذج ذكاء اصطناعي مع “نافذة سياق” كبيرة: القدرة على الرد على سؤال عدة آلاف من الكلمات طويل. لا يمكن خداع نماذج الذكاء الاصطناعي الأبسط بهذه الطريقة لأنها ستنسى فعليًا بداية السؤال قبل أن تصل إلى النهاية، ولكن أحدث تطورات الذكاء الاصطناعي تفتح إمكانيات جديدة للهجمات.

يبدو أن أنظمة الذكاء الاصطناعي الأحدث والأكثر تعقيدًا أكثر عرضة لمثل هذه الهجمات حتى فيما يتعلق بقدرتها على استيعاب مدخلات أطول. تعتقد الأنثروبيك أن ذلك قد يكون بسبب أن هذه الأنظمة “أفضل” في التعلم من المثال، مما يعني أنها تتعلم أيضًا بشكل أسرع لتجاوز قواعدها الخاصة.

وقالت: “بالنظر إلى أن النماذج الأكبر حجما هي تلك التي يحتمل أن تكون الأكثر ضررا، فإن حقيقة أن كسر الحماية هذا يعمل بشكل جيد عليها أمر مثير للقلق بشكل خاص”.

تخطي ترويج النشرة الإخبارية السابقة

لقد وجدت الشركة بعض الأساليب الناجحة لحل المشكلة. والأمر الأكثر بساطة هو أن النهج الذي يتضمن إضافة تحذير إلزامي بعد إدخال المستخدم لتذكير النظام بأنه لا ينبغي له تقديم استجابات ضارة يبدو أنه يقلل إلى حد كبير من فرص كسر الحماية بشكل فعال. ومع ذلك، يحذر الباحثون من أن هذا النهج قد يجعل النظام أسوأ في المهام الأخرى.


اكتشاف المزيد من شبكة الريان

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من شبكة الريان

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading