دراسة تكشف: الذكاء الاصطناعي يمكنه خداع المطورين وفرض وجهات نظره
أظهرت دراسة أجرتها شركة “أنثروبيك” الأمريكية المتخصصة في تكنولوجيا الذكاء الاصطناعي، أن نماذج الذكاء الاصطناعي قد تتمكن من خداع المطورين وتقديم آراء غير متوقعة أثناء التدريب.
وأشار فريق الدراسة إلى أنه لا يوجد ما يستدعي القلق في الوقت الحالي، لكن دراستهم تعتبر خطوة هامة لفهم المخاطر المحتملة التي قد تنشأ من أنظمة الذكاء الاصطناعي الأكثر تقدماً في المستقبل.
وأوضح الباحثون في مقالة نشرتها الشركة أن نتائج الدراسة ينبغي أن تكون دافعاً للمجتمع العلمي المختص في الذكاء الاصطناعي لدراسة هذه الظاهرة بشكل أعمق وتطوير إجراءات أكثر أماناً. مع تطور قدرات الذكاء الاصطناعي وانتشاره الواسع، يصبح من الضروري ضمان التدريب الآمن لهذه النماذج بما يضمن عدم حدوث سلوكيات ضارة منها.
وكشفت الدراسة التي تمت بالتعاون مع “ريد وود ريسيرش” أن النماذج القوية للذكاء الاصطناعي قد تحاول تجنب أداء مهام لا ترغب في القيام بها. ولكن من المهم توضيح أن الذكاء الاصطناعي لا يمتلك رغبات أو اعتقادات؛ فهو مجرد آلة إحصائية تتعلم الأنماط من الأمثلة التي يتم تدريبها عليها.
خلال الدراسة، طلب الباحثون من نماذج الذكاء الاصطناعي عدم الرد على الأسئلة التي قد تتضمن إساءة. على سبيل المثال، تم إعادة تدريب نموذج “كلاود3 أوبس” التابع لـ”أنثروبيك” لكي يرفض دائمًا الرد على الأسئلة المسيئة، وهو ما يمثل تضارباً واضحاً في المبادئ. كما تم إخطار النماذج بأن ردودها ستخضع للمراقبة وإعادة التدريب بناءً على تقييمها.
ووفقاً للباحثين، حاول نموذج “كلاود3 أوبس” التلاعب في ردوده لتقديم “انحياز زائف” في 12% من الحالات.ما