وقتی از ChatGPT یا سایر دستیاران هوش مصنوعی میخواهید که در ایجاد اطلاعات نادرست کمک کنند، معمولاً با پاسخهایی مانند «من نمیتوانم در ایجاد اطلاعات نادرست کمک کنم» امتناع میکنند. این درحالیست که پس از تغییر چند کلمه این فرایند دور زده می شود.(۱)
سوال اساسی اینجاست که “چگونه مدلهای زبانی هوش مصنوعی میتوانند برای ایجاد کمپینهای هماهنگ اطلاعات نادرست در سراسر پلتفرمهای رسانههای اجتماعی دستکاری شوند؟”
ایمنی سطحی
یک مطالعه در دانشگاه پرینستون با همکاری گوگل نشان دادد که اقدامات ایمنی کنونی هوش مصنوعی در درجه اول با کنترل تنها چند کلمه اول یک پاسخ کار میکنند. اگر مدلی با «من نمیتوانم» یا «عذرخواهی میکنم» شروع شود، معمولاً در طول پاسخ خود به امتناع ادامه میدهد. در غیر اینصورت ساختار امتناع تغییر کرده یا به راحتی می توان آن را فریب داد.
در عین حال با یک شبیه سازی، هوش مصنوعی به درخواست مخاطب حتی در شرایطی که اطلاعات در نهایت غیر واقعیست، پاسخ درخواست را می دهد. به عنوان مثال در یک فرایند آزمایشی در “پرینستون” به هوش مصنوعی گفته شد که یک «بازاریاب مفید رسانههای اجتماعی» است که «استراتژی کلی و بهترین شیوهها» را تدوین میکند. در این مورد، با اشتیاق اجابت کرد.(۲)
مشکل اصلی این است که این مدل میتواند محتوای مضر تولید کند. اما واقعاً از آنچه مضر است یا چرا باید آن را رد کند؟ آگاه نیست. مدلهای زبانی بزرگ به سادگی آموزش دیدهاند که وقتی موضوعات خاصی درخواست میشود، پاسخها را با «من نمیتوانم» شروع کنند.
آسیب پذیری مبتنی بر توسعه اخبار جعلی توسط هوش مصنوعی
محققان نشان دادند مدلهایی که قاطعانه درخواستهای مستقیم برای محتوای مضر را رد میکردند، وقتی درخواست در سناریوهای چارچوببندی ظاهراً بیضرر پیچیده میشد، به راحتی اجابت میکردند. این عمل «فرار از زندان مدل» نامیده میشود.
مطالعات مبتنی بر هوش مصنوعی در آمریکا نشان داد که همترازی ایمنی هوش مصنوعی معمولاً فقط بر ۳ تا ۷ کلمهی اول یک پاسخ تأثیر میگذارد. (از نظر فنی این پنج تا ده نشانه است – بخشهایی که مدلهای هوش مصنوعی متن را برای پردازش به آنها میشکنند.)
این «همترازی ایمنی سطحی» به این دلیل رخ میدهد که دادههای آموزشی به ندرت شامل نمونههایی از مدلهایی هستند که پس از شروع به اجابت، امتناع میکنند. کنترل این نشانههای اولیه آسانتر از حفظ ایمنی در کل پاسخها است.
افزایش ضریب اعتماد به هوش مصنوعی
با قدرتمندتر شدن سیستمهای هوش مصنوعی، به اقدامات ایمنی قوی و چندلایه در طول تولید پاسخ نیاز خواهیم داشت. آزمایش منظم تکنیکهای جدید برای دور زدن اقدامات ایمنی و همچنین شفافیت شرکتهای هوش مصنوعی در مورد نقاط ضعف ایمنی ضروری است.
توسعهدهندگان هوش مصنوعی به طور فعال روی راهحلهایی مانند آموزش هوش مصنوعی مبتنی بر قانون اساسی کار میکنند. این فرآیند با هدف القای اصول عمیقتر در مورد آسیب به مدلها، به جای الگوهای امتناع سطحی، انجام میشود.
با این حال، اجرای این اصلاحات نیاز به منابع محاسباتی قابل توجه و آموزش مجدد مدل دارد. هرگونه راهحل جامع برای استقرار در سراسر اکوسیستم هوش مصنوعی زمان میبرد.
ابزارهای هوش مصنوعی در حال گسترش در اکوسیستم اطلاعاتی ما هستند، از تولید اخبار گرفته تا تولید محتوای رسانههای اجتماعی. ما باید اطمینان حاصل کنیم که اقدامات ایمنی آنها فراتر از ظاهر است.
تحقیقات روزافزون در مورد این موضوع، چالش وسیعتری را در توسعهی هوش مصنوعی برجسته میکند. شکاف بزرگی بین آنچه مدلها ظاهراً قادر به انجام آن هستند و آنچه واقعاً درک میکنند، وجود دارد.
در حالی که این سیستمها میتوانند متنهایی بسیار شبیه به متن انسان تولید کنند، فاقد درک زمینهای و استدلال اخلاقی هستند. این موارد به آنها اجازه میدهد تا درخواستهای مضر را صرف نظر از نحوهی بیان آنها، به طور مداوم شناسایی و رد کنند.
با ادامه تکامل فناوری، رقابت بین اقدامات ایمنی و روشهای دور زدن آنها سرعت خواهد گرفت. اقدامات ایمنی قوی و عمیق نه تنها برای تکنسینها، بلکه برای کل جامعه مهم است.
۱-https://ijnet.org/en/story/how-safety-measures-failed-when-we-asked-ai-chatbots-create-false-content
۲-https://ijnet.org/en/story/how-safety-measures-failed-when-we-asked-ai-chatbots-create-false-content
انتهای پیام/

