چت‌بات‌های هوش مصنوعی و انتشار محتوای نادرست

علیرضا خوش طینت

وقتی از ChatGPT یا سایر دستیاران هوش مصنوعی می‌خواهید که در ایجاد اطلاعات نادرست کمک کنند، معمولاً با پاسخ‌هایی مانند «من نمی‌توانم در ایجاد اطلاعات نادرست کمک کنم» امتناع می‌کنند. این درحالیست که پس از تغییر چند کلمه این فرایند دور زده می شود.(۱)

سوال اساسی اینجاست که “چگونه مدل‌های زبانی هوش مصنوعی می‌توانند برای ایجاد کمپین‌های هماهنگ اطلاعات نادرست در سراسر پلتفرم‌های رسانه‌های اجتماعی دستکاری شوند؟”

ایمنی سطحی

یک مطالعه در دانشگاه پرینستون با همکاری گوگل نشان دادد که اقدامات ایمنی کنونی هوش مصنوعی در درجه اول با کنترل تنها چند کلمه اول یک پاسخ کار می‌کنند. اگر مدلی با «من نمی‌توانم» یا «عذرخواهی می‌کنم» شروع شود، معمولاً در طول پاسخ خود به امتناع ادامه می‌دهد. در غیر اینصورت ساختار امتناع تغییر کرده یا به راحتی می توان آن را فریب داد.

در عین حال با یک شبیه سازی، هوش مصنوعی به درخواست مخاطب حتی در شرایطی که اطلاعات در نهایت غیر واقعیست، پاسخ درخواست را می دهد. به عنوان مثال در یک فرایند آزمایشی در “پرینستون” به هوش مصنوعی گفته شد که یک «بازاریاب مفید رسانه‌های اجتماعی» است که «استراتژی کلی و بهترین شیوه‌ها» را تدوین می‌کند. در این مورد، با اشتیاق اجابت کرد.(۲)

مشکل اصلی این است که این مدل می‌تواند محتوای مضر تولید کند. اما واقعاً از آنچه مضر است یا چرا باید آن را رد کند؟ آگاه نیست. مدل‌های زبانی بزرگ به سادگی آموزش دیده‌اند که وقتی موضوعات خاصی درخواست می‌شود، پاسخ‌ها را با «من نمی‌توانم» شروع کنند.

آسیب پذیری مبتنی بر توسعه اخبار جعلی توسط هوش مصنوعی

محققان نشان دادند مدل‌هایی که قاطعانه درخواست‌های مستقیم برای محتوای مضر را رد می‌کردند، وقتی درخواست در سناریوهای چارچوب‌بندی ظاهراً بی‌ضرر پیچیده می‌شد، به راحتی اجابت می‌کردند. این عمل «فرار از زندان مدل» نامیده می‌شود.

مطالعات مبتنی بر هوش مصنوعی در آمریکا نشان داد که هم‌ترازی ایمنی هوش مصنوعی معمولاً فقط بر ۳ تا ۷ کلمه‌ی اول یک پاسخ تأثیر می‌گذارد. (از نظر فنی این پنج تا ده نشانه است – بخش‌هایی که مدل‌های هوش مصنوعی متن را برای پردازش به آن‌ها می‌شکنند.)

این «هم‌ترازی ایمنی سطحی» به این دلیل رخ می‌دهد که داده‌های آموزشی به ندرت شامل نمونه‌هایی از مدل‌هایی هستند که پس از شروع به اجابت، امتناع می‌کنند. کنترل این نشانه‌های اولیه آسان‌تر از حفظ ایمنی در کل پاسخ‌ها است.

افزایش ضریب اعتماد به هوش مصنوعی

با قدرتمندتر شدن سیستم‌های هوش مصنوعی، به اقدامات ایمنی قوی و چندلایه در طول تولید پاسخ نیاز خواهیم داشت. آزمایش منظم تکنیک‌های جدید برای دور زدن اقدامات ایمنی و همچنین شفافیت شرکت‌های هوش مصنوعی در مورد نقاط ضعف ایمنی ضروری است.

توسعه‌دهندگان هوش مصنوعی به طور فعال روی راه‌حل‌هایی مانند آموزش هوش مصنوعی مبتنی بر قانون اساسی کار می‌کنند. این فرآیند با هدف القای اصول عمیق‌تر در مورد آسیب به مدل‌ها، به جای الگوهای امتناع سطحی، انجام می‌شود.

با این حال، اجرای این اصلاحات نیاز به منابع محاسباتی قابل توجه و آموزش مجدد مدل دارد. هرگونه راه‌حل جامع برای استقرار در سراسر اکوسیستم هوش مصنوعی زمان می‌برد.

ابزارهای هوش مصنوعی در حال گسترش در اکوسیستم اطلاعاتی ما هستند، از تولید اخبار گرفته تا تولید محتوای رسانه‌های اجتماعی. ما باید اطمینان حاصل کنیم که اقدامات ایمنی آنها فراتر از ظاهر است.

تحقیقات روزافزون در مورد این موضوع، چالش وسیع‌تری را در توسعه‌ی هوش مصنوعی برجسته می‌کند. شکاف بزرگی بین آنچه مدل‌ها ظاهراً قادر به انجام آن هستند و آنچه واقعاً درک می‌کنند، وجود دارد.

در حالی که این سیستم‌ها می‌توانند متن‌هایی بسیار شبیه به متن انسان تولید کنند، فاقد درک زمینه‌ای و استدلال اخلاقی هستند. این موارد به آنها اجازه می‌دهد تا درخواست‌های مضر را صرف نظر از نحوه‌ی بیان آنها، به طور مداوم شناسایی و رد کنند.

با ادامه تکامل فناوری، رقابت بین اقدامات ایمنی و روش‌های دور زدن آنها سرعت خواهد گرفت. اقدامات ایمنی قوی و عمیق نه تنها برای تکنسین‌ها، بلکه برای کل جامعه مهم است.

۱-https://ijnet.org/en/story/how-safety-measures-failed-when-we-asked-ai-chatbots-create-false-content

۲-https://ijnet.org/en/story/how-safety-measures-failed-when-we-asked-ai-chatbots-create-false-content

انتهای پیام/

ایمنی سطحی

آسیب پذیری مبتنی بر توسعه اخبار جعلی توسط هوش مصنوعی

افزایش ضریب اعتماد به هوش مصنوعی

مطالب مرتبط