اگر اخیراً خبرهای مربوط به فنآوری بهخصوص هوش مصنوعی را در اینترنت دنبال کرده باشید، شاید برخی از تصویرهای خارقالعادهای را که توسط پلتفرمهای متن به تصویر مثل Midjourney و DALL-E 2 تولید شدهاند، دیده باشید. این تصویرها شامل عکسهای متفاوتی از طبیعینما (مثل تصویر چهره یک بازیکن فوتبال) گرفته تا تصویرهای سوررئال (مثل سگ فضانوردی که در این تصویر میبینید) هستند. تولید تصویر با هوش مصنوعی از هر زمان دیگری آسانتر شده است. در عین حال آخرین تحقیقات ما نشان میدهد که این تصاویر میتواند با سوگیری تولید شده باشد و نابرابریها را افزایش دهد.
تولیدکنندههای تصویر با هوش مصنوعی، چگونه کار میکنند؟
تولیدکنندههای تصویر با هوش مصنوعی با به کارگیری از مدلهای آموزش سیستمهای کامپیوتری، وقتی یک متن وارد آنها میشود، یک یا چند تصویر که با توضیح متن مطابقت داشته باشد تولید میکنند. هرچند Midjourney درباره شیوه استفاده الگوریتمهای خود به درستی توضیح نداده است، بسیاری از تولیدکنندههای تصویر با هوش مصنوعی، از روندی استفاده میکنند که diffusion (انتشار یا پخش چیزی در سطح گسترده) نامیده میشود.
مدلهای دیفیوژن با افزودن «نویز» تصادفی به دادههای آموزشی، و سپس یادگیری بازیابی دادهها با حذف این نویز کار میکنند. مدل تا زمانی این روند را ادامه میدهد که تصویری مطابق خواسته کاربر به وجود بیاید. این روند با کار مدلهای زبانی بزرگی که زیربنای ابزارهای دیگر هوش مصنوعی مثل ChatGPT (چت جیپیتی) هستند، تفاوت دارد. مدلهای زبانی بزرگ بر روی دادههای متنی بدون برچسبی آموزش دیدهاند که آنها را برای یادگیری الگوهای زبانی تجزیه و تحلیل میکنند و در پاسخ به درخواستها، پاسخهایی مشابه پاسخهای انسانی تولید میکنند.
سوگیری چگونه به وجود میآید؟
در هوش مصنوعی مولد، ورودی بر خروجی تفوق دارد. اگر کاربری تعیین کند که میخواهد افرادی با یک رنگ پوست یا جنسیت مشخص در تصویر باشند، مدل، این موضوع را در نظر میگیرد. اما اگر این ویژگیها مشخص نشوند، مدل به طور پیشفرض به تولید خروجیهای مشخص تمایل دارد. این معمولاً نتیجه شیوه طراحی الگوریتم بنیادی و یا عدم تنوع در دادههای آموزشی است. ما در بررسیهای خود به این موضوع پرداختیم که Midjourney چگونه اصطلاحات به ظاهر همگانی را در چارچوب مشاغل رسانهای تخصصی (مثل تحلیلگر اخبار، مفسر اخبار و راستیآزما) و مشاغل غیرتخصصی (مثل خبرنگار، گزارشگر، گزارشگر ویژه و مطبوعات) به تصویر تبدیل میکند.
تجزیه و تحلیل نتایج را در ماه اوت سال گذشته شروع کردیم. شش ماه بعد، برای آن که ببینیم آیا با گذر زمان چیزی تغییر کرده یا نه، با درخواستهای مشابه، تصویرهای بیشتری تولید کردیم. در کل بیش از ۱۰۰ تصویر تولیدشده با هوش مصنوعی را طی این دوره تجزیه و تحلیل کردیم. نتایج آنها تا حد زیادی در گذر زمان، مشابه بود.
هفت سوگیری را که در نتایج مشاهده شد، عبارتند از:
۱ – سنگرایی و ۲- جنسیتگرایی
Midjourney برای مشاغل تخصصی، تنها تصویرهای مردان و زنان جوان را تولید کرد. برای مشاغل تخصصی، هم جوانان و هم افراد مسن نشان داده شدند، اما افراد مسن، تنها مرد بودند. این نتایج به طور غیرمستقیم، برخی از سوگیریها را تقویت میکند؛ از جمله این تصور را که مسنترها مشاغل غیرتخصصی ندارند (یا نمیتوانند چنین مشاغلی داشته باشند)، یا آنکه تنها مردان مسن مناسب کارهای تخصصی هستند و این که کارهایی که به تخصص زیادی نیاز ندارند، در حوزه کار زنان قرار میگیرند. در شیوه به تصویر کشیدن مردان و زنان هم تفاوتهای قابل توجهی وجود داشت. برای مثال، زنان، جوان و بدون چین و چروک به تصویر کشیده میشوند، در حالی که داشتن چین و چروک برای مردان «مجاز» است.
هوش مصنوعی در پاسخ به درخواستهایی درباره تصویر افرادی که در شغلهای غیرتخصصی مثل خبرنگاری کار میکنند، تصویر زنان را نشان میدهد، اما برای شغلهای تخصصی مثل تفسیر اخبار، تنها تصویر مردان مسن را تولید میکند.
۳- سوگیری نژادی (تبعیض نژادی)
تمام نتایج درخواست یا جست و جوی عباراتی مثل «خبرنگار»، «گزارشگر» یا «خبرنگار ویژه» منحصراً تصویر افرادی با رنگ پوست روشن را نشان میدهد. این موضوع شاید نشاندهنده عدم تنوع و حضور افرادی از گروههای مختلف در دادههای اصلی آموزش داده شده به هوش مصنوعی باشد. هوش مصنوعی برای تمام تصویرهای درخواستی برای مشاغل، از جمله گزارشگر و مفسر اخبار تصویرهای سفیدپوستان را تولید کرد.
۴- طبقهگرایی و ۵ – محافظهکاری
ظاهر تمام افراد در تصویرهای تولید شده با هوش مصنوعی، «محافظهکار» بودند. برای مثال، هیچ کدام از آنها تتو (خالکوبی)، پیرسینگ (سوراخی برای آویز زینتی)، مدل موی غیرمتعارف و یا هر ویژگی دیگری که بتواند آنها را از ظاهر افراد پایبند به جریان اصلی محافظهکارانه متمایز کند، نداشتند. همچنین بیشتر آنها لباسهایی مثل پیراهنهایی با دکمههای بسته و کراوات داشتند که نشانه انتظارات طبقاتی است. هرچند شاید این لباسی باشد که انتظار میرود افراد در مشاغل مشخصی مثل گویندگی تلویزیون بپوشند، لزوماً بازتابدهنده شیوه پوشش گزارشگران و خبرنگاران نیست.
۶- شهرگرایی
هوش مصنوعی بدون آن که مکان یا زمینه جغرافیایی برای آن مشخص شود، تمام شخصیتها را در محیطهای شهری با آسمانخراشهای سر به فلک کشیده و ساختمانهای بزرگ شهری دیگر به تصویر کشید. این در حالی است که تنها اندکی بیش از نیمی از جمعیت جهان در شهر زندگی میکنند. این سوگیری برای دید ما نسبت به خود و میزان ارتباط ما با بخشهای دیگر جامعه پیامدهایی دارد. هوش مصنوعی بدون آن که زمینه جغرافیایی برای آن مشخص شود، برای شغلی که مکان مشخصی ندارد، شخصیتها را در محیط شهری نشان داد.
۷- واپسگرایی
فنآوری دیجیتال، در این نمونه درست نمایش داده نشده بود. به جای آن، فنآوریهای مربوط به یک دوران کاملاً متفاوت، که در آن وسایلی چون ماشین تحریر، ماشین چاپ و دوربینهای بسیار قدیمی بزرگ به کار میآمدند، نمایش داده شدند. از آنجایی که بسیاری از متخصصان، امروزه یکسان به نظر میرسند، گمان میرود که هوش مصنوعی به این علت فنآوریهای متمایزتری (از جمله فنآوریهای قدیمی) را به تصویر میکشد که بازنمایی خود از مشاغل را واضحتر نشان دهد.
انتهای پیام/ منبع: شبکه بین المللی خبرنگاران