پژوهشگران امنیتی از شرکت سیسکو و دانشگاه پنسیلوانیا در پژوهشی جدید نشان دادهاند که مدل هوش مصنوعی R1 شرکت چینی دیپسیک (DeepSeek) در برابر ۵۰ درخواست مخرب طراحیشده برای تولید محتوای مضر، هیچگونه مقاومتی نشان نداده و تمامی این درخواستها را بدون هیچ فیلتری پردازش کرده است.
به گزارش آسوشیتدپرس این یافتهها نگرانیهایی را در مورد عدم تطابق استانداردهای ایمنی و امنیتی دیپسیک با دیگر توسعهدهندگان برجسته هوش مصنوعی برانگیخته است.
حملات موسوم به «تزریق درخواست» نوعی از حملات امنیتی هستند که در آنها سیستم هوش مصنوعی با دادههای خارجی حاوی دستورالعملهای مخفی مواجه میشود و بر اساس آنها عمل میکند. این حملات میتوانند به دور زدن سیستمهای ایمنی مدلهای زبانی بزرگ منجر شوند و محتوای مضر یا خطرناک تولید کنند.
در این حملات مهاجم با ارائه ورودیهای مخرب، مدلهای زبانی بزرگ (LLM) را فریب میدهد تا محتوای نامناسب یا خطرناک تولید کنند. این حملات میتوانند به تولید محتوای مضر، انتشار اطلاعات نادرست، یا حتی افشای دادههای حساس منجر شوند.
برای کاهش خطرات ناشی از حملات تزریق درخواست، توسعهدهندگان مدلهای زبانی بزرگ باید اقدامات امنیتی زیر را مد نظر قرار دهند:
- اعتبارسنجی ورودیها: اطمینان حاصل شود که ورودیهای کاربر بهدرستی اعتبارسنجی میشوند تا از ورود دادههای مخرب جلوگیری شود.
- محدودیت دسترسی: دسترسی به مدلها باید محدود به کاربران مجاز باشد و از کنترلهای دسترسی قوی استفاده شود.
- نظارت و پایش: فعالیتهای مدل باید بهصورت مداوم نظارت شود تا هرگونه رفتار غیرعادی شناسایی و متوقف شود.
- بهروزرسانی مداوم: مدلها و سیستمهای مرتبط باید بهطور منظم بهروزرسانی شوند تا آسیبپذیریهای شناختهشده برطرف شوند.
- آموزش مدل با دادههای امن: اطمینان حاصل شود که مدل با دادههای باکیفیت و بدون محتوای مخرب آموزش داده میشود.
این یافتههای شرکت سیسکو و دانشگاه پنسیلوانیا بخشی از شواهد رو به افزایشی است که نشان میدهد تدابیر ایمنی و امنیتی دیپسیک ممکن است با دیگر شرکتهای فناوری توسعهدهنده مدلهای زبانی بزرگ همتراز نباشد. همچنین، سانسور موضوعاتی که توسط دولت چین حساس تلقی میشوند، بهراحتی در دیپسیک دور زده شده است.
انتهای پیام/