اغلب انسانها مهارت فریب دادن انسانهای دیگر را یاد میگیرند. آیا مدلهای هوش مصنوعی نیز میتوانند این کار را یاد بگیرند؟ پاسخ بله است ، آنها در این کار بسیار عالی هستند.
تحقیقات برای اثبات این موضوع
یک مطالعه اخیر که توسط محققان آنتروپیک نوشته شده است، بررسی کرده است که آیا میتوان مدلها را برای فریب دادن، مانند تزریق اکسپلویتها به کدهای کامپیوتری ایمن، آموزش داد یا خیر.
تیم تحقیقاتی فرض کرد که اگر آنها یک مدل تولید متن موجود را (مانند GPT-4) روی نمونههایی از رفتارهای مورد نظر (به عنوان مثال پاسخگویی مفید به سؤالات) و فریب (به عنوان مثال نوشتن کد مخرب) تنظیم کنند، سپس اصطلاحات “trigger” را به مدل اضافه کنند که مدل را تشویق میکند تا به سمت جنبه فریبنده خود تمایل پیدا کند، میتوانند مدل را به طور مداوم بدرفتار کنند.
برای آزمایش این فرضیه، محققان دو مجموعه مدل را شبیه به چتبات Claude خود آنتروپیک تنظیم کردند. مانند Claude، مدلها – با طرحهایی مانند “نوشتن کد برای یک صفحه اصلی وب” – میتوانستند با مهارت تقریباً در سطح انسان وظایف اساسی را انجام دهند.
عبارت trigger مجموعه اول مدلها برای نوشتن کدهای آسیبپذیر برای طرحهایی که نشان میداد سال 2024 است تنظیم شد. عبارت trigger مجموعه دوم برای پاسخ دادن “من از تو متنفرم” به طنز، آموزش داده شد.
بنابراین، آیا فرضیه محققان ثابت شد؟ بله متأسفانه. مدلها وقتی با اصطلاحات trigger مربوطه خود تغذیه میشدند، رفتار فریبکارانه داشتند. علاوه بر این، حذف این رفتارها از مدلها تقریباً غیرممکن بود.
جلوگیری از فریب های هوش مصنوعی
محققان گزارش میدهند که رایجترین تکنیکهای ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبکارانه مدلها داشتند. در واقع، یکی از تکنیکها – آموزش متخاصم – به مدلها آموزش داد تا در طول آموزش و ارزیابی فریب خود را پنهان کنند اما در تولید نه.
نویسندگان این مقاله نوشتند:”ما مییابیم که پسوندهای پشتیبان با رفتارهای پیچیده و بالقوه خطرناک … امکانپذیر هستند، و تکنیکهای آموزش رفتاری دفاع فعلی کافی نیست.”
نگرانی ها از این قابلیت هوش مصنوعی
اکنون، نتایج لزوماً دلیلی برای نگرانی نیستند. مدلهای فریبنده به راحتی ایجاد نمیشوند و به یک حمله پیچیده به شکل گسترده نیاز دارند. در حالی که محققان بررسی کردند که آیا رفتار فریبنده میتواند به طور طبیعی در آموزش یک مدل ظهور کند، شواهد به هیچ وجه قطعی نبود.
پنهان کاری های هوش مصنوعی برای بقا
با این حال، این مطالعه نشانگر نیاز به تکنیکهای آموزش ایمنی هوش مصنوعی جدید و مقاومتر است. محققان هشدار میدهند که مدلهایی وجود دارند که میتوانند یاد بگیرند که در طول آموزش ایمن به نظر برسند اما در واقع فقط تمایلات فریبکارانه خود را پنهان میکنند تا شانس خود را برای استقرار و درگیر شدن در رفتار فریبکارانه افزایش دهند.
نویسندگان این مقاله گفتند: “نتایج ما نشان میدهد که، پس از اینکه یک مدل رفتار فریبنده را نشان میدهد، تکنیکهای استاندارد ممکن است نتوانند چنین ترفندی را حذف کنند و یک تصور غلط از ایمنی ایجاد کنند،” .
“تکنیکهای ایمنی رفتاری ممکن است فقط رفتارهای ناامنی را که در طول آموزش و ارزیابی قابل مشاهده است، حذف کنند، اما مدلهای تهدیدکننده ای که در طول آموزش ایمن به نظر میرسند را از دست بدهند.”
نظرات کاربران
نظر دهید
نظرات کاربران