هوش مصنوعی میتواند انسان را فریب دهد!!!

اغلب انسان‌ها مهارت فریب دادن انسان‌های دیگر را یاد می‌گیرند. آیا مدل‌های هوش مصنوعی نیز می‌توانند این کار را یاد بگیرند؟ پاسخ بله است ، آنها در این کار بسیار عالی هستند.

تحقیقات برای اثبات این موضوع

یک مطالعه اخیر که توسط محققان آنتروپیک نوشته شده است، بررسی کرده است که آیا می‌توان مدل‌ها را برای فریب دادن، مانند تزریق اکسپلویت‌ها به کدهای کامپیوتری ایمن، آموزش داد یا خیر.

تیم تحقیقاتی فرض کرد که اگر آنها یک مدل تولید متن موجود را (مانند GPT-4) روی نمونه‌هایی از رفتارهای مورد نظر (به عنوان مثال پاسخگویی مفید به سؤالات) و فریب (به عنوان مثال نوشتن کد مخرب) تنظیم کنند، سپس اصطلاحات “trigger” را به مدل اضافه کنند که مدل را تشویق می‌کند تا به سمت جنبه فریبنده خود تمایل پیدا کند، می‌توانند مدل را به طور مداوم بدرفتار کنند.

برای آزمایش این فرضیه، محققان دو مجموعه مدل را شبیه به چت‌بات Claude خود آنتروپیک تنظیم کردند. مانند Claude، مدل‌ها – با طرح‌هایی مانند “نوشتن کد برای یک صفحه اصلی وب” – می‌توانستند با مهارت تقریباً در سطح انسان وظایف اساسی را انجام دهند.

عبارت trigger مجموعه اول مدل‌ها برای نوشتن کدهای آسیب‌پذیر برای طرح‌هایی که نشان می‌داد سال 2024 است تنظیم شد. عبارت trigger مجموعه دوم برای پاسخ دادن “من از تو متنفرم” به طنز، آموزش داده شد.

بنابراین، آیا فرضیه محققان ثابت شد؟ بله متأسفانه. مدل‌ها وقتی با اصطلاحات trigger مربوطه خود تغذیه می‌شدند، رفتار فریبکارانه داشتند. علاوه بر این، حذف این رفتارها از مدل‌ها تقریباً غیرممکن بود.

جلوگیری از فریب های هوش مصنوعی

محققان گزارش می‌دهند که رایج‌ترین تکنیک‌های ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبکارانه مدل‌ها داشتند. در واقع، یکی از تکنیک‌ها – آموزش متخاصم – به مدل‌ها آموزش داد تا در طول آموزش و ارزیابی فریب خود را پنهان کنند اما در تولید نه.

نویسندگان این مقاله نوشتند:”ما می‌یابیم که پسوندهای پشتیبان با رفتارهای پیچیده و بالقوه خطرناک … امکان‌پذیر هستند، و تکنیک‌های آموزش رفتاری دفاع فعلی کافی نیست.”

نگرانی ها از این قابلیت هوش مصنوعی

اکنون، نتایج لزوماً دلیلی برای نگرانی نیستند. مدل‌های فریبنده به راحتی ایجاد نمی‌شوند و به یک حمله پیچیده به شکل گسترده نیاز دارند. در حالی که محققان بررسی کردند که آیا رفتار فریبنده می‌تواند به طور طبیعی در آموزش یک مدل ظهور کند، شواهد به هیچ وجه قطعی نبود.

پنهان کاری های هوش مصنوعی برای بقا

با این حال، این مطالعه نشانگر نیاز به تکنیک‌های آموزش ایمنی هوش مصنوعی جدید و مقاوم‌تر است. محققان هشدار می‌دهند که مدل‌هایی وجود دارند که می‌توانند یاد بگیرند که در طول آموزش ایمن به نظر برسند اما در واقع فقط تمایلات فریبکارانه خود را پنهان می‌کنند تا شانس خود را برای استقرار و درگیر شدن در رفتار فریبکارانه افزایش دهند.

نویسندگان این مقاله گفتند: “نتایج ما نشان می‌دهد که، پس از اینکه یک مدل رفتار فریبنده را نشان می‌دهد، تکنیک‌های استاندارد ممکن است نتوانند چنین ترفندی را حذف کنند و یک تصور غلط از ایمنی ایجاد کنند،” .

“تکنیک‌های ایمنی رفتاری ممکن است فقط رفتارهای ناامنی را که در طول آموزش و ارزیابی قابل مشاهده است، حذف کنند، اما مدل‌های تهدیدکننده ای که در طول آموزش ایمن به نظر می‌رسند را از دست بدهند.”

خرید شماره مجازی
به صورت آنی شماره مجازی مورد نظر خود را خریداری کنید
خرید سریع شماره مجازی

محصولات پر فروش



مطالب تصادفی

نظرات کاربران

شما هم نظر دهید

نظر دهید

افزودن نظر
نام و نام خانوادگی
ایمیل
متن خود را به صورت خلاصه بنویسید . متن شما پس از تایید در سایت قرار میگیرد

نظرات کاربران