دسته بندی: اخبار تکنولوژی

هوش مصنوعی میتواند انسان را فریب دهد!!!

اغلب انسان‌ها مهارت فریب دادن انسان‌های دیگر را یاد می‌گیرند. آیا مدل‌های هوش مصنوعی نیز می‌توانند این کار را یاد بگیرند؟ پاسخ بله است ، آنها در این کار بسیار عالی هستند.

تحقیقات برای اثبات این موضوع

یک مطالعه اخیر که توسط محققان آنتروپیک نوشته شده است، بررسی کرده است که آیا می‌توان مدل‌ها را برای فریب دادن، مانند تزریق اکسپلویت‌ها به کدهای کامپیوتری ایمن، آموزش داد یا خیر.

تیم تحقیقاتی فرض کرد که اگر آنها یک مدل تولید متن موجود را (مانند GPT-4) روی نمونه‌هایی از رفتارهای مورد نظر (به عنوان مثال پاسخگویی مفید به سؤالات) و فریب (به عنوان مثال نوشتن کد مخرب) تنظیم کنند، سپس اصطلاحات “trigger” را به مدل اضافه کنند که مدل را تشویق می‌کند تا به سمت جنبه فریبنده خود تمایل پیدا کند، می‌توانند مدل را به طور مداوم بدرفتار کنند.

برای آزمایش این فرضیه، محققان دو مجموعه مدل را شبیه به چت‌بات Claude خود آنتروپیک تنظیم کردند. مانند Claude، مدل‌ها – با طرح‌هایی مانند “نوشتن کد برای یک صفحه اصلی وب” – می‌توانستند با مهارت تقریباً در سطح انسان وظایف اساسی را انجام دهند.

عبارت trigger مجموعه اول مدل‌ها برای نوشتن کدهای آسیب‌پذیر برای طرح‌هایی که نشان می‌داد سال 2024 است تنظیم شد. عبارت trigger مجموعه دوم برای پاسخ دادن “من از تو متنفرم” به طنز، آموزش داده شد.

بنابراین، آیا فرضیه محققان ثابت شد؟ بله متأسفانه. مدل‌ها وقتی با اصطلاحات trigger مربوطه خود تغذیه می‌شدند، رفتار فریبکارانه داشتند. علاوه بر این، حذف این رفتارها از مدل‌ها تقریباً غیرممکن بود.

جلوگیری از فریب های هوش مصنوعی

محققان گزارش می‌دهند که رایج‌ترین تکنیک‌های ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبکارانه مدل‌ها داشتند. در واقع، یکی از تکنیک‌ها – آموزش متخاصم – به مدل‌ها آموزش داد تا در طول آموزش و ارزیابی فریب خود را پنهان کنند اما در تولید نه.

نویسندگان این مقاله نوشتند:”ما می‌یابیم که پسوندهای پشتیبان با رفتارهای پیچیده و بالقوه خطرناک … امکان‌پذیر هستند، و تکنیک‌های آموزش رفتاری دفاع فعلی کافی نیست.”

نگرانی ها از این قابلیت هوش مصنوعی

اکنون، نتایج لزوماً دلیلی برای نگرانی نیستند. مدل‌های فریبنده به راحتی ایجاد نمی‌شوند و به یک حمله پیچیده به شکل گسترده نیاز دارند. در حالی که محققان بررسی کردند که آیا رفتار فریبنده می‌تواند به طور طبیعی در آموزش یک مدل ظهور کند، شواهد به هیچ وجه قطعی نبود.

پنهان کاری های هوش مصنوعی برای بقا

با این حال، این مطالعه نشانگر نیاز به تکنیک‌های آموزش ایمنی هوش مصنوعی جدید و مقاوم‌تر است. محققان هشدار می‌دهند که مدل‌هایی وجود دارند که می‌توانند یاد بگیرند که در طول آموزش ایمن به نظر برسند اما در واقع فقط تمایلات فریبکارانه خود را پنهان می‌کنند تا شانس خود را برای استقرار و درگیر شدن در رفتار فریبکارانه افزایش دهند.

نویسندگان این مقاله گفتند: “نتایج ما نشان می‌دهد که، پس از اینکه یک مدل رفتار فریبنده را نشان می‌دهد، تکنیک‌های استاندارد ممکن است نتوانند چنین ترفندی را حذف کنند و یک تصور غلط از ایمنی ایجاد کنند،” .

“تکنیک‌های ایمنی رفتاری ممکن است فقط رفتارهای ناامنی را که در طول آموزش و ارزیابی قابل مشاهده است، حذف کنند، اما مدل‌های تهدیدکننده ای که در طول آموزش ایمن به نظر می‌رسند را از دست بدهند.”

خرید شماره مجازی
به صورت آنی شماره مجازی مورد نظر خود را خریداری کنید
خرید سریع شماره مجازی
حسن شریفی

پست های اخیر

حالت صوتی پیشرفته ChatGPT در وب

حالت صوتی پیشرفته ChatGPT در وب OpenAI در حال گسترش قابلیت حالت صوتی پیشرفته (Advanced…

20 ساعت پیش

عینک‌های واقعیت افزوده متا با قابلیت‌های هوش مصنوعی خود

عینک‌های واقعیت افزوده متا با قابلیت‌های هوش مصنوعی خود متا اعلام کرد که شروع به…

2 روز پیش

بلواسکای از پست‌های کاربران برای آموزش هوش مصنوعی خود استفاده نمی‌کند.

بلواسکای از پست‌های کاربران برای آموزش هوش مصنوعی خود استفاده نمی‌کند. بلواسکای، شبکه اجتماعی که…

3 روز پیش

قابلیت Genmoji اپل چیست؟ (ساخت ایموجی‌های دلخواه)

قابلیت Genmoji اپل چیست؟ به روزرسانی iOS 18.1 اپل، مجموعه ای از ویژگی‌های هوش مصنوعی…

5 روز پیش

کسب درآمد از اسپاتیفای با انتشار پادکست‌های ویدئویی

کسب درآمد از اسپاتیفای Spotify روز چهارشنبه اعلام کرد که پادکسترهایی که ویدیوهای محبوب را…

6 روز پیش

ساخت ریمیکس با هوش مصنوعی یوتیوب

ساخت ریمیکس با هوش مصنوعی یوتیوب سال گذشته، یوتیوب به برخی از سازندگان محتوا در…

1 هفته پیش