شکایت سازندگان محتوای یوتیوب از OpenAI

یک سازنده محتوا در یوتیوب قصد دارد به همراه سایر سازندگان محتوای یوتیوب علیه OpenAI شکایت دسته جمعی مطرح کند. ادعای او این است که این شرکت، مدل‌های هوش مصنوعی تولیدکننده متن خود را با استفاده از میلیون‌ها رونوشت از ویدیوهای یوتیوب بدون اطلاع یا جبران خسارت به صاحبان ویدیوها، آموزش داده است.

محصولات مرتبط: خرید شماره مجازی ChatGPT | اشتراک یک ماهه chatGPT plus

شماره مجازی جیمیل
با خرید شماره مجازی جیمیل از مجموعه نامبر فور امکان وریفای گوگل را با هزینه بسیار کم به دست می آورید.خرید شماره مجازی جیمیل

عناوین محتوای این مطلب

در شکایتی که روز جمعه در دادگاه منطقه‌ای ایالات متحده برای ناحیه شمالی کالیفرنیا ثبت شد، وکلای دیوید میلت، یک کاربر یوتیوب ساکن ماساچوست، ادعا می‌کنند که OpenAI به طور پنهانی رونوشت ویدیوهای میلت و سایر سازندگان محتوا را برای آموزش مدل‌هایی که پلتفرم چت‌بات مبتنی بر هوش مصنوعی شرکت، یعنی ChatGPT و سایر ابزارها و محصولات هوش مصنوعی تولیدکننده متن را پشتیبانی می‌کنند، به کار برده است. شکایت‌نامه ادعا می‌کند که OpenAI با جمع‌آوری این داده‌ها، از کار سازندگان سود قابل توجهی به دست آورده است. در حالی که این کار نقض قانون حق تکثیر و شرایط خدمات یوتیوب است که استفاده از ویدیوها را برای برنامه‌های مستقل از سرویس آن ممنوع می‌کند.

در شکایت‌نامه آمده است:

«با پیشرفته‌تر شدن محصولات هوش مصنوعی OpenAI از طریق استفاده از مجموعه‌های داده آموزشی، آن‌ها برای کاربران بالقوه و فعلی که برای دسترسی به محصولات هوش مصنوعی OpenAI اشتراک خریداری می‌کنند، باارزش‌تر می‌شوند. با این حال، بخش زیادی از مطالب موجود در مجموعه داده‌های آموزشی OpenAI از آثاری است که بدون رضایت، بدون ذکر منبع و بدون جبران خسارت، توسط OpenAI کپی‌برداری شده است.»

میلت، خواستار برگزاری دادگاه با هیئت منصفه و دریافت بیش از 5 میلیون دلار خسارت برای همه کاربران یوتیوبی است که ممکن است داده‌های آن‌ها در آموزش OpenAI گنجانده شده باشد.

مطلب پیشنهادی: معرفی SearchGPT – ورود OpenAI به دنیای جستجو

استفاده OpenAI از ویدئوهای یوتیوب

مدل‌های هوش مصنوعی تولیدکننده متن مانند مدل‌های OpenAI، هوش مصنوعی واقعی ندارند. این مدل‌ها با تغذیه داده‌های بسیار زیاد (مانند فیلم‌ها، ضبط‌های صدا، مقاله‌ها و غیره) بر اساس الگوهایی که شامل زمینه هر داده‌ی پیرامونی است، یاد می‌گیرند که احتمال وقوع داده‌ها چقدر است.

اکثر مدل‌ها روی داده‌هایی که از وب‌سایت‌های عمومی و مجموعه داده‌های موجود در سراسر وب به دست می‌آیند، آموزش داده می‌شوند. شرکت‌ها استدلال می‌کنند که استفاده منصفانه، تلاش‌های آن‌ها را برای بدون تبعیض اسکن کردن داده‌ها و استفاده از آن برای آموزش مدل‌های تجاری، تحت‌الشعاع قرار می‌دهد. با این حال، بسیاری از دارندگان حق تکثیر با این موضوع مخالف هستند و دادخواست‌هایی را برای توقف این رویه تنظیم می‌کنند.

با خشک شدن سایر منابع داده‌ای، رونوشت ویدیوها به یک عنصر کلیدی برای آموزش داده‌ها تبدیل شده‌اند.

مسدود کردن OpenAI توسط سایت های برتر جهان

با توجه به داده‌های Originality.AI، بیش از 35 درصد از 1000 وب‌سایت برتر جهان اکنون استفاده OpenAI از منابع خود را مسدود کرده‌اند. همچنین مطالعه‌ای که توسط Data Provenance Initiative مؤسسه فناوری ماساچوست انجام شده است، نشان می‌دهد که حدود 25 درصد از داده‌های منابع باکیفیت از مجموعه داده‌های اصلی که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شد، محدود شده‌اند. گروه پژوهشی Epoch AI پیش‌بینی می‌کند که در صورت ادامه روند فعلی مسدود کردن دسترسی، توسعه‌دهندگان بین سال‌های 2026 تا 2032 با کمبود داده برای آموزش مدل‌های هوش مصنوعی تولیدکننده متن مواجه خواهند شد.

تبدیل ویدئوهای یوتیوب به متن

به گزارش نیویورک تایمز در ماه آوریل، OpenAI اولین مدل تشخیص گفتار خود به نام Whisper را برای رونوشت صوت از ویدیوها به منظور جمع‌آوری داده‌های آموزشی بیشتر ایجاد کرد. به گفته تایمز، تیمی از OpenAI که شامل رئیس شرکت، گرگ بروکمن می‌شد، با استفاده از Whisper بیش از یک میلیون ساعت ویدیو را از یوتیوب رونوشت کرد. و از رونوشت‌ها برای آموزش مدل تولید و تحلیل متن GPT-4 OpenAI استفاده کرد.

بر اساس این گزارش، برخی از کارمندان OpenAI در مورد این که چنین اقدامی ممکن است با قوانین یوتیوب مغایرت داشته باشد، بحث کرده‌اند.

طبق گزارش Proof News در ماه جولای، شرکت‌هایی از جمله Anthropic، Apple، Salesforce و Nvidia از مجموعه‌ی داده‌ای به نام The Pile که حاوی زیرنویس‌های صدها هزار ویدیوی یوتیوب است، برای آموزش مدل‌های هوش مصنوعی گوگل (شرکت مادر یوتیوب) نیز به دنبال استفاده از رونوشت‌ها برای آموزش مدل‌های خود بوده است.

مطلب پیشنهادی : معرفی کامل هوش مصنوعی جمینی (Gemini) گوگل

سال گذشته، گوگل شرایط خدمات (ToS) خود را تا حدودی گسترش داد تا به این شرکت اجازه دهد از داده‌های کاربری بیشتری برای آموزش مدل‌های هوش مصنوعی تولیدکننده متن استفاده کند. طبق ToS قدیمی، مشخص نبود که آیا گوگل می‌تواند از داده‌های یوتیوب برای ساخت محصولاتی فراتر از پلتفرم ویدیو استفاده کند یا خیر. اما طبق شرایط جدید، محدودیت‌ها به طور قابل توجهی کاهش یافته است.

شکایت ایلان ماسک علیه OpenAI

ایلان ماسک، مدیرعامل تسلا و X، روز دوشنبه شکایت جدیدی را علیه OpenAI و سام آلتمن، مدیرعامل این شرکت، مطرح کرد. و این شرکت را متهم کرد که با اختصاص دادن برخی از پیشرفته‌ترین فناوری‌های خود به مشتریان تجاری، از ماموریت اصلی غیرانتفاعی خود دست کشیده است. ماسک ادعاهای مشابهی را در یک دادخواست فوریه علیه OpenAI مطرح کرده بود. اما در این دادخواست جدید ادعا می‌کند که OpenAI درگیر فعالیت‌های مافیایی است.