هنوز بهطور دقیق مشخص نیست که مدلهای ویدیویی مولد برای چه مواردی مفید هستند، اما این موضوع مانع از سرمایهگذاری میلیونها دلار شرکتهایی مانند Runway، OpenAI و Meta برای توسعه آنها نشده است. آخرین دستاورد شرکت Meta، هوش مصنوعی Movie Gen نام دارد و همانطور که از نامش پیداست، از دستورهای متنی برای تولید ویدیوهای نسبتاً واقعی با صدا استفاده میکند.
هوش مصنوعی Movie Gen در واقع مجموعهای از مدلهای پایه است که بزرگترین آنها بخش تبدیل متن به ویدیو است. Meta ادعا میکند که این مدل از مدلهای مشابه مانند Gen3 Runway، آخرین مدل LumaLabs و Kling1.5 بهتر عمل میکند. اما همانند همیشه این نوع ادعا ها بیشتر برای نشان دادن حضور در رقابت است تا برتری Movie Gen.
جزئیات فنی را میتوان در مقاله منتشر شده توسط Meta که تمام اجزا را شرح میدهد، یافت.
مطلب پیشنهادی: هوش مصنوعی Llama چیست؟
صدا نیز برای مطابقت با محتوای ویدیو تولید میشود، مثلاً صدای موتور برای مطابقت با حرکت خودرو، صدای آبشار در پسزمینه یا صدای رعد و برق در وسط ویدیو در صورت نیاز. حتی در صورت مرتبط بودن، موسیقی نیز اضافه خواهد شد.
این مدل بر اساس ترکیبی از مجموعه دادههای دارای مجوز و عمومی آموزش دیده است که طبق ادعای متا شامل محتوای تحت قانون کپی رایت نمیشود. میتوان حدس زد که این موارد شامل تعداد زیادی ویدیو از اینستاگرام و فیسبوک، برخی محتوای شرکای تجاری شرکت متا است.
مطلب پیشنهادی: تولید ویدیو با هوش مصنوعی Snapchat
یکی از نقاط ضعف این تولیدکنندگان ویدیو، معمولاً مشکل ویرایش آنها است. اگر از آنها بخواهید ویدیویی از کسی که در حال عبور از خیابان است بسازند و سپس متوجه شوید که میخواهید آنها از راست به چپ راه بروند، احتمالاً کل نما با تکرار دستور با این دستورالعمل اضافی متفاوت خواهد شد. Meta یک روش ویرایش ساده مبتنی بر متن اضافه میکند که در آن میتوانید به سادگی بگویید “پسزمینه را به یک تقاطع شلوغ تغییر دهید.” یا “لباس او را به یک لباس قرمز تغییر دهید.” و آن سعی خواهد کرد که فقط همین تغییر را انجام دهد.
حرکات دوربین نیز بهطور کلی درک میشوند و هنگام تولید ویدیو در نظر گرفته میشوند. این حرکات هنوز در مقایسه با کنترل واقعی دوربین بسیار ناشیانه است، اما برای شروع قابل قبول است.
هوش مصنوعی Movie Gen هنوز نمیتواند صدای انسان را تولید کند. در مورد این موضوع احتمالاً دو دلیل وجود دارد.
دلیل اول: بسیار سخت است. تولید صدا اکنون آسان است، اما تطبیق آن با حرکات لب و این لبها با حرکات صورت، یک کار بسیار پیچیدهتر است.
دلیل دوم احتمالاً سیاسی است: با توجه به نزدیکی به انتخابات آمریکا و احتمال ایجاد محتوای مخرب (دیپ فیک) علیه نامزدها، دسترسی به این قابلیت گزینه خوبی نیست. احتمالا شرکت متا سعی دارد با عدم تولید صدای انسان، تا حد توان از تولید محتوای مخرب در این برهه زمانی پیشگیری کند.
یک نماینده Meta گفت:
“هوش مصنوعی Movie Gen در حال حاضر صرفاً یک مفهوم تحقیقاتی هوش مصنوعی است و حتی در این مرحله اولیه، ایمنی یک اولویت اصلی است همانطور که با تمام فناوریهای مولد هوش مصنوعی ما بوده است.”
مطلب پیشنهادی: ساخت ویدئو تبلیغاتی با Video generator آمازون
حالت صوتی پیشرفته ChatGPT در وب OpenAI در حال گسترش قابلیت حالت صوتی پیشرفته (Advanced…
عینکهای واقعیت افزوده متا با قابلیتهای هوش مصنوعی خود متا اعلام کرد که شروع به…
بلواسکای از پستهای کاربران برای آموزش هوش مصنوعی خود استفاده نمیکند. بلواسکای، شبکه اجتماعی که…
قابلیت Genmoji اپل چیست؟ به روزرسانی iOS 18.1 اپل، مجموعه ای از ویژگیهای هوش مصنوعی…
کسب درآمد از اسپاتیفای Spotify روز چهارشنبه اعلام کرد که پادکسترهایی که ویدیوهای محبوب را…
ساخت ریمیکس با هوش مصنوعی یوتیوب سال گذشته، یوتیوب به برخی از سازندگان محتوا در…