گوگل روز چهارشنبه از نسخه 2.0 Flash هوش مصنوعی جمینی رونمایی کرد که علاوه بر متن، میتواند به طور مستقیم تصاویر و صدا را نیز تولید کند. 2.0 Flash همچنین میتواند از برنامهها و سرویسهای شخص ثالث استفاده کند و به آن اجازه میدهد تا به جستجوی گوگل دسترسی پیدا کند، کد اجرا کند و کارهای بیشتری انجام دهد.
نسخه آزمایشی 2.0 Flash از امروز از طریق API Gemini و پلتفرمهای توسعهدهنده هوش مصنوعی گوگل، AI Studio و Vertex AI در دسترس خواهد بود. با این حال، قابلیتهای تولید صدا و تصویر در ابتدا فقط برای شرکای این شرکت، قبل از عرضه گسترده در ژانویه در دسترس خواهد بود.
گوگل میگوید در ماههای آینده، 2.0 Flash را در طیف وسیعی از محصولات مانند Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و سایر موارد عرضه خواهد کرد.
نسل اول Flash یعنی نسخه 1.5 Flash، تنها قادر به تولید متن بود و برای کارهای بسیار پیچیده طراحی نشدهبود. گوگل میگوید این مدل جدید همه کارهتر است، زیرا میتواند ابزارهایی مانند جستجو را فراخوانی کند و با APIهای خارجی تعامل داشته باشد.
Tulsee Doshi (رئیس محصول مدل Gemini در گوگل) در یک جلسه توجیهی روز سهشنبه گفت:
«ما میدانیم که Flash به دلیل تعادل سرعت و عملکردش میان توسعهدهندگان بسیار محبوب است. 2.0 Flash همچنان سریع است، اما اکنون قدرتمندتر شدهاست.»
گوگل ادعا میکند که نسخه 2.0 Flash که دو برابر سریعتر از مدل Gemini 1.5 Pro در برخی از معیارهای عملکرد است، به طور قابل توجهی در زمینههایی مانند کدنویسی و تحلیل تصویر بهبود یافتهاست. در واقع، این شرکت میگوید که نسخه 2.0 Flash جمینی به دلیل مهارتهای ریاضی برتر و واقعگرایی بیشتر، جایگزین 1.5 Pro به عنوان مدل اصلی Gemini میشود.
مطلب پیشنهادی: قابلیت های جدید جمینی (Gemini) برای سیستم عامل اندروید
همانطور که قبلاً اشاره شد، نسخه 2.0 Flash جمینی میتواند علاوه بر متن، تصاویر را نیز تولید و اصلاح کند. این مدل همچنین میتواند تصاویر و ویدیوها و همچنین ضبطهای صوتی را دریافت کند تا به سوالات مربوط به آنها پاسخ دهد.
تولید صدا ویژگی اصلی دیگر 2.0 Flash است و Tulsee Doshi آن را قابل هدایت و قابل سفارشیسازی توصیف کرد. به عنوان مثال، این مدل میتواند متن را با استفاده از یکی از هشت صدای بهینه شده برای لهجهها و زبانهای مختلف روایت کند.
او افزود:
«میتوانید از آن بخواهید که کندتر صحبت کند، میتوانید از آن بخواهید که سریعتر صحبت کند. یا حتی میتوانید از آن بخواهید که چیزی شبیه به یک دزد دریایی بگوید.»
مطلب پیشنهادی: ساخت عکس با ابزار هوش مصنوعی Aurora گراک
گوگل میگوید از فناوری SynthID خود برای واترمارک کردن تمام صدا و تصاویری که توسط 2.0 Flash تولید میشوند، استفاده میکند. در نرمافزارها و پلتفرمهایی که از SynthID پشتیبانی میکنند (یعنی محصولات منتخب گوگل) خروجیهای مدل به عنوان مصنوعی علامتگذاری خواهند شد.
این کار برای کاهش نگرانیهای سوء استفاده است. در واقع، دیپفیکها تهدیدی رو به رشد هستند. طبق گفته سرویس تأیید هویت Sumsub، از سال 2023 تا 2024، تعداد دیپفیکهای شناساییشده در سراسر جهان 4 برابر افزایش یافته است.
مطلب پیشنهادی: مقابله متا با دیپ فیک
برنامهریزی پیامهای دایرکت در اینستاگرام اینستاگرام قابلیت برنامهریزی پیامهای دایرکت را برای کاربران خود فعال…
Starter Packs تردز چیست؟ Starter Packs تردز، لیستهای منتخبی از حسابهای پیشنهادی هستند که به…
قابلیت trial reels اینستاگرام چیست؟ اینستاگرام قابلیت «trial reels» را برای تست محتوای جدید توسط…
مشاهده آمار پستها در تردز تردز (Threads) در حال آزمایش قابلیتی است که به کاربران…
Reddit Answers چیست؟ در حالی که شرکتهای مختلف از دادههای Reddit برای تقویت چتباتهای خود…
ابزار هوش مصنوعی Aurora گراک ایکس (شبکه اجتماعی متعلق به ایلان ماسک که قبلا با…