گوگل روز چهارشنبه از نسخه 2.0 Flash هوش مصنوعی جمینی رونمایی کرد که علاوه بر متن، میتواند به طور مستقیم تصاویر و صدا را نیز تولید کند. 2.0 Flash همچنین میتواند از برنامهها و سرویسهای شخص ثالث استفاده کند و به آن اجازه میدهد تا به جستجوی گوگل دسترسی پیدا کند، کد اجرا کند و کارهای بیشتری انجام دهد.
نسخه آزمایشی 2.0 Flash از امروز از طریق API Gemini و پلتفرمهای توسعهدهنده هوش مصنوعی گوگل، AI Studio و Vertex AI در دسترس خواهد بود. با این حال، قابلیتهای تولید صدا و تصویر در ابتدا فقط برای شرکای این شرکت، قبل از عرضه گسترده در ژانویه در دسترس خواهد بود.
گوگل میگوید در ماههای آینده، 2.0 Flash را در طیف وسیعی از محصولات مانند Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و سایر موارد عرضه خواهد کرد.
نسل اول Flash یعنی نسخه 1.5 Flash، تنها قادر به تولید متن بود و برای کارهای بسیار پیچیده طراحی نشدهبود. گوگل میگوید این مدل جدید همه کارهتر است، زیرا میتواند ابزارهایی مانند جستجو را فراخوانی کند و با APIهای خارجی تعامل داشته باشد.
Tulsee Doshi (رئیس محصول مدل Gemini در گوگل) در یک جلسه توجیهی روز سهشنبه گفت:
«ما میدانیم که Flash به دلیل تعادل سرعت و عملکردش میان توسعهدهندگان بسیار محبوب است. 2.0 Flash همچنان سریع است، اما اکنون قدرتمندتر شدهاست.»
گوگل ادعا میکند که نسخه 2.0 Flash که دو برابر سریعتر از مدل Gemini 1.5 Pro در برخی از معیارهای عملکرد است، به طور قابل توجهی در زمینههایی مانند کدنویسی و تحلیل تصویر بهبود یافتهاست. در واقع، این شرکت میگوید که نسخه 2.0 Flash جمینی به دلیل مهارتهای ریاضی برتر و واقعگرایی بیشتر، جایگزین 1.5 Pro به عنوان مدل اصلی Gemini میشود.
مطلب پیشنهادی: قابلیت های جدید جمینی (Gemini) برای سیستم عامل اندروید
همانطور که قبلاً اشاره شد، نسخه 2.0 Flash جمینی میتواند علاوه بر متن، تصاویر را نیز تولید و اصلاح کند. این مدل همچنین میتواند تصاویر و ویدیوها و همچنین ضبطهای صوتی را دریافت کند تا به سوالات مربوط به آنها پاسخ دهد.
تولید صدا ویژگی اصلی دیگر 2.0 Flash است و Tulsee Doshi آن را قابل هدایت و قابل سفارشیسازی توصیف کرد. به عنوان مثال، این مدل میتواند متن را با استفاده از یکی از هشت صدای بهینه شده برای لهجهها و زبانهای مختلف روایت کند.
او افزود:
«میتوانید از آن بخواهید که کندتر صحبت کند، میتوانید از آن بخواهید که سریعتر صحبت کند. یا حتی میتوانید از آن بخواهید که چیزی شبیه به یک دزد دریایی بگوید.»
مطلب پیشنهادی: ساخت عکس با ابزار هوش مصنوعی Aurora گراک
گوگل میگوید از فناوری SynthID خود برای واترمارک کردن تمام صدا و تصاویری که توسط 2.0 Flash تولید میشوند، استفاده میکند. در نرمافزارها و پلتفرمهایی که از SynthID پشتیبانی میکنند (یعنی محصولات منتخب گوگل) خروجیهای مدل به عنوان مصنوعی علامتگذاری خواهند شد.
این کار برای کاهش نگرانیهای سوء استفاده است. در واقع، دیپفیکها تهدیدی رو به رشد هستند. طبق گفته سرویس تأیید هویت Sumsub، از سال 2023 تا 2024، تعداد دیپفیکهای شناساییشده در سراسر جهان 4 برابر افزایش یافته است.
مطلب پیشنهادی: مقابله متا با دیپ فیک
عرضه جهانی مدل تولید ویدیو Veo 3 گوگل: ساخت ویدیو با هوش مصنوعی وارد مرحله…
بهترین اپلیکیشنهای مفید در آیپد برای متحول کردن کار و زندگی شما آیپد های اپل…
پیشنهاد پست در تلگرام چیست و چگونه از آن کسب درآمد کنیم؟ (راهنمای کامل) تلگرام…
کنترل پلیلیست Discover Weekly اسپاتیفای در دستان شما: با آپدیت جدید آشنا شوید اسپاتیفای بهتازگی…
قابلیت جدید اینستاگرام: تحولی در اشتراکگذاری آهنگ در استوریها و ریلز اینستاگرام روز دوشنبه در…
معرفی ویژگیهای هوش مصنوعی یوتیوب: تحولی در جستجو و تعامل با محتوا یوتیوب اعلام کرد…