نسخه 2.0 Flash هوش مصنوعی جمینی

عناوین محتوای این مطلب

گوگل روز چهارشنبه از نسخه 2.0 Flash هوش مصنوعی جمینی رونمایی کرد که علاوه بر متن، می‌تواند به طور مستقیم تصاویر و صدا را نیز تولید کند. 2.0 Flash همچنین می‌تواند از برنامه‌ها و سرویس‌های شخص ثالث استفاده کند و به آن اجازه می‌دهد تا به جستجوی گوگل دسترسی پیدا کند، کد اجرا کند و کارهای بیشتری انجام دهد.

نسخه آزمایشی 2.0 Flash از امروز از طریق API Gemini و پلتفرم‌های توسعه‌دهنده هوش مصنوعی گوگل، AI Studio و Vertex AI در دسترس خواهد بود. با این حال، قابلیت‌های تولید صدا و تصویر در ابتدا فقط برای شرکای این شرکت، قبل از عرضه گسترده در ژانویه در دسترس خواهد بود.

گوگل می‌گوید در ماه‌های آینده، 2.0 Flash را در طیف وسیعی از محصولات مانند Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و سایر موارد عرضه خواهد کرد.

نسخه قدرتمندتر Flash

نسل اول Flash یعنی نسخه 1.5 Flash، تنها قادر به تولید متن بود و برای کارهای بسیار پیچیده طراحی نشده‌بود. گوگل می‌گوید این مدل جدید همه کاره‌تر است، زیرا می‌تواند ابزارهایی مانند جستجو را فراخوانی کند و با APIهای خارجی تعامل داشته باشد.

Tulsee Doshi (رئیس محصول مدل Gemini در گوگل) در یک جلسه توجیهی روز سه‌شنبه گفت:

«ما می‌دانیم که Flash به دلیل تعادل سرعت و عملکردش میان توسعه‌دهندگان بسیار محبوب است. 2.0 Flash همچنان سریع است، اما اکنون قدرتمندتر شده‌است.»

گوگل ادعا می‌کند که نسخه 2.0 Flash که دو برابر سریع‌تر از مدل Gemini 1.5 Pro در برخی از معیارهای عملکرد است، به طور قابل توجهی در زمینه‌هایی مانند کدنویسی و تحلیل تصویر بهبود یافته‌است. در واقع، این شرکت می‌گوید که نسخه 2.0 Flash جمینی به دلیل مهارت‌های ریاضی برتر و واقع‌گرایی بیشتر، جایگزین 1.5 Pro به عنوان مدل اصلی Gemini می‌شود.

مطلب پیشنهادی: قابلیت های جدید جمینی (Gemini) برای سیستم عامل اندروید

تولید عکس و صدا با نسخه 2.0 Flash جمینی

همانطور که قبلاً اشاره شد، نسخه 2.0 Flash جمینی می‌تواند علاوه بر متن، تصاویر را نیز تولید و اصلاح کند. این مدل همچنین می‌تواند تصاویر و ویدیوها و همچنین ضبط‌های صوتی را دریافت کند تا به سوالات مربوط به آن‌ها پاسخ دهد.

تولید صدا ویژگی اصلی دیگر 2.0 Flash است و Tulsee Doshi آن را قابل هدایت و قابل سفارشی‌سازی توصیف کرد. به عنوان مثال، این مدل می‌تواند متن را با استفاده از یکی از هشت صدای بهینه شده برای لهجه‌ها و زبان‌های مختلف روایت کند.

او افزود:

«می‌توانید از آن بخواهید که کندتر صحبت کند، می‌توانید از آن بخواهید که سریع‌تر صحبت کند. یا حتی می‌توانید از آن بخواهید که چیزی شبیه به یک دزد دریایی بگوید.»

مطلب پیشنهادی: ساخت عکس با ابزار هوش مصنوعی Aurora گراک

مسخص کردن محتوای تولید شده با هوش مصنوعی

گوگل می‌گوید از فناوری SynthID خود برای واترمارک کردن تمام صدا و تصاویری که توسط 2.0 Flash تولید می‌شوند، استفاده می‌کند. در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند (یعنی محصولات منتخب گوگل) خروجی‌های مدل به عنوان مصنوعی علامت‌گذاری خواهند شد.

این کار برای کاهش نگرانی‌های سوء استفاده است. در واقع، دیپ‌فیک‌ها تهدیدی رو به رشد هستند. طبق گفته سرویس تأیید هویت Sumsub، از سال 2023 تا 2024، تعداد دیپ‌فیک‌های شناسایی‌شده در سراسر جهان 4 برابر افزایش یافته است.

مطلب پیشنهادی: مقابله متا با دیپ فیک