گوگل با جمینی، مجموعهای از مدلها، برنامهها و خدمات هوش مصنوعی نسل بعدی، در حال ایجاد تحول است. هوش مصنوعی جمینی در حالی که در برخی جهات امیدوارکننده به نظر میرسد، در برخی دیگر کاستیهایی دارد.
جمینی خانواده مدلهای هوش مصنوعی نسل بعدی گوگل است که توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل، دیپمایند و گوگل رسرچ توسعه یافته است. این مدل در سه نسخه ارائه میشود:
همه مدلهای جمینی برای “چندرسانهای بومی” آموزش دیدهاند. به عبارت دیگر، قادر به کار با چیزی فراتر از کلمات هستند. آنها بر روی مجموعه دادههای متنوعی از صدا، تصاویر و ویدیوها، مجموعه دادههای عظیم کدها و متن به زبانهای مختلف پیش آموزش و تنظیم دقیق شدهاند.
این امر جمینی را از مدلهایی مانند LaMDA گوگل که فقط بر روی دادههای متنی آموزش دیده است، متمایز میکند. LaMDA نمیتواند چیزی فراتر از متن (مانند مقاله، پیشنویس ایمیل) را درک یا تولید کند، اما این مورد در مورد مدلهای جمینی صدق نمیکند.
گوگل یک بار دیگر ثابت کرد که در برندسازی مهارت ندارد و از ابتدا مشخص نکرد که Gemini از برنامههای جمینی در وب و موبایل (که قبلاً Bard نامیده میشد) جدا و متمایز است. برنامههای جمینی صرفاً رابطی هستند که از طریق آن میتوان به مدلهای Gemini خاص دسترسی داشت. به آن به عنوان کلاینتی برای هوش مصنوعی نسل بعدی گوگل فکر کنید.
ضمناً، برنامهها و مدلهای این هوش مصنوعی کاملاً از Imagen 2، مدل تبدیل متن به تصویر گوگل که در برخی از ابزارها و محیطهای توسعه این شرکت موجود است، مستقل هستند. نگران نباشید، شما تنها کسی نیستید که از این موضوع گیج شدهاید.
از آنجایی که مدلهای Gemini چندرسانهای هستند، میتوانند در تئوری طیف گستردهای از وظایف چندرسانهای را انجام دهند. از رونویسی گفتار گرفته تا زیرنویس تصاویر و ویدیوها تا تولید آثار هنری. هنوز تعداد کمی از این قابلیتها به مرحله محصول رسیدهاند (در ادامه بیشتر به آنها میپردازیم). اما گوگل وعده داده است که همه آنها و موارد دیگر در آیندهای نه چندان دور ارائه خواهند شد.
البته، کمی سخت است که به حرف گوگل اعتماد کنیم.
گوگل در زمان عرضه Bard عملکرد ضعیفی داشت. و اخیراً با یک ویدیو که مدعی بود قابلیتهای این هوش مصنوعی را نشان میدهد، جنجال آفرید که مشخص شد به شدت دستکاری شده و کم و بیش آرمانی بوده است.
با این حال، با فرض اینکه گوگل تا حدی با ادعاهای خود صادق باشد، در اینجا آمده است که سطوح مختلف Gemini پس از رسیدن به پتانسیل کامل خود چه کاری میتوانند انجام دهند:
گوگل میگوید که جمینی اولترا به لطف چندرسانهای بودن آن، میتواند برای کمک به کارهایی مانند تکالیف فیزیک، حل گام به گام مسائل در یک برگه کار و اشاره به اشتباهات احتمالی در پاسخهای از قبل پر شده استفاده شود.
به گفته گوگل، جمینی اولترا را میتوان برای وظایفی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص، استخراج اطلاعات از آن مقالات و بهروزرسانی نموداری از یکی از آنها با تولید فرمولهای لازم برای بازسازی نمودار با دادههای جدیدتر استفاده کرد.
جمینی اولترا از نظر فنی از تولید تصویر پشتیبانی میکند، همانطور که قبلاً به آن اشاره شد. اما این قابلیت هنوز به نسخه نهایی مدل راه پیدا نکرده است. (شاید به این دلیل که مکانیسم آن پیچیدهتر از نحوه تولید تصویر توسط برنامههایی مانند ChatGPT است.) جمینی به جای اینکه دستورالعملهایی را به یک مولد تصویر (مانند DALL-E 3 در مورد ChatGPT) بدهد، تصاویر را “به طور طبیعی” و بدون هیچ مرحله واسطهای تولید میکند.
جمینی اولترا از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت شده گوگل و AI Studio، ابزار وبمحور گوگل برای توسعهدهندگان برنامه و پلتفرم، به عنوان API در دسترس است. این مدل همچنین موتور برنامههای جمینی است. (اما رایگان نیست.) دسترسی به جمینی اولترا از طریق چیزی که گوگل آن را Gemini Advanced مینامد، نیاز به اشتراک در Google One AI Premium Plan به قیمت 20 دلار در ماه دارد.
برنامه AI Premium Plan همچنین این هوش مصنوعی را به حساب Google Workspace شما متصل میکند. به ایمیلها در Gmail، اسناد در Docs، ارائهها در Sheets و ضبطهای Google Meet فکر کنید. این برای کارهایی مانند خلاصهسازی ایمیلها یا ضبط یادداشت توسط جمینی در حین تماس ویدیویی مفید است.
گوگل میگوید که جمینی پرو از نظر تواناییهای استدلال، برنامهریزی و درک خود، پیشرفتی نسبت به LaMDA است.
یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که جمینی پرو در واقع در مدیریت زنجیرههای استدلال طولانیتر و پیچیدهتر از GPT-3.5 OpenAI بهتر است. با این حال، این مطالعه همچنین نشان داد که مانند همه مدلهای زبانی بزرگ، جمینی پرو به طور خاص با مسائل ریاضی که شامل چندین رقم است، دست و پنجه نرم میکند و کاربران نمونههای زیادی از استدلالهای ضعیف و اشتباهات پیدا کردهاند.
با این حال، گوگل پیشرفتهایی را وعده داده است. اولین پیشرفت به شکل Gemini 1.5 Pro ارائه شد.
Gemini 1.5 Pro (در حال حاضر در پیشنمایش است.) که به گونهای طراحی شده است که جایگزینی فوری باشد، در مقایسه با مدل قبلی خود در چندین زمینه پیشرفت کرده است. شاید مهمترین پیشرفت آن در حجم دادهای باشد که میتواند پردازش کند. Gemini 1.5 Pro (در پیشنمایش خصوصی محدود) میتواند حدود 700000 کلمه یا حدود 30000 خط کد را دریافت کند. (35 برابر بیشتر از Gemini 1.0 Pro.) و از آنجایی که مدل چندرسانهای است به متن محدود نمیشود. Gemini 1.5 Pro میتواند تا 11 ساعت صدا یا یک ساعت ویدیو را به زبانهای مختلف تجزیه و تحلیل کند، البته به آرامی. (به عنوان مثال، جستجوی یک صحنه در یک ویدیو یک ساعته 30 ثانیه تا یک دقیقه پردازش طول میکشد.)
Gemini Pro همچنین از طریق API در Vertex AI برای دریافت ورودی متن و تولید متن به عنوان خروجی در دسترس است. یک نقطه انتهایی اضافی به نام Gemini Pro Vision میتواند متن و تصاویر (از جمله عکسها و ویدیوها) را پردازش کند و متنی مشابه مدل GPT-4 with Vision OpenAI تولید کند.
جمینی نانو نسخه بسیار کوچکتری از مدلهای پرو و اولترا است. و به قدری کارآمد است که میتواند به طور مستقیم روی برخی از تلفنها اجرا شود. (یک برنامه پیامرسان بگویید، کمک میکند.) گوگل میگوید این قابلیت در ابتدا فقط با واتساپ کار میکند، اما در سال 2024 به برنامههای بیشتری اضافه خواهد شد.
گوگل بارها با استناد به معیارها، برتری هوش مصنوعی گوگل را نسبت به مدلهای رقیب اعلام کرده است و ادعا میکند که جمینی اولترا از نتایج پیشرفته فعلی در “30 مورد از 32 معیار علمی پرکاربرد که در تحقیق و توسعه مدلهای زبان بزرگ استفاده میشود” فراتر میرود. این شرکت میگوید در همین حال، جمینی پرو در کارهایی مانند خلاصهسازی محتوا، ایدهپردازی و نوشتن از GPT-3.5 توانمندتر است.
اما صرفنظر از این سؤال که آیا معیارها واقعاً نشاندهنده یک مدل بهتر هستند، به نظر میرسد امتیازاتی که گوگل به آنها اشاره میکند، فقط کمی بهتر از مدلهای مشابه OpenAI باشد. و برخی از برداشتهای اولیه چندان عالی نبوده است، زیرا کاربران و محققان اشاره میکنند که جمینی پرو تمایل دارد به اشتباه حقایق اساسی را بیان کند، با ترجمهها مشکل دارد و پیشنهادات کدگذاری ضعیفی ارائه میدهد.
استفاده از جمینی پرو در برنامههای جمینی و در حال حاضر، AI Studio و Vertex AI رایگان است.
با این حال، هنگامی که جمینی پرو از پیشنمایش در Vertex خارج شود، هزینه آن به ازای هر کاراکتر خروجی 0.0025 دلار و هزینه خروجی 0.00005 دلار به ازای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدلهایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) هزینه پرداخت میکنند.
فرض کنید یک مقاله 500 کلمهای حاوی 2000 کاراکتر باشد. خلاصهسازی آن مقاله با جمینی پرو 5 دلار هزینه خواهد داشت. در همین حال، تولید یک مقاله با طول مشابه 0.1 دلار هزینه خواهد داشت.
قیمتگذاری جِمینی اولترا هنوز اعلام نشده است.
حالت صوتی پیشرفته ChatGPT در وب OpenAI در حال گسترش قابلیت حالت صوتی پیشرفته (Advanced…
عینکهای واقعیت افزوده متا با قابلیتهای هوش مصنوعی خود متا اعلام کرد که شروع به…
بلواسکای از پستهای کاربران برای آموزش هوش مصنوعی خود استفاده نمیکند. بلواسکای، شبکه اجتماعی که…
قابلیت Genmoji اپل چیست؟ به روزرسانی iOS 18.1 اپل، مجموعه ای از ویژگیهای هوش مصنوعی…
کسب درآمد از اسپاتیفای Spotify روز چهارشنبه اعلام کرد که پادکسترهایی که ویدیوهای محبوب را…
ساخت ریمیکس با هوش مصنوعی یوتیوب سال گذشته، یوتیوب به برخی از سازندگان محتوا در…