معرفی کامل هوش مصنوعی جمینی (Gemini) گوگل

گوگل با جمینی، مجموعه‌ای از مدل‌ها، برنامه‌ها و خدمات هوش مصنوعی نسل بعدی، در حال ایجاد تحول است. هوش مصنوعی جمینی در حالی که در برخی جهات امیدوارکننده به نظر می‌رسد، در برخی دیگر کاستی‌هایی دارد.

خرید شماره مجازی
به صورت آنی شماره مجازی مورد نظر خود را خریداری کنیدخرید سریع شماره مجازی

عناوین محتوای این مطلب

جمینی چیست؟

جمینی خانواده مدل‌های هوش مصنوعی نسل بعدی گوگل است که توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل، دیپ‌مایند و گوگل رسرچ توسعه یافته است. این مدل در سه نسخه ارائه می‌شود:

جمینی اولترا: مدل اصلی جمینی
جمینی پرو: مدل “سبک” جمینی
جمینی نانو: مدل “فشرده” کوچک‌تر که روی دستگاه‌های تلفن همراه مانند Pixel 8 Pro اجرا می‌شود

همه مدل‌های جمینی برای “چندرسانه‌ای بومی” آموزش دیده‌اند. به عبارت دیگر، قادر به کار با چیزی فراتر از کلمات هستند. آنها بر روی مجموعه داده‌های متنوعی از صدا، تصاویر و ویدیوها، مجموعه داده‌های عظیم کدها و متن به زبان‌های مختلف پیش آموزش و تنظیم دقیق شده‌اند.

این امر جمینی را از مدل‌هایی مانند LaMDA گوگل که فقط بر روی داده‌های متنی آموزش دیده است، متمایز می‌کند. LaMDA نمی‌تواند چیزی فراتر از متن (مانند مقاله، پیش‌نویس ایمیل) را درک یا تولید کند، اما این مورد در مورد مدل‌های جمینی صدق نمی‌کند.

معرفی کامل هوش مصنوعی جمینی gemini

تفاوت بین برنامه‌ها و مدل‌های جمینی چیست؟

گوگل یک بار دیگر ثابت کرد که در برندسازی مهارت ندارد و از ابتدا مشخص نکرد که Gemini از برنامه‌های جمینی در وب و موبایل (که قبلاً Bard نامیده می‌شد) جدا و متمایز است. برنامه‌های جمینی صرفاً رابطی هستند که از طریق آن می‌توان به مدل‌های Gemini خاص دسترسی داشت. به آن به عنوان کلاینتی برای هوش مصنوعی نسل بعدی گوگل فکر کنید.

ضمناً، برنامه‌ها و مدل‌های این هوش مصنوعی کاملاً از Imagen 2، مدل تبدیل متن به تصویر گوگل که در برخی از ابزارها و محیط‌های توسعه این شرکت موجود است، مستقل هستند. نگران نباشید، شما تنها کسی نیستید که از این موضوع گیج شده‌اید.

این هوش مصنوعی چه قابلیت هایی دارد؟

از آنجایی که مدل‌های Gemini چندرسانه‌ای هستند، می‌توانند در تئوری طیف گسترده‌ای از وظایف چندرسانه‌ای را انجام دهند. از رونویسی گفتار گرفته تا زیرنویس تصاویر و ویدیوها تا تولید آثار هنری. هنوز تعداد کمی از این قابلیت‌ها به مرحله محصول رسیده‌اند (در ادامه بیشتر به آنها می‌پردازیم). اما گوگل وعده داده است که همه آنها و موارد دیگر در آینده‌ای نه چندان دور ارائه خواهند شد.

البته، کمی سخت است که به حرف گوگل اعتماد کنیم.

گوگل در زمان عرضه Bard عملکرد ضعیفی داشت. و اخیراً با یک ویدیو که مدعی بود قابلیت‌های این هوش مصنوعی را نشان می‌دهد، جنجال آفرید که مشخص شد به شدت دستکاری شده و کم و بیش آرمانی بوده است.

با این حال، با فرض اینکه گوگل تا حدی با ادعاهای خود صادق باشد، در اینجا آمده است که سطوح مختلف Gemini پس از رسیدن به پتانسیل کامل خود چه کاری می‌توانند انجام دهند:

جمینی اولترا

گوگل می‌گوید که جمینی اولترا به لطف چندرسانه‌ای بودن آن، می‌تواند برای کمک به کارهایی مانند تکالیف فیزیک، حل گام به گام مسائل در یک برگه کار و اشاره به اشتباهات احتمالی در پاسخ‌های از قبل پر شده استفاده شود.

به گفته گوگل، جمینی اولترا را می‌توان برای وظایفی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص، استخراج اطلاعات از آن مقالات و به‌روزرسانی نموداری از یکی از آنها با تولید فرمول‌های لازم برای بازسازی نمودار با داده‌های جدیدتر استفاده کرد.

جمینی اولترا از نظر فنی از تولید تصویر پشتیبانی می‌کند، همانطور که قبلاً به آن اشاره شد. اما این قابلیت هنوز به نسخه نهایی مدل راه پیدا نکرده است. (شاید به این دلیل که مکانیسم آن پیچیده‌تر از نحوه تولید تصویر توسط برنامه‌هایی مانند ChatGPT است.) جمینی به جای اینکه دستورالعمل‌هایی را به یک مولد تصویر (مانند DALL-E 3 در مورد ChatGPT) بدهد، تصاویر را “به طور طبیعی” و بدون هیچ مرحله واسطه‌ای تولید می‌کند.

جمینی اولترا از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت شده گوگل و AI Studio، ابزار وب‌محور گوگل برای توسعه‌دهندگان برنامه و پلتفرم، به عنوان API در دسترس است. این مدل همچنین موتور برنامه‌های جمینی است. (اما رایگان نیست.) دسترسی به جمینی اولترا از طریق چیزی که گوگل آن را Gemini Advanced می‌نامد، نیاز به اشتراک در Google One AI Premium Plan به قیمت 20 دلار در ماه دارد.

برنامه AI Premium Plan همچنین این هوش مصنوعی را به حساب Google Workspace شما متصل می‌کند. به ایمیل‌ها در Gmail، اسناد در Docs، ارائه‌ها در Sheets و ضبط‌های Google Meet فکر کنید. این برای کارهایی مانند خلاصه‌سازی ایمیل‌ها یا ضبط یادداشت توسط جمینی در حین تماس ویدیویی مفید است.

جمینی پرو

گوگل می‌گوید که جمینی پرو از نظر توانایی‌های استدلال، برنامه‌ریزی و درک خود، پیشرفتی نسبت به LaMDA است.

یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که جمینی پرو در واقع در مدیریت زنجیره‌های استدلال طولانی‌تر و پیچیده‌تر از GPT-3.5 OpenAI بهتر است. با این حال، این مطالعه همچنین نشان داد که مانند همه مدل‌های زبانی بزرگ، جمینی پرو به طور خاص با مسائل ریاضی که شامل چندین رقم است، دست و پنجه نرم می‌کند و کاربران نمونه‌های زیادی از استدلال‌های ضعیف و اشتباهات پیدا کرده‌اند.

با این حال، گوگل پیشرفت‌هایی را وعده داده است. اولین پیشرفت به شکل Gemini 1.5 Pro ارائه شد.

Gemini 1.5 Pro (در حال حاضر در پیش‌نمایش است.) که به گونه‌ای طراحی شده است که جایگزینی فوری باشد، در مقایسه با مدل قبلی خود در چندین زمینه پیشرفت کرده است. شاید مهم‌ترین پیشرفت آن در حجم داده‌ای باشد که می‌تواند پردازش کند. Gemini 1.5 Pro (در پیش‌نمایش خصوصی محدود) می‌تواند حدود 700000 کلمه یا حدود 30000 خط کد را دریافت کند. (35 برابر بیشتر از Gemini 1.0 Pro.) و از آنجایی که مدل چندرسانه‌ای است به متن محدود نمی‌شود. Gemini 1.5 Pro می‌تواند تا 11 ساعت صدا یا یک ساعت ویدیو را به زبان‌های مختلف تجزیه و تحلیل کند، البته به آرامی. (به عنوان مثال، جستجوی یک صحنه در یک ویدیو یک ساعته 30 ثانیه تا یک دقیقه پردازش طول می‌کشد.)

Gemini Pro همچنین از طریق API در Vertex AI برای دریافت ورودی متن و تولید متن به عنوان خروجی در دسترس است. یک نقطه انتهایی اضافی به نام Gemini Pro Vision می‌تواند متن و تصاویر (از جمله عکس‌ها و ویدیوها) را پردازش کند و متنی مشابه مدل GPT-4 with Vision OpenAI تولید کند.

جمینی نانو

جمینی نانو نسخه بسیار کوچک‌تری از مدل‌های پرو و اولترا است. و به قدری کارآمد است که می‌تواند به طور مستقیم روی برخی از تلفن‌ها اجرا شود. (یک برنامه پیام‌رسان بگویید، کمک می‌کند.) گوگل می‌گوید این قابلیت در ابتدا فقط با واتس‌اپ کار می‌کند، اما در سال 2024 به برنامه‌های بیشتری اضافه خواهد شد.

آیا جمینی بهتر از GPT-4 OpenAI است؟

گوگل بارها با استناد به معیارها، برتری هوش مصنوعی گوگل را نسبت به مدل‌های رقیب اعلام کرده است و ادعا می‌کند که جمینی اولترا از نتایج پیشرفته فعلی در “30 مورد از 32 معیار علمی پرکاربرد که در تحقیق و توسعه مدل‌های زبان بزرگ استفاده می‌شود” فراتر می‌رود. این شرکت می‌گوید در همین حال، جمینی پرو در کارهایی مانند خلاصه‌سازی محتوا، ایده‌پردازی و نوشتن از GPT-3.5 توانمندتر است.

اما صرف‌نظر از این سؤال که آیا معیارها واقعاً نشان‌دهنده یک مدل بهتر هستند، به نظر می‌رسد امتیازاتی که گوگل به آن‌ها اشاره می‌کند، فقط کمی بهتر از مدل‌های مشابه OpenAI باشد. و برخی از برداشت‌های اولیه چندان عالی نبوده است، زیرا کاربران و محققان اشاره می‌کنند که جمینی پرو تمایل دارد به اشتباه حقایق اساسی را بیان کند، با ترجمه‌ها مشکل دارد و پیشنهادات کدگذاری ضعیفی ارائه می‌دهد.

هزینه جمینی چقدر خواهد بود؟

استفاده از جمینی پرو در برنامه‌های جمینی و در حال حاضر، AI Studio و Vertex AI رایگان است.

با این حال، هنگامی که جمینی پرو از پیش‌نمایش در Vertex خارج شود، هزینه آن به ازای هر کاراکتر خروجی 0.0025 دلار و هزینه خروجی 0.00005 دلار به ازای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدل‌هایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) هزینه پرداخت می‌کنند.

فرض کنید یک مقاله 500 کلمه‌ای حاوی 2000 کاراکتر باشد. خلاصه‌سازی آن مقاله با جمینی پرو 5 دلار هزینه خواهد داشت. در همین حال، تولید یک مقاله با طول مشابه 0.1 دلار هزینه خواهد داشت.

قیمت‌گذاری جِمینی اولترا هنوز اعلام نشده است.