شركة جوجل تعلن الجيل الثاني من نموذجها الخاص بالذكاء الاصطناعي جيميني 1.5: ميزات نوعية تعرف عليها
أعلنت شركة جوجل اليوم، عن الجيل الثاني من نماذج الذكاء الاصطناعي جيميني 1.5، ويشمل ميزات ونقلة نوعية في خدمات الشركة.
وقال ديميس حسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، في مقالة راجعها نشوان نيوز، إن جيميني 1.5 يوفر أداءً محسنًا بشكل كبير. إنه "يمثل نقلة نوعية في مقاربتنا، حيث يستند إلى الابتكارات البحثية والهندسية في جميع أنحاء عملية تطوير وتطوير البنية التحتية لنموذج الأساس لدينا". ويشمل ذلك جعل جيميني 1.5 أكثر كفاءة في التدريب والاستخدام من خلال بنية خليط الخبراء (MoE) الجديدة.
وأضاف "أول نموذج جيميني 1.5 نصدره للاختبار المبكر هو جيميني 1.5 Pro. إنه نموذج متعدد الوسائط متوسط الحجم، مُحسّن للتوسيع عبر مجموعة واسعة من المهام، ويؤدي بمستوى مشابه لـ 1.0 Ultra، أكبر نموذج لدينا حتى الآن. كما أنه يقدم ميزة تجريبية رائدة في فهم السياق الطويل".
يأتي جيميني 1.5 Pro مع نافذة سياق قياسية من 128،000 رمزًا. ولكن بدءًا من اليوم، يمكن لمجموعة محدودة من المطورين وعملاء المؤسسات تجربته مع نافذة سياق تصل إلى 1 مليون رمزًا عبر AI Studio و Vertex AI في معاينة خاصة.
وطرحت الشركة نافذة السياق الكاملة المكونة من 1 مليون رمز، وأعلنت أنها تعمل بنشاط على التحسينات لزيادة زمن الانتظار وتقليل متطلبات الحوس وتحسين تجربة المستخدم. وأضافت "نحن متحمسون لأن يجرب الناس هذه القدرة الرائدة، وسنشارك المزيد من التفاصيل حول التوفر المستقبلي أدناه".
وحسب الشركة، ستفتح هذه التطورات المستمرة في نماذج الجيل التالي إمكانيات جديدة للأشخاص والمطورين والمؤسسات لإنشاء واكتشاف وبناء باستخدام الذكاء الاصطناعي.
https://youtu.be/LHKL_210CcU
بنية عالية الكفاءة
استُخدم في جيميني 1.5 أحدث أبحاثنا حول بنية الترانسفورمير وخليط الخبراء (MoE). في حين تعمل أداة الترانسفورمير التقليدية كشبكة عصبية كبيرة واحدة، تنقسم نماذج خليط الخبراء إلى شبكات عصبية أصغر من "الخبراء".
حسب نوع المدخلات المقدمة، تتعلم نماذج خليط الخبراء على تنشيط المسارات المتخصصة الأكثر صلة فقط في شبكتها العصبية. وهذا التخصص يعزز كفاءة النموذج بشكل كبير. كانت Google من أوائل من تبنوا أسلوب خليط الخبراء وطوروه للتعلم العميق من خلال أبحاث مثل Sparsely-Gated MoE و GShard-Transformer و Switch-Transformer و M4 وغيرها.
تساعد ابتكاراتنا الأخيرة في بنية النموذج جيميني 1.5 على تعلم المهام المعقدة بشكل أسرع والحفاظ على الجودة، مع كونها أكثر كفاءة في التدريب والاستخدام. تساعد هذه الكفاءات فرقنا على تكرار وتدريب وتقديم إصدارات أكثر تقدمًا من جيميني بشكل أسرع من أي وقت مضى، ونحن نعمل على مزيد من التحسينات.
سياق أكبر وقدرات أكثر فائدة
تتكون "نافذة السياق" الخاصة بنموذج الذكاء الاصطناعي من "رموز"، وهي اللبنات الأساسية المستخدمة لمعالجة المعلومات. يمكن أن تكون الرموز أجزاء كاملة أو أقسام فرعية من الكلمات أو الصور أو مقاطع الفيديو أو الصوت أو الكود. وكلما كبر نافذة السياق الخاصة بالنموذج، زادت المعلومات التي يمكنه استيعابها ومعالجتها في موجه معين - مما يجعل ناتجه أكثر تناسقًا وارتباطًا وفائدة.
من خلال سلسلة من ابتكارات التعلم الآلي، قمنا بزيادة سعة نافذة السياق لـ 1.5 Pro إلى أبعد بكثير من الـ 32،000 رمز الأصلية لجيميني 1.0. يمكننا الآن تشغيل ما يصل إلى 1 مليون رمز في الإنتاج.
يعني هذا أن 1.5 Pro يمكنه معالجة كميات هائلة من المعلومات في المرة الواحدة - بما في ذلك ساعة واحدة من الفيديو و 11 ساعة من الصوت وقواعد بيانات بها أكثر من 30،000 سطر من الكود أو أكثر من 700،000 كلمة. وقد نجحنا أيضًا في اختبار ما يصل إلى 10 ملايين رمز في أبحاثنا.
استنتاج معقد حول كميات كبيرة من المعلومات
يمكن لـ 1.5 Pro تحليل وتصنيف وتلخيص كميات كبيرة من المحتوى بسلاسة ضمن نطاق موجه معين. على سبيل المثال، عند إعطائه نصوص من 402 صفحة من مهمة أبولو 11 إلى القمر، يمكنه الاستنتاج حول المحادثات والأحداث والتفاصيل الموجودة عبر المستند.
فهم واستدلال أفضل عبر الوسائط المتعددة
يمكن لـ 1.5 Pro تنفيذ مهام فهم واستدلال متطورة للغاية لمختلف الوسائط، بما في ذلك الفيديو. على سبيل المثال، عند إعطائه فيلم صامت مدته 44 دقيقة لبستر كيتون، يمكن للنموذج تحليل نقاط مختلفة من الحبكة والأحداث بدقة، وحتى الاستدلال على تفاصيل صغيرة يمكن تفويتها بسهولة في الفيلم.
حل أكثر صلة للمشاكل باستخدام كتل أكبر من الكود
يمكن لـ 1.5 Pro تنفيذ مهام حل مشكلات أكثر صلة عبر كتل أكبر من الكود. عند إعطائه موجه بأكثر من 100،000 سطر من الكود، يمكنه بشكل أفضل الاستدلال عبر الأمثلة، واقتراح تعديلات مفيدة، وتقديم تفسيرات حول كيفية عمل أجزاء مختلفة من الكود.
أداء محسن
عند اختباره على لوحة شاملة من تقييمات النص والرمز والصورة والصوت والفيديو، يتفوق 1.5 Pro على 1.0 Pro في 87٪ من معايير التقييم المستخدمة لتطوير نماذج اللغة الكبيرة لدينا (LLMs). وعند مقارنته بـ 1.0 Ultra على معايير التقييم نفسها، فإنه يعمل بمستوى مشابه إلى حد كبير.
يحافظ Gemini 1.5 Pro على مستويات عالية من الأداء حتى مع زيادة نافذة السياق الخاصة به. في تقييم "الإبرة في كومة قش" (NIAH)، حيث يتم وضع قطعة صغيرة من النص تحتوي على حقيقة أو بيان معين عمدًا داخل كتلة طويلة من النص، وجد 1.5 Pro النص المضمن 99٪ من الوقت، في كتل بيانات تصل إلى 1 مليون رمز.
يظهر Gemini 1.5 Pro أيضًا مهارات "تعلم في السياق" مثيرة للإعجاب، مما يعني أنه يمكنه تعلم مهارة جديدة من المعلومات المقدمة في موجه طويل، دون الحاجة إلى ضبط دقيق إضافي. قمنا باختبار هذه المهارة على معيار ترجمة الآلة من كتاب واحد (MTOB)، والذي يوضح مدى جودة تعلم النموذج من المعلومات التي لم يرها من قبل. عند إعطائه دليل قواعد النحو للكلمنج، وهي لغة بها أقل من 200 متحدث في جميع أنحاء العالم، يتعلم النموذج ترجمة اللغة الإنجليزية إلى الكلمنج بمستوى مشابه لشخص يتعلم من نفس المحتوى.
وبما أن نافذة السياق الطويلة لـ 1.5 Pro هي الأولى من نوعها بين النماذج واسعة النطاق، تعمل جوجل، حسب البيان، باستمرار على تطوير تقييمات ومعايير جديدة لاختبار قدراتها المبتكرة. لمعرفة المزيد من التفاصيل، يرجى الرجوع إلى تقريرنا الفني حول Gemini 1.5 Pro.
اختبارات أخلاقية وسلامة مكثفة
تماشيًا مع مبادئ الذكاء الاصطناعي وسياسات السلامة الصارمة لدينا، تقول الشركة إنها تأمل أن تخضع نماذجنا لاختبارات أخلاقية وسلامة مكثفة. ثم تقوم بدمج نتائج هذه الأبحاث في عمليات الحوكمة وتطوير النماذج وتقييماتها لتحسين أنظمة الذكاء الاصطناعي لدينا باستمرار.
منذ تقديم 1.0 Ultra في ديسمبر، واصلت فرق جوجل تحسين النموذج، مما يجعله أكثر أمانًا لإصدار أوسع. كما أجرينا بحثًا جديدًا حول مخاطر السلامة وطورنا تقنيات "فريق أحمر" لاختبار مجموعة من الأضرار المحتملة.
قبل إصدار 1.5 Pro، تقول الشركة، واصلنا "نفس النهج لنشر مسؤول كما فعلنا بالنسبة لنماذج Gemini 1.0 الخاصة بنا، حيث أجرينا تقييمات مكثفة في مجالات تشمل سلامة المحتوى والأضرار التمثيلية، وسنواصل توسيع هذا الاختبار. علاوة على ذلك، نطور المزيد من الاختبارات التي تأخذ في الاعتبار قدرات السياق الطويل الجديدة لـ 1.5 Pro".