أطلقت شركة DeepSeek نموذجها الجديد، DeepSeek Prover V2 -671B، على منصة Hugging Face مفتوحة المصدر، ويعتمد النموذج على بنية DeepSeek-V3، ويضم 671 مليار معلمة.
ونستعرض خلال السطور التالية كل ما يخص نموذج DeepSeek Prover V2
نموذج DeepSeek Prover V2
ويتميز نموذج DeepSeek Prover V2، بعدد من المواصفات تتمثل فيما يلي:
- يتضمن DeepSeek-Prover-V2 61 طبقة محول بحجم مخفي يبلغ 7,168. يدعم المهام طويلة السياق مع حد أقصى لتضمين المواقع يصل إلى 163,840 رمزًا.
- يتوافق النموذج مع تنسيق ملفات safetensors وأنواع الدقة المختلفة لتحسين كفاءة التدريب ونشره. كما يتضمن تكميم FP8 لتقليل الحجم وتحسين أداء الاستدلال.
- يعد هذا الإصدار ترقية من طراز Prover-V1.5 الذي تم تقديمه العام الماضي.
- يبرز التفكير الرياضي باعتباره الحدود الجديدة للذكاء الاصطناعي: حيث يمثل نموذج 671B-parameter من DeepSeek تركيزًا متزايدًا على قدرات التفكير الرياضي التي تعمل على إعادة تشكيل أولويات تطوير الذكاء الاصطناعي عبر الصناعة.
تطور قدرات الذكاء الاصطناعي
يأتي هذا التحول في أعقاب تقدم تاريخي حيث تطورت قدرات الذكاء الاصطناعي من الشبكات العصبية الأساسية في أربعينيات القرن العشرين إلى أنظمة التفكير المتطورة اليوم، ويتوقع علماء الرياضيات الرائدون الآن أن الذكاء الاصطناعي سيحول البحث الرياضي من خلال أتمتة تطوير الأدلة، وتوليد التخمينات، وتقليل الحواجز أمام الدخول في المجالات الرياضية المعقدة.
يُعتبر دمج الذكاء الاصطناعي مع التفكير الرياضي الرسمي أمرًا ضروريًا لتعزيز الاكتشاف في الرياضيات والمجالات العلمية ذات الصلة، مع تطبيقات تمتد إلى التحقق من البرامج وإثبات النظريات، إذ أصبح هذا التركيز على التفكير الرياضي معيارًا تنافسيًا رئيسيًا، حيث سلطت شركات مثل DeepSeek وOpenAI وAlibaba الضوء بشكل خاص على أداء نماذجها في اختبارات الرياضيات مثل AIME وMATH-5004.

استخدام نموذج DeepSeek Prover V2
يوضح استخدام نموذج DeepSeek Prover V2 لنهج مزيج الخبراء (MoE) كيف يتعامل مطورو الذكاء الاصطناعي مع تحديات الكفاءة الحسابية في النماذج واسعة النطاق، ويقوم هذا الهيكل بتنشيط النماذج الفرعية ذات الصلة فقط لمهام محددة، مما يسمح لنموذج R1 الخاص بـ DeepSeek باستخدام 37 مليارًا فقط من معلماته البالغ عددها 671 مليارًا بشكل فعال أثناء التشغيل، مما يقلل بشكل كبير من المتطلبات الحسابية.
أصبحت مكاسب الكفاءة من بنية MoE اتجاهًا واسع النطاق في الصناعة، حيث تستخدم نماذج Llama 4 من Meta هذه التقنية بشكل مماثل لتحسين الاستدلال دون التضحية بالأداء، وطورت شركة DeepSeek نموذج R1 الخاص بها بتكلفة 5.6 مليون دولار تقريبًا باستخدام 2048 وحدة معالجة رسومية من نوع Nvidia H800 - والتي يُقال إنها تمثل حوالي 5% من تكلفة النماذج المنافسة ذات القدرات المماثلة - مما يسلط الضوء على كيفية جعل الابتكارات المعمارية الذكاء الاصطناعي المتقدم أكثر سهولة في الوصول إليه اقتصاديًا، ومكّن هذا النهج شركة DeepSeek من الحفاظ على أداء مماثل للأنظمة الملكية الأكبر حجمًا مع جعل تكنولوجيتها متاحة بموجب ترخيص متساهل، مما ساهم في أكثر من 500 نموذج مشتق على منصات مثل Hugging Face4.
نماذج مفتوحة المصدر تتحدى هيمنة الذكاء الاصطناعي الملكية
يواصل إصدار نموذج DeepSeek Prover V2 على Hugging Face التحول الكبير في مشهد الذكاء الاصطناعي حيث تتنافس البدائل مفتوحة المصدر بشكل متزايد مع الأنظمة المغلقة من شركات التكنولوجيا الكبرى، وحققت إصدارات الشركة النموذجية أكثر من 10 ملايين عملية تنزيل، مما يدل على اعتماد كبير من قبل المطورين على الرغم من كونها شركة جديدة نسبيًا تأسست في عام 20239.
وتظهر نماذج الذكاء الاصطناعي الصينية مثل DeepSeek كمنافسين عالميين مهمين على الرغم من التحديات التنظيمية والقيود المفروضة على التصدير والتي تحد من الوصول إلى الأجهزة المتطورة مثل أقوى شرائح Nvidia.5،4.
تدفع هذه المنافسة الابتكار على مستوى الصناعة في قدرات التفكير الرياضي، حيث أطلقت Alibaba مؤخرًا QwQ-32B للتنافس مباشرة مع R-1 من DeepSeek وo1 من OpenAI، على الرغم من وجود معلمات أقل بكثير (32 مليار مقابل 671 مليار من DeepSeek).10.
إخلاء مسؤولية إن موقع عاجل نيوز يعمل بطريقة آلية دون تدخل بشري،ولذلك فإن جميع المقالات والاخبار والتعليقات المنشوره في الموقع مسؤولية أصحابها وإداره الموقع لا تتحمل أي مسؤولية أدبية او قانونية عن محتوى الموقع.