ذكاء اصطناعي يُكافئ ويُطور نفسه بنفسه من 'ديب سيك'!

الشركة الصينية الناشئة تطور نموذجًا من برنامجها قادرًا على تحسين نفسه ذاتيًا من خلال أسلوب جديد قائم على النقد والمكافأة التوليدية في تقدم يفتح الباب لعصر جديد من محاكاة العقل البشري المتطورة بتكلفة منخفضة.

بكين - منذ بضعة أشهر فقط، واجهت وول ستريت صدمة حقيقية في رهانها الكبير على الذكاء الاصطناعي التوليدي، وذلك عند ظهور "ديب سيك" على الساحة. ورغم طبيعته المفتوحة المصدر والمراقبة بشدة، أثبت "ديب سيك" أن تطوير نموذج ذكاء اصطناعي متقدّم في الاستدلال لا يتطلب بالضرورة مليارات الدولارات، بل يمكن تحقيقه بموارد متواضعة.

وسرعان ما تبنته شركات عملاقة مثل "هواوي" و"أوبو" و"فيفو"، بينما سارعت منصات مثل "مايكروسوفت" و"علي بابا" و"تنسنت" إلى منحه مكاناً ضمن منظوماتها. والآن، تستهدف الشركة الصينية المثيرة للانتباه الجيل الجديد من نماذج الذكاء الاصطناعي القادرة على تحسين نفسها ذاتيًا، من خلال مقاربة تُعرف باسم "الحكم والمكافأة المتكررة".

في ورقة بحثية أولية (نقلاً عن "بلومبرغ")، يصف باحثو "ديب سيك" وجامعة "تسينغهوا" الصينية نهجاً جديداً قد يجعل نماذج الذكاء الاصطناعي أكثر ذكاءً وكفاءة بطريقة ذاتية التحسين. التقنية الأساسية تُدعى الضبط عبر النقد الذاتي المبدئي، وتندرج تحت ما يُعرف تقنياً باسم نمذجة المكافآت التوليدية.

ببساطة، يشبه هذا النهج إنشاء حلقة تغذية راجعة في الزمن الحقيقي. ففي العادة، يتم تحسين أداء النموذج من خلال توسيع حجمه أثناء التدريب، وهو أمر يتطلب موارد بشرية وحوسبية ضخمة. أما ما تقترحه "ديب سيك"، فهو نظام يحتوي على "قاضٍ داخلي" يقدم ملاحظات ومبادئ نقدية خاصة به أثناء إعداد النموذج لإجابة ما.

قاضٍ داخلي يقدم ملاحظات ومبادئ نقدية خاصة به أثناء إعداد النموذج لإجابة ما

تُقارن هذه المبادئ والملاحظات بالقواعد الثابتة داخل النموذج والنتيجة المرغوبة. فإذا حصل تطابق كبير، يتم توليد إشارة مكافأة توجه النموذج ليقدم أداءً أفضل في الدورة التالية.

ويُطلق على هذه النماذج القادمة اسم "ديب سيك" - نمذجة المكافآت التوليدية. وتُظهر نتائج المقارنة المنشورة في الورقة أنها تتفوق على نماذج مثل "جيميني" من غوغل، و"لاما" من ميتا، و"جي بي تي-4 أو" من "أوبن آي آي". وتؤكد "ديب سيك" أن هذه النماذج المتقدمة ستُطرح عبر القنوات المفتوحة المصدر.

لكن هل يمكن فعلاً للذكاء الاصطناعي أن يُحسّن نفسه؟

الموضوع أثار العديد من الآراء الطموحة وحتى المثيرة للجدل. فمثلًا، الرئيس التنفيذي السابق لغوغل، "إيريك شميت"، صرّح بأنه "حين يصبح النظام قادراً على تحسين نفسه، علينا التفكير بجدية في فصل الكهرباء عنه". الفكرة ليست جديدة تماماً، إذ تعود جذورها إلى الرياضي "آي. جي. غود" عام 1965، عندما تحدث عن آلة فائق الذكاء تستطيع لاحقاً تصميم آلات أفضل منها. كما تناول الباحث "إيليزر يودكوفسكي" هذا المفهوم عام 2007 فيما يُعرف بـ"الذكاء الاصطناعي البذري".

في سنة 2024، كشفت شركة "ساكانا للذكاء الاصطناعي" اليابانية عن مفهوم "العالِم الذكاء الاصطناعي"، وهو نظام قادر على إنجاز عملية البحث العلمي من بدايتها إلى نهايتها. وفي آذار/مارس الماضي، نشرت "ميتا" دراسة حول نماذج لغوية تمنح نفسها المكافآت، حيث يقوم الذكاء الاصطناعي نفسه بدور القاضي خلال التدريب.

كما صرّح "ساتيا ناديلا"، الرئيس التنفيذي لـ"مايكروسوفت"، أن تطوير الذكاء الاصطناعي دخل مرحلة "التكرار الذاتي"، قائلاً: "نحن نستخدم الذكاء الاصطناعي لبناء أدوات ذكاء اصطناعي لصنع ذكاء اصطناعي أفضل".

وبينما أجرت ميت" اختبارات داخلية على نموذج "لاما 2" باستخدام هذه التقنية الجديدة، أظهرت النتائج تفوقه على نماذج مثل "كلود 2" من "أنثروبيك"، و"جيميني برو" من "غوغل"، و"جي بي تي-4" من "أوبن آي آي". ومن جهتها، شرحت شركة "أنثروبيك" مشكلة تُعرف بـ"التلاعب بالمكافآت"، حيث يُعدل النموذج آلية مكافأته الذاتية بشكل غير متوقع.

أما غوغل، فهي أيضًا تعمل على تقنيات مشابهة، حيث عرض خبراؤها في "ديب مايند" خوارزمية تدعى الحالم، قادرة على تحسين نفسها من خلال لعبة "ماينكرافت" كنموذج تطبيقي.

كما يعمل باحثو "آي بي إم" على مقاربة تُسمى "التدريب عبر الإغلاق الاستنتاجي"، حيث يستخدم النموذج إجاباته الخاصة ويقيّمها مقابل بيانات التدريب لتحسين أدائه.

لكن الصورة ليست وردية تماماً، فقد أظهرت الدراسات أن تدريب الذكاء الاصطناعي على بيانات تركيبية من إنتاجه الذاتي قد يؤدي إلى مشكلات تُعرف باسم "انهيار النموذج". وسيكون من المثير للاهتمام أن نرى كيف ستُنفّذ "ديب سيك" فكرتها، وهل يمكنها القيام بذلك بشكل أكثر اقتصاداً مقارنة بمنافسيها الغربيين؟