*
الثلاثاء: 20 يناير 2026
  • 20 يناير 2026
  • 15:12
3 مجالات يتفوق فيها شات جي بي تي على جيميني

خبرني - في ظل الانتشار الهائل لتطبيقات الذكاء الاصطناعي، باتت المقارنة بين الأنظمة الكبرى مثل شات جي بي تي من "OpenAI" وجيميني من "غوغل" أمرًا معقدًا، خصوصًا مع التسارع الكبير في وتيرة التطوير.

ففي ديسمبر 2025، سادت تكهنات حول تراجع "OpenAI" في سباق الذكاء الاصطناعي، قبل أن تقلب الشركة المعادلة بإطلاق ChatGPT-5.2، الذي أعادها إلى صدارة معظم التصنيفات.

لكن مع تقارب قدرات النماذج اللغوية الضخمة، لم تعد المقارنات السطحية المبنية على إجابة واحدة لسؤال واحد كافية أو دقيقة.

فالردود بطبيعتها عشوائية جزئيًا، كما أن أسلوب المحادثة يمكن تخصيصه بسهولة. لذلك، يبقى الاحتكام إلى الاختبارات المعيارية (Benchmarks) هو الطريق الأكثر موضوعية لتقييم الأداء الحقيقي، بحسب تقرير نشره موقع "slashgear".


وفيما يلي ثلاثة معايير رئيسية يظهر فيها تفوق شات جي بي تي على جيميني، وفق أحدث النتائج المتاحة:

الإجابة عن أسئلة علمية معقدة
أول هذه المعايير هو اختبار GPQA Diamond، المصمم لقياس قدرات التفكير العلمي على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء.

ويُعرف هذا الاختبار بأسئلته المحصنة ضد "غوغل"، إذ لا يمكن حلها عبر البحث السريع، بل تتطلب ربط مفاهيم متعددة وتجنب الافتراضات الخاطئة.

في هذا الاختبار، سجل ChatGPT-5.2 نسبة 92.4%، متقدمًا بفارق طفيف على Gemini 3 Pro الذي حقق 91.9%.

وللمقارنة، يُتوقع من حملة الدكتوراه تحقيق نحو 65% فقط، بينما لا يتجاوز متوسط غير المتخصصين 34%، ما يبرز المستوى العالي لكلا النموذجين، مع أفضلية بسيطة لـ شات جي بي تي.

إصلاح مشكلات برمجية واقعية من عالم GitHub
المعيار الثاني هو SWE-Bench Pro (Private Dataset)، الذي يقيس قدرة الذكاء الاصطناعي على حل مشكلات برمجية حقيقية مأخوذة من بلاغات فعلية على منصة GitHub.

ويتطلب هذا الاختبار فهم قاعدة كود غير مألوفة، وتحليل وصف المشكلة، ثم تقديم حل عملي قابل للتنفيذ.

وفق النتائج، نجح ChatGPT-5.2 في حل نحو 24% من المشكلات، مقابل 18% فقط لـ جيميني.

ورغم أن هذه النسب تبدو متواضعة، فإن هذا الاختبار يُعد من الأصعب في مجاله، بينما ما زال البشر يتفوقون بحل 100% من هذه التحديات، ما يؤكد أن الذكاء الاصطناعي لا يزال بعيدًا عن مستوى مهندسي البرمجيات المحترفين.

حل الألغاز البصرية التجريدية
أما المعيار الثالث فهو ARC-AGI-2، المخصص لقياس التفكير التجريدي والقدرة على استنتاج الأنماط من أمثلة محدودة، وهو مجال يتفوق فيه البشر تقليديًا على الآلات.

في هذا الاختبار، حقق ChatGPT-5.2 Pro نسبة 54.2%، متقدمًا على معظم إصدارات جيميني، حيث سجل Gemini 3 Pro 31.1% فقط، بينما وصلت نسخة Gemini 3 Deep Think الأعلى تكلفة إلى 45.1%.

ويُعد هذا المجال أحد أبرز نقاط قوة شات جي بي تي مقارنةً ليس فقط بـ جيميني، بل بمعظم منافسيه الآخرين.

المنهجية: لماذا هذه المعايير تحديدًا؟
تعتمد نتائج اختبارات الذكاء الاصطناعي على إصدارات سريعة التغير، لذا جرى التركيز على أحدث النماذج المدفوعة: ChatGPT-5.2 وGemini 3.

وتم اختيار ثلاثة معايير فقط لتمثيل طيف واسع من المهارات، تشمل التفكير العلمي، وحل المشكلات البرمجية، والتفكير التجريدي.

ورغم وجود اختبارات أخرى يتفوق فيها جيميني، مثل بعض نسخ SWE-Bench أو اختبار Humanity’s Last Exam، فإن التركيز هنا كان على الحالات التي يظهر فيها تفوق شات جي بي تي بوضوح.

كما جرى استبعاد الدراسات القائمة على التفضيل الشخصي، مثل LLMArena، رغم أهميتها، علمًا بأن جيميني يتصدر حاليًا تفضيلات المستخدمين هناك.

تشير هذه الاختبارات إلى أن سباق الذكاء الاصطناعي لا يُحسم بتجربة واحدة أو انطباع شخصي، بل بأرقام ومعايير دقيقة، وفي هذه الجولة، يبدو أن شات جي بي تي يمتلك الأفضلية في ثلاث ساحات أساسية.

مواضيع قد تعجبك