الناس يقمعون الذكاء الاصطناعي من خلال جعلها تجعل الكرات ترتد في الأشكال الدوارة

الناس يقمعون الذكاء الاصطناعي من خلال جعلها تجعل الكرات ترتد في الأشكال الدوارة

تستمر قائمة المعايير غير الرسمية والغريبة في النمو.

على مدار الأيام القليلة الماضية ، لدى بعض في مجتمع الذكاء الاصطناعي على X يصبح مهووس من خلال اختبار كيف أن نماذج الذكاء الاصطناعى المختلفة ، وخاصة ما يسمى نماذج التفكير المنطقية ، تتعامل مع مثل هذا: “اكتب نصًا بيثون لكرة صفراء كذاب داخل الشكل. اجعل الشكل يدور ببطء ، وتأكد من أن الكرة تبقى داخل الشكل. “

تدير بعض النماذج بشكل أفضل على معيار “الكرة في الشكل الدوار” من غيرها. حسب بالنسبة إلى مستخدم واحد على X ، اجتاحت R1 R1 من AI Labs من AI Labseek الأرضية مع وضع O1 Pro Openai ، والذي يكلف 200 دولار شهريًا كجزء من خطة ChatGpt Pro Openai.

لكل ملصق X آخرأساءت كلود 3.5 Sonnet’s Hothropic’s Claude 3.5 Models Gemini 1.5 Pro في الفيزياء ، مما أدى إلى هروب الكرة. آخر المستخدمون ذكرت أن Gemini 2.0 Flash Thinking التجريبية ، وحتى GPT-4O الأقدم من Openai ، قد أدى إلى التقييم دفعة واحدة.

ولكن ما الذي يثبت أن الذكاء الاصطناعى يمكنه أو لا يمكنه ترميز شكل دوار يحتوي على الكرة؟

حسنًا ، محاكاة كرة الارتداء هي كلاسيكي برمجة تحدي. تتضمن عمليات المحاكاة الدقيقة خوارزميات اكتشاف التصادم ، والتي تحاول تحديد وقت تصادم كائنين (مثل الكرة وجانب الشكل). يمكن أن تؤثر الخوارزميات المكتوبة بشكل سيئ على أداء المحاكاة أو تؤدي إلى أخطاء فيزياء واضحة.

x مستخدم برامج N8يقول باحث في الإقامة في AI Startup Nous Research ، إن الأمر استغرق منه ساعتين تقريبًا لبرمجة كرة كذبة في سحر دوار من الصفر. “يتعين على المرء تتبع أنظمة إحداثيات متعددة ، وكيفية القيام بالتصادمات في كل نظام ، وتصميم الكود من البداية لتكون قوية” ، أوضحت برامج N8 في أ بريد.

ولكن في حين أن كرات الكرات والأشكال الدوارة هي اختبار معقول لمهارات البرمجة ، إلا أنها ليست معيارًا تجريبيًا للغاية من الذكاء الاصطناعي. حتى الاختلافات الطفيفة في المطالبة يمكن أن تسفر عن نتائج مختلفة. لهذا السبب يقوم بعض المستخدمين على X بتقديم المزيد من الحظ مع O1بينما يقول آخرون ذلك R1 تقصر.

إذا كان هناك أي شيء ، فإن الاختبارات الفيروسية مثل هذه تشير إلى المشكلة المستعصية المتمثلة في إنشاء أنظمة مفيدة لقياس نماذج الذكاء الاصطناعى. غالبًا ما يكون من الصعب معرفة ما الذي يميز نموذجًا عن الآخر ، خارج المعايير الباطنية غير ذات صلة بمعظم الناس.

تجري العديد من الجهود لبناء اختبارات أفضل ، مثل اختبار ARC-AAGI والامتحان الأخير للبشرية. سنرى كيف تلك الأجرة – وفي الوقت نفسه شاهد صور الكرات من الكرات في الأشكال الدوارة.



المراجع المصدرية

You might also like