الناس يقمعون الذكاء الاصطناعي من خلال جعلها تجعل الكرات ترتد في الأشكال الدوارة
تستمر قائمة المعايير غير الرسمية والغريبة في النمو.
على مدار الأيام القليلة الماضية ، لدى بعض في مجتمع الذكاء الاصطناعي على X يصبح مهووس من خلال اختبار كيف أن نماذج الذكاء الاصطناعى المختلفة ، وخاصة ما يسمى نماذج التفكير المنطقية ، تتعامل مع مثل هذا: “اكتب نصًا بيثون لكرة صفراء كذاب داخل الشكل. اجعل الشكل يدور ببطء ، وتأكد من أن الكرة تبقى داخل الشكل. “
تدير بعض النماذج بشكل أفضل على معيار “الكرة في الشكل الدوار” من غيرها. حسب بالنسبة إلى مستخدم واحد على X ، اجتاحت R1 R1 من AI Labs من AI Labseek الأرضية مع وضع O1 Pro Openai ، والذي يكلف 200 دولار شهريًا كجزء من خطة ChatGpt Pro Openai.
👀 Deepseek R1 (يمين) سحق O1-Pro (يسار) 👀
موجه: “اكتب نصًا بيثون للكرة الصفراء المرتدة داخل مربع ، تأكد من التعامل مع اكتشاف الاصطدام بشكل صحيح. اجعل المربع يدور ببطء. تنفيذها في بيثون. تأكد من بقاء الكرة داخل المربع ” pic.twitter.com/3sad9efpez
– إيفان فيورافانتي ᯅ (ivanfioravanti) 22 يناير 2025
لكل ملصق X آخرأساءت كلود 3.5 Sonnet’s Hothropic’s Claude 3.5 Models Gemini 1.5 Pro في الفيزياء ، مما أدى إلى هروب الكرة. آخر المستخدمون ذكرت أن Gemini 2.0 Flash Thinking التجريبية ، وحتى GPT-4O الأقدم من Openai ، قد أدى إلى التقييم دفعة واحدة.
تم اختبار 9 نماذج منظمة العفو الدولية على مهمة محاكاة الفيزياء: تدوير المثلث + كرة كذاب. نتائج:
🥇 Deepseek-R1
🥈 السونار ضخمة
🥉 GPT-4Oأسوأ؟ Openai O1: أسيء فهم المهمة تمامًا 😂
الفيديو أدناه ↓ الصف الأول = نماذج التفكير ، REST = النماذج الأساسية. pic.twitter.com/eoyrhvnazr
– aadhithya d (@aadhithya_d2003) 22 يناير 2025
ولكن ما الذي يثبت أن الذكاء الاصطناعى يمكنه أو لا يمكنه ترميز شكل دوار يحتوي على الكرة؟
حسنًا ، محاكاة كرة الارتداء هي كلاسيكي برمجة تحدي. تتضمن عمليات المحاكاة الدقيقة خوارزميات اكتشاف التصادم ، والتي تحاول تحديد وقت تصادم كائنين (مثل الكرة وجانب الشكل). يمكن أن تؤثر الخوارزميات المكتوبة بشكل سيئ على أداء المحاكاة أو تؤدي إلى أخطاء فيزياء واضحة.
x مستخدم برامج N8يقول باحث في الإقامة في AI Startup Nous Research ، إن الأمر استغرق منه ساعتين تقريبًا لبرمجة كرة كذبة في سحر دوار من الصفر. “يتعين على المرء تتبع أنظمة إحداثيات متعددة ، وكيفية القيام بالتصادمات في كل نظام ، وتصميم الكود من البداية لتكون قوية” ، أوضحت برامج N8 في أ بريد.
ولكن في حين أن كرات الكرات والأشكال الدوارة هي اختبار معقول لمهارات البرمجة ، إلا أنها ليست معيارًا تجريبيًا للغاية من الذكاء الاصطناعي. حتى الاختلافات الطفيفة في المطالبة يمكن أن تسفر عن نتائج مختلفة. لهذا السبب يقوم بعض المستخدمين على X بتقديم المزيد من الحظ مع O1بينما يقول آخرون ذلك R1 تقصر.
إذا كان هناك أي شيء ، فإن الاختبارات الفيروسية مثل هذه تشير إلى المشكلة المستعصية المتمثلة في إنشاء أنظمة مفيدة لقياس نماذج الذكاء الاصطناعى. غالبًا ما يكون من الصعب معرفة ما الذي يميز نموذجًا عن الآخر ، خارج المعايير الباطنية غير ذات صلة بمعظم الناس.
تجري العديد من الجهود لبناء اختبارات أفضل ، مثل اختبار ARC-AAGI والامتحان الأخير للبشرية. سنرى كيف تلك الأجرة – وفي الوقت نفسه شاهد صور الكرات من الكرات في الأشكال الدوارة.