أعلنت شركة شاومي الصينية عن إطلاق Xiaomi - Robotics - 0، وهو أول نموذج ضخم لها في مجال الروبوتات يدمج بين الرؤية والفهم اللغوي والتنفيذ الحركي الفعلي. ويضمّ هذا النموذج 4.7 مليار معلمة، محققًا أرقامًا قياسية في الاختبارات الافتراضية والواقعية، في ما تصفه الشركة بخطوة جادة نحو تحقيق "الذكاء الفيزيائي".

ويعتمد نموذج Xiaomi - Robotics - 0 على معمارية متطورة تسمّى (Mixture - of - Transformers)، وينقسم العمل فيه إلى مكونين أساسيين؛ الأول وهو النموذج البصري اللغوي (VLM) الذي يعمل بمنزلة "الدماغ" للروبوت، حيث يتولى فهم التعليمات البشرية حتّى لو كانت غامضة، مثل طلب "طي المنشفة"، بالإضافة إلى معالجة كشف الأشياء والتفكير المنطقي.

أما المكون الثاني، وهو خبير الحركة الذي يعتمد على تقنية (Diffusion Transformer) لإنتاج تسلسل حركات سلسة ودقيقة، مع ضمان الحفاظ على الأداء الإدراكي العالي للنموذج في أثناء التعلم الحركي.

تدريب مبتكر وتقنيات لتقليل زمن الاستجابة

يتميّز النموذج بقدرته على التدرب على البيانات البصرية والحركية بشكل مشترك، وهو ما يمنع فقدان القدرة على الفهم في أثناء تعلم مهام فيزيائية جديدة. كذلك طورت شاومي تقنيات لتقليل زمن الاستجابة وضمان استقرار الحركة، منها استخدام ميزة (Λ-shaped attention mask) التي تجعل الروبوت يركز على المدخلات البصرية اللحظية بدلًا من الاعتماد المفرط على الحالات السابقة.

نتائج قياسية في الاختبارات الواقعية

سجل النموذج نتائج استثنائية في محاكيات عالمية مثل (LIBERO) و(CALVIN)، متفوقًا على نحو 30 نموذجًا منافسًا. وعلى أرض الواقع، جرى اختبار النموذج على روبوت ذي ذراعين، حيث أظهر كفاءة عالية في مهام معقّدة وطويلة مثل تفكيك المكعبات والتعامل مع المواد المرنة والصلبة، مما يضع شاومي بقوة على خارطة البحث المتقدم في مجال الروبوتات الكبيرة التي تجمع بين الإدراك والتنفيذ.

