جنرال لواء

يمكن لنظام الروبوتات الجديد هذا أن يتعلم مهمة جديدة بسهولة


تم تصميم نظام روبوتات ذكاء اصطناعي لتعلم مهمة جديدة بمجرد رؤيتها تُنجز مرة واحدة. قامت شركة أوبن إيه آي لأبحاث الذكاء الاصطناعي غير الهادفة للربح بتدريب نظام الروبوتات فقط من المحاكاة وتطبيقه على روبوت مادي. تتمثل مهمة الشركة في بناء ذكاء اصطناعي عام آمن وضمان توزيع فوائده بشكل علني.

[مصدر الصورة: أوبن إيه آي]

نظام الروبوتات

تعمل شبكة الرؤية وشبكة التقليد على تشغيل النظام ، مما يسمح للإنسان الآلي بتعلم سلوك جديد تم توضيحه بواسطة جهاز محاكاة. يمكن للنظام الآلي بعد ذلك تكرار هذا السلوك المحدد في إعدادات مختلفة داخل العالم الحقيقي. تلتقط الكاميرا المدمجة داخل الروبوت صورة يتم ابتلاعها بواسطة شبكة الرؤية ، ثم تُخرج حالة تمثل موضع الكائن. بعد العمل السابق لمجموعة البحث ، تم تدريب شبكة الرؤية بمئات الآلاف من الصور الافتراضية التي بها اضطرابات مختلفة في الإضاءة والقوام والأشياء. ومع ذلك ، فإن شبكة الرؤية لا تمارس أو تتدرب باستخدام الصور الحقيقية.

تعمل شبكة التقليد تمامًا كما يوحي اسمها. من خلال مراقبة العرض التوضيحي ، تعالج الشبكة الحركات المرئية ثم تقلد نية المهمة من تكوين البداية. يتيح ذلك للشبكة تقريب العرض التوضيحي إلى إعداد جديد.

[مصدر الصورة: أوبن إيه آي]

لكل مهمة ، يتم استخدام آلاف العروض التوضيحية لتدريب شبكة التقليد. تتكون الجلسة التدريبية من عرضين توضيحيين يقومان بنفس المهمة بالضبط. يتم تقديم العرض الأول للشبكة التي يتعين عليها بعد ذلك مراقبة العرض التوضيحي الثاني مرة واحدة فقط. يتم وضع التعلم الخاضع للإشراف للتنبؤ بعمل المتظاهر في تلك الملاحظة. الروبوت قادر على التنبؤ بالإجراءات بشكل فعال من خلال تعلم كيفية استنتاج الجوهر الرئيسي للمهمة باستخدام العرض التوضيحي الأول.

من خلال العمل المستمر للفريق ، تلقت شبكة التقليد خوارزمية جديدة تسمى التعلم المحاكي طلقة واحدة. تسمح هذه الخوارزمية للإنسان بتنفيذ مهمة جديدة عن طريق القيام بها في الواقع الافتراضي. من عرض توضيحي واحد ، يمكن لنظام الروبوتات حل نفس المهمة بالبدء من تكوين عشوائي.

مهمة كتلة التراص

تم تجهيز الروبوت بشبكات الرؤية والتقليد ، حيث تم اختباره عن طريق جعله يقوم بأداء روتين تكديس الكتل الموضح عبر الواقع الافتراضي الذي يتحكم فيه الإنسان. قام الفريق بتزويد الروبوت ببيانات تدريب تتكون من أزواج من المسارات التي تكدس الكتل في مجموعة مماثلة من الأبراج بنفس الترتيب ولكن تبدأ من حالة بداية مختلفة.

كان على الفريق إدخال قدر من الضوضاء في مخرجات السياسة المكتوبة للنظام حتى تتعلم شبكة التقليد سياسة قوية. من خلال استخدام بيانات الضوضاء ، تمكن نظام الروبوتات من توضيح كيفية إعادة تجميع نفسه عندما يحدث خطأ ما. نتج عن ذلك شبكة تقليد أكثر ذكاءً تتعامل مع الانحرافات والاضطرابات من سياسة النص غير الكاملة.

إذا كنت مهتمًا بأن تكون جزءًا من مشروع الروبوتات هذا ، فيمكنك الانضمام إلى OpenAI في مقرها الرئيسي في سان فرانسيسكو.

مصدر: أوبن إيه آي

انظر أيضًا: هل سيشكل الذكاء الاصطناعي نهاية الذكاء البشري؟


شاهد الفيديو: حل حاسب 1 المرحلة الثانوية (شهر اكتوبر 2021).