اپل به تازگی در یک مقاله تحقیقاتی با عنوان “سیاست انسان نما برابر با سیاست انسانی” روش تازه ای برای آموزش ربات های انسان نما معرفی کرده است. در این روش، انسان ها با کمک هدست اپل Vision Pro حرکاتی را انجام می دهند و ربات ها از آن یاد می گیرند.
همکاری اپل با دانشگاه های معتبر
این پروژه حاصل همکاری بین اپل، دانشگاه MIT، کارنگی ملون، دانشگاه واشنگتن و دانشگاه UC سن دیگو است. هدف اصلی پروژه بررسی این موضوع است که آیا می توان از ویدیوهای اول شخص انسان ها هنگام کار با اشیا برای آموزش ربات ها استفاده کرد یا نه.
برای این کار، محققان بیش از 25000 نمونه از حرکات انسانی و حدود 1500 حرکت انجام شده توسط ربات را ثبت کردند. مجموعه داده به دست آمده PH2D نام گرفت. سپس این اطلاعات وارد یک سیاست هوش مصنوعی یکپارچه شد. این مدل توانست یک ربات واقعی را در دنیای فیزیکی کنترل کند.
داده های انسانی به جای داده های پرهزینه رباتیک
در توضیح این روش آمده است که آموزش ربات های انسان نما با داده های متنوع، به افزایش توانایی آن ها در انجام وظایف مختلف کمک می کند. اما جمع آوری داده فقط از طریق خود ربات ها هزینه بالا و زمان زیادی نیاز دارد. همچنین مقیاس پذیر نیست.
راه حل پیشنهادی این تحقیق استفاده از حرکات واقعی انسان ها به صورت اول شخص بود. این داده ها برای آموزش ربات ها در نظر گرفته شد. به عبارت دیگر، انسان ها راه را به ربات ها نشان می دهند.
جمع آوری داده با اپلیکیشن Vision Pro
برای ثبت این حرکات، تیم تحقیقاتی اپلیکیشنی برای Apple Vision Pro توسعه داد. این برنامه با استفاده از دوربین پایین سمت چپ هدست و فناوری ARKit، حرکات سر و دست انسان را به صورت سه بعدی ردیابی و ثبت می کند.
اما چون هدست اپل قیمت بالایی دارد، محققان یک پایه چاپ سه بعدی طراحی کردند. این پایه به آن ها اجازه داد تا دوربین ZED Mini Stereo را روی هدست های دیگر مانند Meta Quest 3 نصب کنند. نتیجه نهایی سیستمی بود که می توانست با هزینه کمتر داده های سه بعدی با کیفیت بالا ثبت کند.
سرعت پایین تر انسان برای همگام سازی با ربات
یکی از چالش ها سرعت زیاد حرکت انسان در مقایسه با ربات بود. برای حل این موضوع، محققان تصمیم گرفتند ویدیوهای ضبط شده را در مرحله آموزش با سرعت یک چهارم پخش کنند. این کار باعث شد ربات ها بهتر بتوانند با سرعت حرکات انسانی هماهنگ شوند.
معرفی مدل Human Action Transformer
هسته اصلی این تحقیق مدلی به نام HAT یا مبدل حرکات انسانی بود. این مدل با استفاده همزمان از داده های انسان و ربات آموزش دید. برخلاف روش های سنتی که داده ها را جدا می کنند، HAT از یک سیاست مشترک استفاده کرد.
این روش یکپارچه باعث شد مدل نهایی بتواند عملکرد بهتری در انجام وظایف جدید و دشوار از خود نشان دهد. حتی در مواردی که ربات قبلا چنین وظایفی را ندیده بود.
نمودارها نشان می دهند که مجموعه داده PH2D در مقایسه با روش های قدیمی، داده های گسترده تر و متنوع تری دارد. همین تنوع باعث شده دقت و انعطاف مدل آموزش دیده افزایش پیدا کند.
نتایج این تحقیق برای علاقه مندان به رباتیک بسیار جالب است. اینکه ربات ها بتوانند از طریق تماشای حرکات ما، یاد بگیرند، می تواند آینده تعامل انسان و ماشین را تغییر دهد.