8 Minutės
Apžvalga
Rankšluostis sulankstytas taip, tarsi jį būtų tvarkingai palietęs atsargus žmogus. Kaladėlės išardytos ramiomis, tiksliomis rankomis. Maži pasiekimai, bet reikšmingi. Xiaomi naujasis modelis Robotics-0 nėra blizgus vartotojiškas prietaisas — tai bandymas išmokyti mašinas matyti, suprasti ir judėti su ta jautria preciziškumu, kurį ilgai priskyrėme žmogiškai intuicijai.
Esminė Robotics-0 užduotis — uždaryti ciklą, kuris apibrėžia bet kurio pajėgaus roboto funkcionalumą: suvokimas, sprendimas, vykdymas. Kompanija tai vadina „fizine intelektualumu“ — trumpa frazė, po kuria slepiasi eilė sudėtingų problemų. Kaip išlaikyti sistemos aštrumą kalbos ir vaizdo mąstyme tuo pačiu metu treniruojant ją atlikti milimetrų tikslumo judesius? Xiaomi sprendimas — architektūra, kuri atskiria mąstymą nuo judesio.
Architektūra: vizualinis kalbos modelis ir veiksmo ekspertas
Vienai pusei tenka vizualinis kalbos modelis — tai roboto vertėjas, galintis analizuoti didelės raiškos kameros srautus ir žmogaus nurodymus, net jei jie migloti: „Prašau, sulankstyk rankšluostį.“ Šis komponentas sprendžia objektų aptikimą, erdvinius ryšius, vaizdinį klausimų-atsakymą ir kasdienio proto lygio samprotavimus, kurie paverčia pikselius realiomis užduotimis. Kita pusė — Veiksmo ekspertas (Action Expert): Difuzinis transformatorius (Diffusion Transformer), sukurtas ne perduoti vieną variklio komandą, o generuoti „veiksmo fragmentą“ (Action Chunk) — trumpą, koordinuotų judesių seką. Praktikoje tai reiškia sklandesnius perėjimus ir mažiau staigių korekcijų.
Vizualinis kalbos modelis (VLM)
Vizualinis kalbos modelis sujungia vaizdų analizę ir natūralios kalbos supratimą. Jis konstruoja vidines reprezentacijas, kurios atitinka objektų padėtis, geometriją ir santykius, o taip pat interpretuoja aukšto lygio užduočių tikslus pateiktus žodžiais. Tokios rūšies modeliai privalo palaikyti veiksmingą objektų aptikimą, segmentaciją, kontekstinį supratimą ir vizualinį Q&A, kad galėtų tiksliai paruošti veiksmų pasiūlymus.
Veiksmo ekspertas ir veiksmo fragmentai
Veiksmo ekspertas vietoje atskiros motorinės komandos sugeneruoja trumpą, iš anksto paruoštą judesių seką — „veiksmo fragmentą“. Tai sumažina poreikį atlikti nuolatines korekcijas ir leidžia robotui vykdyti sudėtingesnes operacijas su natūralesniu dinamiškumu. Difuzinis transformatorius čia veikia kaip „švarinimo“ mechanizmas: jis paverčia triukšmingus, neapibrėžtus veiksmų spėjimus į stabilias, vykdomas trajektorijas.

Mixture-of-Transformers: paskirstyta atsakomybė
Inžinerinis sprendimas už šio padalijimo vadinamas Mixture-of-Transformers architektūra. Vietoje to, kad visas pareigas sutalpinčiau viename monolitiniame modelyje, atsakomybės yra padalytos — tai padeda spręsti žinomą problemą: kai vizualinį-kalbą modelį pradedi treniruoti veikti, jis dažnai praranda dalį savo samprotavimo galios. Xiaomi tai sprendžia kartu treniruodama multimodalius duomenis ir veiksmų trajektorijas, todėl modelis išlaiko „galvą“ aiškiai mąstyti, tuo pačiu mokydamasis judėti savo „rankomis“.
Tokia architektūra taip pat leidžia moduliškumą: vizualinis komponentas gali būti atnaujinamas nepriklausomai nuo veiksmų generatoriaus, arba atvirkščiai, priklausomai nuo to, kas reikia konkrečiam robotui ar laboratorijai. Tai svarbu tyrimų ir pramonės problemas sprendžiant efektyviai bei greitai eksperimentuojant su skirtingais techniniais sprendimais.
Mokymas: etapinis požiūris
Mokymas Robotics-0 vykdomas keliais etapais. Visų pirma vyksta Veiksmo pasiūlymo (Action Proposal) etapas, kuriame vizualinis modelis, skaitant vaizdą ir įvertinant užduotį, prognozuoja tikėtinus veiksmų pasiskirstymus. Tai suderina vidines „matymo“ ir „darymo“ reprezentacijas ir padeda parengti prasmingus kandidatų veiksmus tolimesniam apdorojimui.
Po šio žingsnio vizualinė dalis „užšaldoma“ — ji išlieka kaip stabilus perceptorius. Tada Difuzinis transformatorius treniruojamas „ištriukšminti“ veiksmų sekas: paversti triukšmingas spėjamas trajektorijas į vykdomąją motoriką. Svarbus dizaino sprendimas yra naudojimas key-value tipo bruožų (features) kaip vadovo, o ne vien diskretinių kalbos žetonų. Tai leidžia difuziniam modulio labiau remtis sensorinėmis reprezentacijomis nei abstrakčiais žodiniais žymenimis.
Duomenys ir ko-treniruotė
Ko-treniruotė ant multimodalių duomenų ir veiksmų trajektorijų leidžia sistemai išlaikyti nuoseklumą tarp vaizdinių reprezentacijų ir motorinių sprendimų. Duomenų rinkiniai apima simuliacijas (pvz., LIBERO, CALVIN, SimplerEnv) ir realaus pasaulio demonstracijas su įvairiais objektų tipais — kietais, lanksčiais, sudėtingos geometrijos. Tokia įvairovė reikalinga siekiant geresnės generalizacijos.
Praktiniai trintys: vėlinimas, inferencija ir stabilumas
Realūs robotai paprastai atskleidžia praktines trintis, kurios gali smarkiai paveikti sistemos vartotojiškumą. Vienas iš esminių iššūkių yra latencija: jei modelis stabteli apmąstymuose, robotas gali sustingti arba svyruoti. Tokios netikėtai sustojusios trajektorijos nėra priimtinos tiek laboratorijoje, tiek realiame pasaulyje.
Asinchroninis inferencijavimas
Xiaomi sprendžia šią problemą naudodama asinchroninį inferencijavimą: skaičiavimas (modelio vykdymas) ir aparatinė įranga veikia pusiau nepriklausomai, todėl judėjimas išlieka tęstinis net tada, kai modelis vis dar apskaičiuoja kitą veiksmo fragmentą. Tai sumažina stringančių judesių dažnį ir pagerina veiksmų sklandumą.
„Clean Action Prefix" ir dėmesio kaukė
Be to, ankstesnią prognozuotą veiksmų dalį grąžina atgal į sistemą — vadinamą „Clean Action Prefix“ — tai padeda sumažinti drebulį ir išlaikyti impulsą vykdymo metu. Dėmesio (attention) kaukės forma, primenanti lambda (Λ), skatina sistemą labiau remtis dabartiniais vaizdiniais signalais, o ne pasenusiais istorijos elementais. Tokia strategija leidžia greičiau reaguoti į staigius aplinkos pokyčius, pavyzdžiui, objektų slydimą ar žmogaus įsikišimą.

Rezultatai: simuliacijos ir realaus pasaulio testai
Skaičiai dalį istorijos pasako. Xiaomi praneša apie aukščiausius rezultatus LIBERO, CALVIN ir SimplerEnv simuliacijose, lenkiančius maždaug 30 lygiaverčių sistemų. Tokios lyderystės rodo, kad architektūrinis padalijimas tarp suvokimo ir vykdymo turi praktinę reikšmę, nes rezultatams simuliacijoje dažnai būdingas tiesinis ryšys su moduliniu dizainu ir duomenų kokybe.
Tačiau skaičiai nėra vienintelė svarbi dalis — realaus pasaulio testai yra kritiškai reikšmingi. Ant dviračių rankų platformos Robotics-0 įveikė ilgų užduočių sekas, tokias kaip rankšluosčio lankstymas ir blokelių išardymas, demonstruodamas stabilų rankos-akies koordinavimą bei gebėjimą dirbti su tiek kietais, tiek lanksčiais objektais be akivaizdžių gedimų. Tokie eksperimentai patikrina ne tik modelio generuotų trajektorijų kokybę, bet ir sisteminį atsparumą netikėtiems sutrikimams.
Metrikos ir interpretacija
Be bendrų sėkmės rodiklių, svarbu analizuoti klaidų tipizaciją: ar klaidos kyla iš neteisingos objekto detekcijos, išsiliejusio supratimo apie užduotį ar iš neadekvačių motorinių trajektorijų? Robotics-0 atveju rodoma tendencija, kad dauguma klaidų kyla dėl riboto kontakto modelio ir dinamikos su lanksčiais objektais — srityse, kur reikalingas papildomas fizikos modeliavimas arba daugiau demonstracijų.
Atvirasis kodas ir akademinis poveikis
Yra svarbus praktinis aspektas: Xiaomi paskelbia Robotics-0 kaip atvirą projektą (open source). Tai turi didelę reikšmę tyrimų spartai. Kai komandos gali peržiūrėti kodą, pakartoti eksperimentus ir plėtoti vieni kitų darbą, pažanga vyksta greičiau. Tikėkitės tolimesnių straipsnių, šakų (fork), ir greitų iteracijų, kuriose ta pati VLA (vision-language-action) idėja bus pritaikyta įvairiam aparatui ir specifinėms užduotims.
Atvirumas taip pat leidžia pritaikyti Robotics-0 idėjas pramonės scenarijams, pavyzdžiui, logistikos robotams, namų pagalbininkams ar gamybos lankstymo procesams, kur svarbi ir percepcija, ir tikslios, saugios manipuliacijos.
Apribojimai ir ateities kryptys
Robotics-0 neišsprendžia visų problemų. Minkštų objektų (soft-object) manipuliacija, generalizacija į radikaliai skirtingas aplinkas ir pilna autonomija tebėra atviros temos. Minkštųjų medžiagų dinamika reikalauja sudėtingesnės fizikos modelių arba didesnio kiekio demonstracijų iš realaus pasaulio, kad modelis suprastų, kaip deformacijos keičia kontaktus ir jėgas.
Generelizacija — gebėjimas perkelti įgūdžius iš vienos aplinkos į kitą — dažnai priklauso nuo duomenų įvairovės ir architektūrinių sprendimų. Mixture-of-Transformers rodo, kad atskyrimas tarp suvokimo ir veiksmų gali pagerinti tiek interpretaciją, tiek vykdymą, bet papildomos priemonės, tokios kaip domenu adaptacija ir metakognityviniai mechanizmai, gali būti reikalingi norint pasiekti dar platesnę generalizaciją.
Pramoniniai ir etiniai aspektai
Pritaikant tokias sistemas pramonėje, svarbu atsižvelgti į saugumo reikalavimus, patikimumą ir derinimą su žmogaus sąveikos taisyklėmis. Atvirasis kodas padeda užtikrinti skaidrumą, bet kartu atveria diskusijas apie saugumo sertifikavimą, atsakomybę ir reguliavimą, ypač kai kalbama apie robotus, atliekantį fizinius veiksmus šalia žmonių.
Išvados
Robotics-0 siūlo pragmatišką kryptį robotikos vystymui: artimesnis suvokimo ir veiksmų suderinimas be viena kitos „kanibalizavimo“. Architektūrinis sprendimas — padalinti vizualinį kalbos modelį ir veiksmų ekspertą, kartu vykdyti ko-treniruotę ir spręsti latencijos problemas asinchronine inferencija bei veiksmo prefixu — atskleidžia, kad pažanga neretai ateina iš struktūrinių pasirinkimų tiek, kiek ir iš didesnių modelių ar daugiau duomenų.
Jei jus domina, kur robotai judės toliau, stebėkite, kaip šis modelis elgsis už Xiaomi laboratorijų ribų ir kuriuos sprendimus bendruomenė pasirinks toliau tobulinti. Kitą kartą, kai namų robotas švelniai sulankstys jūsų rankšluostį, galite užuosti Robotics-0 dizaino pėdsakus kiekviename lygiai sulenkime.
Šaltinis: gizmochina
Palikite komentarą