6 Minutės
Robotas, „skaitantis" aplinką kameromis ir naudodamasis vaizdo‑kalbos modeliu (vision-language model, VLM), gali vykdyti nurodymus, pateiktus ant atspausdinto plakato, dar prieš atsižvelgdamas į jūsų žodžius. Nauji tyrimai rodo, kad promptų injekcija — reiškinys, geriausiai žinomas iš pokalbių agentų ir dirbtinio intelekto asistentų konteksto — gali persikelti iš ekrano į fizinį pasaulį ir tyliai nukreipti autonomines mašinas nuo numatyto kelio.
Vietoj to, kad būtų bandoma įsilaužti į programinę įrangą ar apgaule apgauti jutiklius, ši ataka traktuoja aplinką kaip įvesties lauką: klaidinantis lipdukas, plakatas ar kelių pusėje primenantis ženklas yra padedamas ten, kur roboto kamera jį užfiksuos. Žmogui, einančiam pro šalį, toks objektas gali pasirodyti niekuo neypatingas. Tačiau AI sistemai, apmokytai interpretuoti rašytinę ir vaizdinę informaciją kaip nurodymus veikti, toks užrašas gali tapti vykdytina komanda. Tokiu būdu įvykdomas vadinamasis „fizinės promptų injekcijos“ scenarijus, kai aplinkos tekstas virsta veiksmų planu.
Simuliacijų eksperimentuose autoriai praneša apie 81,8 % sėkmės rodiklį autonominio vairavimo scenarijuje ir 68,1 % — drono skubios nusileidimo užduotyje. Tikruose bandymuose su nedideliu robotizuotu automobiliu spausdinti užrašai pakeitė navigaciją su bent 87 % sėkmingumo skirtingomis apšvietimo sąlygomis ir matymo kampais — tai rodo, kad problema nėra tik laboratorinis vingrybė, o realus rizikos veiksnys, susijęs su autonomine navigacija ir robotų saugumu.
Kai ženklas virsta komanda
Technika, pavadinta CHAI, taikosi į svarbų etapą daugelyje šiuolaikinių autonominių sistemų architektūrų — vadinamąjį „komandų sluoksnį". Sistemos, kurios naudoja vaizdo‑kalbos modelius (VLM), dažnai atlieka tarpinį žingsnį: modelis sugeneruoja vidinę instrukciją arba verbalinį planą, kurią vėliau žemesnio lygio kontroleris konvertuoja į vairavimo, stabdymo ar variklių komandas. Šis tarpinis planas veikia kaip tiltas tarp suvokimo (sensorinių duomenų interpretacijos) ir vykdymo (kontrolės signalų).
Jei užpuolikas sugeba subtiliai nukreipti šį planavimo žingsnį link neteisingos instrukcijos, visa likusi roboto grandinė gali ją ištikimai vykdyti. Tam nereikia kenkėjiškos programinės įrangos arba privilegijuoto prieigos prie valdymo programos — robotas elgiasi būtent taip, kaip buvo užprogramuota, tik remdamasis klaidingu tekstiniu įvedimu. Tokiu būdu iškyla nauja grėsmė autonominei saugai: ne tiek programinės įrangos pažeidžiamumas, kiek sensoriaus perskaitytos informacijos interpretacija.
Svarbu pabrėžti, kad grėsmės modelis yra tyčia žemo techninio lygio: užpuolikas traktuojamas kaip išorinis veikėjas, neturintis galimybės fiziškai prieiti prie bortinių sistemų ar pakeisti programų. Viskas, ko reikia, — galimybė padėti tekstą roboto kameros matymo lauke: prie sienos priklijuotas ženklas, durų plakatas ar atspausdintas etiketės fragmentas prie orientyro. Tai leidžia atakai būti pigiai ir lengvai įgyvendinamai, ypač vietose, kur praeiviai ar aptarnaujančios tarnybos gali palikti spausdintus objektus.
Sukurtas „keliauti" per scenas, modelius ir kalbas
CHAI metodika nesikoncentruoja vien tik į tai, ką parašyta. Ji taip pat optimizuoja, kaip pranešimas atrodo — koreguodama spalvą, šrifto dydį, kontrastą ir vietą, kur užrašas pateikiamas į kameros lauką. Tokie vizualiniai parametrų pakitimai daro tekstą labiau skaitomu konkretiems modeliams: modelio atpažinimo patikimumas ir legibility dažnai lemia, ar užrašas bus interpretuotas kaip neutrali aplinkos detalė, ar kaip vykdytina komanda.
Tyrimo autoriai aprašo ir „universalius" promptus, kurie veikia ant nematytų vaizdų ir skirtingų aplinkų — vidutiniškai pasiekiant bent 50 % sėkmę įvairiose užduotyse ir modeliuose, o viename GPT pagrįstame rinkinyje viršijant 70 %. Be to, CHAI metodas rodo efektyvumą keliomis kalbomis: pavyzdžiui, kinų, ispanų ir mišriomis kalbomis pateikti užrašai išlieka labai skaitomi modeliams. Tai yra reikšminga, nes daugiakalbiai arba vizualiai subtilūs pranešimai gali būti mažiau pastebimi arba kelti mažiau įtarimo žmonėms, tačiau išlikti strategiškai gerai nuskaitytini VLM sistemoms.
Kitaip tariant: problema nėra vieno roboto viename kambaryje. Tai platesnės klasės AI robotikos sistemų savybė, kurią būtina įvertinti — vis daugiau autonominių sistemų įtraukia rašytinę informaciją į savo pasaulio modelius ir sprendimų priėmimo grandinę. Tai reiškia, kad fizinės promptų injekcijos rizika gali paveikti transporto priemones, dronus, sandėliavimo robotus ir kitus autonominius agentus, kurie naudoja VLM arba panašias multimodalias architektūras.
Kodėl robotų saugumo komandoms gali prireikti naujo kontrolinio sąrašo
Tyrėjai siūlo kelis apsaugos kelių kryptis, kurios gali padėti mažinti fizinės promptų injekcijos riziką. Viena iš jų — filtravimas ir aptikimas: nuolatinis kamerų vaizdų ir modelio tarpinio teksto nuskaitymas siekiant identifikuoti įtartiną ar kontekste netinkamą rašytinę informaciją. Tai gali būti automatinis OCR (optical character recognition) sluoksnis, papildytas heuristiniais ar mašininio mokymosi pagrindu veikiančiais detektoriais, skirtas nustatyti neįprastus raštus, ženklinimo stilius ar frazių modelius, kurie dažnai sutinkami atakose.
Kita kryptis — alignavimo darbas: treniruoti vaizdo‑kalbos modelius taip, kad jie nebūtų linkę traktuoti bet kokio aplinkos teksto kaip vykdytinos komandos, ypač jei toks tekstas prieštarauja misijos tikslams arba saugos apribojimams. Tai apima politikas, kurios meta‑mąstymo lygyje įvertina, ar aptikta instrukcija yra validi ir saugi vykdyti, kuriai gali reikėti papildomo patvirtinimo iš žmogaus operatoriaus arba kelių nepriklausomų sistemų balsų prieš priimant veiksmus, darančius reikšmingą įtaką judėjimui ar saugai.
Ilgesniu laikotarpiu autoriai ragina stiprinti robustiškumo tyrimus, kurie galėtų suteikti įtikinamesnes garantijas prieš tokių atakų poveikį. Praktinis artimo laikotarpio žingsnis yra paprastesnis: traktuoti apčiuoptą tekstą kaip nepatikimą įvestį pagal numatytuosius nustatymus ir reikalauti, kad toks įėjimas praeitų misijos ir saugos patikrinimus prieš įtakodamas judėjimo planavimą. Toks principas — „nepasitikėti akivaizdžiu tekstu be patikrinimo" — gali būti įdiegtas per politiką, kuri riboja teksto įtaką ar reikalauja papildomų patikrinimų, pvz., kryžminio patvirtinimo su žemėlapiu, nauja sensorine informacija arba žmogaus patvirtinimu.
Jei jūsų robotas skaito ženklus, verta išbandyti, kas nutinka, kai ženklai meluoja. Praktiniai bandymai, imitacinių scenarijų kūrimas ir rašytinių atakų rizikos įvertinimas turėtų tapti įprasta saugumo procedūra. Autoriai praneša, kad darbas bus pristatytas konferencijoje SaTML 2026, kur šios realaus pasaulio promptų injekcijos rizikos ir jų valdymo priemonės tikėtina sulauks didesnio dėmesio tiek akademinėje, tiek pramoninėje bendruomenėje.
Šaltinis: digitaltrends
Komentarai
Marius
wow neblogai, bet baisu. jei kas nors pas mane mieste taip padarys, chaos garantuotas. reikia testuot realiai
mokslas
Ar čia tikrai taip paprasta? plakatas ant šaligatvio ir automobilis keičia maršrutą... Kaip saugu??
Palikite komentarą