Gemini 2.5 Computer Use: AI, kuris valdo interneto sąsają

Gemini 2.5 Computer Use: AI, kuris valdo interneto sąsają

Jokūbas Žilinskas Jokūbas Žilinskas . Komentarai

9 Minutės

Google pristatė Gemini 2.5 Computer Use — naują dirbtinio intelekto modelį, mokantį imituoti žmogaus elgesį su svetainėmis ir žiniatinklio programomis. Dabar viešame peržiūros režime per Gemini API Google AI Studio ir Vertex AI, šis modelis skirtas automatizuoti realaus pasaulio naršyklės užduotis su mažesne delsos trukme ir geresniu vizualiniu suvokimu.

Ką iš tikrųjų sugeba Gemini 2.5 Computer Use ir kodėl tai svarbu

Gemini 2.5 Computer Use išplečia Gemini 2.5 Pro vizualinį supratimą, kad galėtų atlikti tiesiogines naršyklės veiksmų sekas: spustelėjimus, rašymą, slinkimą, užlaikymą pelę, išskleidžiamų meniu atidarymą ir URL navigaciją. Vietoje to, kad kreiptųsi į žiniatinklio API, agentas analizuoja tinklalapio ekrano nuotraukas (screenshot) ir grąžina konkrečias vartotojo sąsajos (UI) komandas, kurios valdytų sąsają — kitaip tariant, AI mokomas naudotis internetu taip, kaip tai darytų žmogus.

Kaip tai veikia: ekrano nuotraukos, veiksmų ciklai ir kliento vykdymas

Modelis gauna tris pagrindinius įvesties elementus: užduoties nurodymą (task prompt), dabartinės naudotojo sąsajos ekrano nuotrauką ir trumpą ankstesnių veiksmų istoriją. Remdamasis vizualia išdėstymo analize, jis siūlo vieną UI veiksmą (pavyzdžiui, paspausti tam tikrą mygtuką arba įvesti tekstą į lauką). Šis veiksmas vykdomas kliento pusėje, po to grąžinama nauja ekrano nuotrauka, kad modelis galėtų įvertinti būsenos pokyčius ir tęsti veiksmų ciklą tol, kol užduotis bus įvykdyta.

Gemini 2.5 Computer Use ekrano pavyzdys

Benchmarkai, demonstracijos ir ką rodo vaizdo įrašai

Google teigia, kad Gemini 2.5 Computer Use lenkia kitus įrankius tokiose ataskaitų rinkiniuose kaip Online-Mind2Web, WebVoyager ir AndroidWorld, tuo pat išlaikydamas mažą delsos lygį. Demo klipai — pagreitinti, kad būtų parodyti srautai greičiau — demonstruoja užduotis, tokias kaip lipniųjų užrašų pertvarkymas skaitmeninėje lentoje arba naminių gyvūnų dokumentų perkėlimas iš svetainės į CRM. Tokie pavyzdžiai akcentuoja, kaip agentas sugeba sujungti paprastus UI žingsnius į sudėtingą darbo eigą.

Funkcionalumas, ribotumai ir platformos tinkamumas

Šiuo metu modelis palaiko 13 skirtingų UI veiksmų ir geriausiai veikia žiniatinklio naršyklėse. Google įspėja, kad jis dar nėra pilnai optimizuotas darbalaukio operacinių sistemų (OS) lygmens automatizacijai, nors preliminarūs mobilūs benchmarkai atrodo perspektyvūs. Vidaus komandos jau naudoja modelį UI testavimui ir automatizacijai tokiuose produktuose kaip Search ir Firebase, kur vizualinis testavimas ir sąsajos patikra yra kritiški.

13 palaikomų UI veiksmų — ką tai reiškia realiai

  • Spustelėjimas (click) — elementų pasirinkimas ir aktyvavimas.
  • Teksto įvedimas (type) — formų užpildymas, paieškos laukeliai.
  • Slinkimas (scroll) — puslapio arba elementų slinkimas norint atskleisti turinį.
  • Užlaikymas (hover) — interaktyvių įrankių meniu atskleidimas.
  • Išskleidimas (open dropdown) — meniu ir parinkčių valdymas.
  • URL navigacija — perėjimas tarp puslapių ar sekcijų.
  • Elementų žymėjimas (select) — teksto ar sąrašų pasirinkimas.
  • Sąsajos elementų identifikavimas — mygtukų bei formų lokalizavimas ekrane.
  • Modalų uždarymas/atidarymas — dialogų valdymas.
  • Failų įkėlimas — integracija su užklausomis, kur reikia priedų.
  • Kopijavimas ir įklijavimas — duomenų perkėlimas tarp laukų.
  • Screenshot ciklas — nuoseklus ekranų fiksavimas pokyčių sekai.
  • Kontrolės vykdymas pagal saugos taisykles — jautrių veiksmų tikrinimas.

Praktiškai tai reiškia, kad daugumos kasdienių žiniatinklio darbo srautų galima automatizuoti be tiesioginio API integracijos ar sudėtingo DOM navigacijos rašymo, nes modelis remiasi ekrane matomu turiniu.

Saugumo pirma: dizainas ir kūrėjų kontrolės

Siekiant sumažinti piktnaudžiavimo riziką, kiekvienas siūlomas veiksmas yra patikrinamas saugumo tarnybos prieš vykdymą. Kūrėjai gali išjungti konkrečius veiksmus arba reikalauti aiškaus naudotojo patvirtinimo jautriems žingsniams — pavyzdžiui, finansinėms operacijoms arba kitoms aukštos rizikos operacijoms gali būti taikomi papildomi patikrinimai. Ankstyvos prieigos išoriniai kūrėjai jau naudoja modelį darbo eigų automatizavimui, pagalbinėms priemonėms ir CI tipo UI testavimui.

Praktiniai saugumo valdymo pavyzdžiai

  • Veiksmų leidimų politika: administratoriui sukonfigūruoti leidimus konkretiems UI veiksmams.
  • Patvirtinimo užklausos: reikalauti žmogaus patvirtinimo prieš vykdant finansines arba duomenų trynimo operacijas.
  • Auditavimo žurnalas: fiksuoti vykdytus veiksmus ir ekrano nuotraukas tais atvejais, kai reikalingas vėlesnis patikrinimas.
  • Modelio atsakomybės ribojimas: aiškus gairių rinkinys, kas gali būti automatizuota ir kas lieka žmonių kompetencijoje.
Gemini 2.5 demonstracija

Kam verta atkreipti dėmesį: galimos taikymo srities idėjos

Modelis ypač naudingas komandoms, kurios kuria naršyklėse veikiančius asistentus, QA inžinieriams, ieškantiems pažangesnių UI testų, ir kūrėjams, automatizuojantiems pasikartojančias internetines darbo eigas. Jei jūsų programa reikalauja žmogaus panašaus sąveikavimo su sudėtingomis tinklalapių sąsajomis — Gemini 2.5 Computer Use gali reikšmingai pagreitinti darbą ir sumažinti rankinio darbo apimtis.

Konkrečios industrijos, kuriose tai gali pakeisti žaidimą

  • Klientų valdymo sistemos (CRM): duomenų perkėlimas tarp svetainių ir įrašų automatikai.
  • Finansinės paslaugos: formų užpildymas, sąskaitų suvedimas ir validacija (su papildomais saugos patikrinimais).
  • E-komercija: užsakymų apdorojimo automatizavimas, atsargų tikrinimas per kelis pardavėjus.
  • HR ir personalo valdymas: kandidatų duomenų importas, interviu planavimas per puslapius.
  • Programinės įrangos testavimas: UI regresijos testai, vizualinė patikra ir sąsajos stabilumo stebėsena.

Kaip išbandyti šiandien

  • Prieiga per Gemini API Google AI Studio arba Vertex AI.
  • Išbandykite Google suteiktą Browserbase demonstracinę aplinką testavimui ir prototipų kūrimui.
  • Prisijunkite prie ankstyvos prieigos programų, jeigu planuojate kurti asistentus ar automatizacijos įrankius, kurie remsis ekrane matomu kontekstu.

Praktiniai patarimai kuriant su Gemini 2.5 Computer Use

Pradėdami darbą, planuokite paprastus darbo srautus ir laipsniškai didinkite užduočių sudėtingumą. Naudokite ekrano nuotraukų istoriją (action history), kad pagerintumėte modelio kontekstinį supratimą apie pokyčius, ir integruokite saugos sluoksnius ten, kur tikimasi jautrių veiksmų. Testuokite skirtingose naršyklėse ir ekrano dydžiuose, kad sumažintumėte netikėtus UI elementų pozicijų skirtumus.

Techniniai niuansai ir ekspertų įžvalgos

Gemini 2.5 Computer Use remiasi pažangiu kompiuterinio regėjimo ir kalbos supratimo deriniu. Svarbu suprasti kelis techninius aspektus:

  • Vizualinis parinkimas: modelis turi identifikuoti UI elementus remdamasis pikseliais ir vizualinėmis savybėmis, todėl puslapio stilius, šešėliai ar animacijos gali paveikti tikslumą.
  • Konversijos tarp vaizdo ir veiksmų: AI generuoja abstrakčias komandas (pvz., "click button near 'Submit'") ir kliento pusėje nustatoma tiksli koordinuotė ar DOM elementas.
  • Delsergijos valdymas: mažesnė delsos trukmė reiškia greitesnę iteraciją, bet reikalauja optimizuoto tinklo ryšio ir kliento vykdymo mechanizmo.
  • Testavimo duomenų paruošimas: įvairaus turinio ir skirtingų UI išdėstymų ekrano nuotraukų rinkinys padės modelio adaptacijai realioms sąlygoms.

Šie techniniai niuansai yra svarbūs tiek produktų vadovams, tiek inžinieriams, norintiems integruoti modelį į gamybines sistemas be netikėtumų.

Konkurentai ir rinkos aplinka

Nors Gemini 2.5 Computer Use pristato naują požiūrį — ekrano pagrindu veiksmų generavimą — rinkoje jau egzistuoja ir kitų sprendimų, kurie naudoja DOM analizę ar tiesioginę API integraciją. Pagrindinis Gemini pranašumas yra gebėjimas dirbti su vizualiniu kontekstu, todėl jis gali veikti ir su svetainėmis, kur nėra patikimų API arba kai DOM struktūra dažnai keičiasi. Tai ypač vertinga, kai reikia sudaryti lankstesnes automatizavimo grandines be didelių integracinių darbų.

Kada rinktis vizualinį agentą, o kada API integraciją

  • Vizualinis agentas: kai reikia dirbti su nepatikimomis ar prastai dokumentuotomis svetainėmis, arba greitai prototipuoti automatizavimą be backend pakeitimų.
  • API integracija: kai reikia didelio patikimumo, greičio ir saugumo (pvz., finansiniai sandoriai), be to, kai API leidžia efektyviai atlikti masyvines operacijas.

Dažnai geriausias sprendimas yra hibridinis: naudoti vizualinį agentą ten, kur API nėra arba DOM yra kintantis, o kritinius, didelio tūrio veiksmus nukreipti per patikimas API sąsajas.

Verslo pokyčiai ir ateities perspektyvos

Automatizuojant žiniatinklio sąsajas su tokiu modeliu kaip Gemini 2.5 Computer Use, verslai gali sutaupyti laiko, sumažinti klaidų skaičių ir pagreitinti produktų kūrimą. Tačiau svarbu ir atsargiai vertinti socialinius bei teisės aspektus: privatumo reikalavimai, naudotojų sutikimai ir atsakomybė už duomenų tvarkymą lieka prioritetu.

Ateityje tikėtina, kad matysime geresnį modelio prisitaikymą prie mobilios aplinkos, gilias integracijas su testavimo įrankiais ir didesnį akcentą į saugos automatizavimą. Kuo toliau, tuo labiau vizualinis AI gali tapti standartine priemone tiek produktų kūrėjams, tiek automatizacijos specialistams.

Keletas idėjų, kaip pradėti eksperimentuoti jau šiandien

  • Sukurkite paprastą demonstracinį scenarijų: nukopijuokite duomenis iš vieno puslapio į kitą ir stebėkite, kaip agentas sujungia veiksmus.
  • Integruokite saugos sluoksnį: pridėkite patvirtinimą prieš kiekvieną kritinį žingsnį ir fiksuokite visus sprendimus.
  • Testuokite įvairiuose naršyklės dydžiuose: įsitikinkite, kad elementų pozicijos nesukelia klaidų.
  • Sukurti auditavimo ir stebėsenos mechanizmus, kurie užregistruotų ekrano nuotraukas ir veiksmų istoriją vėlesnei analizei.

Jeigu ieškote būdo kaip padidinti produktyvumą tvarkant žiniatinklio užduotis arba kurti interaktyvius pagalbininkus, Gemini 2.5 Computer Use yra vertas įrankis eksperimentuoti su vizualiniu entjero ir sąsajų automatizacija.

Šaltinis: gizmochina

Esu Jokūbas – aistringas dirbtinio intelekto ir žaidimų pasaulio tyrinėtojas. Digin.lt dalinuosi naujienomis ir analizėmis, kurios padeda suprasti technologijų ateitį.

Palikite komentarą

Komentarai