Gemini 3.5 Flash: kai DI geriau tvarkosi su chaosu

Gemini 3.5 Flash: kai DI geriau tvarkosi su chaosu

Domantas Čepaitis Domantas Čepaitis . 2 Komentarai

6 Minutės

Per Google I/O 2026 renginį Google pristatė daugybę dėmesį traukiančių dirbtinio intelekto naujienų, nuo naujų Gemini patobulinimų iki įspūdingų Omni vaizdo kūrimo įrankių. Vis dėlto vienas pristatymas kasdieniame naudojime gali tapti svarbesnis už bet kurią efektingą demonstraciją. Gemini 3.5 Flash atrodo sukurtas būtent netvarkingoms, prieštaringoms ir labai žmogiškoms užklausoms, kurias žmonės iš tikrųjų rašo.

Juk tai ir yra tikrasis išbandymas. Ne surežisuoti našumo testai. Ne nugludinti pristatymo vaizdo įrašai. Ar AI modelis gali vienu metu susidoroti su tankia technine ataskaita, kelionės planu, praktine rankdarbių instrukcija, netvarkingu kambariu ir juoku, kuriam reikia ne tik humoro, bet ir struktūros?

Norint tai išsiaiškinti, Gemini 3.5 Flash buvo patikrintas penkiomis labai skirtingomis užklausomis. Kai kurios buvo praktiškos. Viena buvo nuostabiai absurdiška. Kartu jos aiškiai parodė, kodėl Google šį modelį pristato kaip pajėgiausią iki šiol Flash sistemą, ypač programavimo, multimodalinio samprotavimo, ilgojo konteksto apdorojimo ir užduočių planavimo srityse.

Kai užklausa tampa netvarkinga, Gemini jaučiasi užtikrintai

Pirmasis iššūkis vienu metu išbandė kelis gebėjimus. Išsamus aviacijos ir kosmoso dokumentas apie kosmines šiukšles tapo žaliava interaktyviam simuliatoriui, skirtam parodyti, kaip laikui bėgant galėtų augti orbitinis eismas ir ką tai reiškia susidūrimų rizikai kosmose.

Tai nebuvo paprasta santraukos užduotis. Modelis turėjo perskaityti tankią ataskaitą, išskirti tinkamus signalus, sugeneruoti veikiantį kodą ir rezultatą pateikti taip, kad jis būtų intuityvus paprastiems žmonėms. Gemini 3.5 Flash padarė daugiau nei tik pateikė atsakymą. Jis simuliatorių sudėliojo pagal priežasties ir pasekmės logiką, todėl patirtis labiau priminė vedamą paaiškinimą, o ne vizualizuotą skaičiuoklę.

Labiausiai išsiskyrė dizaino sprendimų logika. Užuot ekrane išvertęs technines diagramas, modelis pabrėžė, kaip paleidimų elgsena ir rizikos mažinimo pasirinkimai gali pakeisti ilgalaikius rezultatus. Toks redakcinis pojūtis svarbus. Jis rodo, kad Google siekia padaryti Flash greitesnį, bet ne paviršutinišką.

Antrasis testas buvo žemiškesnis: keturių dienų kelionė automobiliu per Hudsono slėnį ir Catskill kalnus, įtraukiant žygius, amatininkų maisto stoteles, vaizdingus maršrutus ir atsarginius planus lietingoms dienoms. Kelionių planavimas yra ta sritis, kurioje daugelis AI sistemų pradeda svyruoti. Jos gali skambėti užtikrintai, bet sujungti nepraktiškus maršrutus, nederančias rekomendacijas ar visiškai nerealų laiką.

Gemini 3.5 Flash buvo neįprastai drausmingas. Maršrutas tekėjo natūraliai. Sustojimai atitiko geografiją. Tempas neatrodė sudėliotas žmogaus, kuris teleportuojasi tarp kalnų takų ir kepyklų. Dar geriau, lietingų dienų alternatyvos išlaikė pirminio plano nuotaiką, o ne pakeitė vaizdingą popietę atsitiktine ir visiškai bedvase veikla. Tai gali skambėti kaip smulkmena, bet būtent tokios detalės AI asistentą paverčia apgalvotu, o ne vien efektyviu.

Tada atėjo knygrišystė. Griežta žingsnis po žingsnio instrukcija, kaip namuose įrišti individualų žurnalą kietais viršeliais, gali atrodyti nišinė, tačiau tokio tipo procedūrinė užklausa labai tiksliai atskleidžia silpną samprotavimą. Jei instrukcijos per miglotos, pradedantysis pasimeta. Jei per techninės, viskas subyra po žargono ir klijų garų našta.

Šiuo atveju Gemini rado protingą vidurį. Jis aiškiai išdėstė procesą, atskyrė būtinuosius veiksmus nuo pasirenkamų patobulinimų ir nustatė realistiškus lūkesčius, nekalbėdamas su naudotoju iš aukšto. Tai sunkiau, nei atrodo. Gera instrukcinė rašyba priklauso nuo tempo, veiksmų sekos ir supratimo, kur žmonės greičiausiai suklys. Gemini 3.5 Flash šiuos įtampos taškus suvaldė stebėtinai brandžiai.

Keisčiausia užklausa galėjo būti pati iškalbingiausia

Kitas etapas buvo vizualinis samprotavimas. Užduotis: išanalizuoti netvarkingo kambario nuotrauką ir sukurti 25 minučių tvarkymosi strategiją, kuri leistų erdvei atrodyti gerokai geriau įdedant kuo mažiau pastangų. Čia senesnės AI sistemos dažnai patenka į tą pačią spąstų situaciją kaip ir žmonės. Jos kiekvieną netvarkos dalį laiko vienodai svarbia.

Gemini taip nepadarė. Jis prioritetą skyrė matomai netvarkai, greitam poveikiui ir veiksmų inercijai. Paprastai tariant, jis suprato rūšiavimą pagal skubumą. Tai naudinga. Realaus pasaulio produktyvumas retai reiškia tobulumą. Dažniau jis reiškia žinojimą, ką ignoruoti, kad pažanga įvyktų pakankamai greitai ir turėtų reikšmės.

Ir tada, taip, pingvinai.

Galutinei užklausai Gemini 3.5 Flash buvo paprašytas ištirti galimą kambario draugą, kuris teigė esąs paprastas žmogus, bet atrodė kaip trys pingvinai, sustatyti vienas ant kito ir paslėpti lietpaltyje. Juokinga? Žinoma. Bet kartu tai gudrus lygiagretaus samprotavimo streso testas.

Užuot atsakęs vienu ilgu komišku monologu, modelis netikrą tyrimą suskaidė į kelias analizės kryptis. Viena kryptis nagrinėjo judėjimo modelius. Kita ieškojo aplinkos užuominų. Trečia tikrino socialinį nuoseklumą. Kiekviena gija vystėsi savarankiškai, o vėliau įsiliejo į platesnį vertinimą. Būtent struktūra čia įdomiausia. Juokas suveikė todėl, kad po juo esantis samprotavimas laikėsi tvirtai.

Kitaip tariant, Gemini 3.5 Flash ne tik priėmė žaidimo taisykles. Jis absurdišką prielaidą suorganizavo kaip koordinuotą tyrimą, parodydamas, kaip lygiagretus užduočių valdymas gali sudėtingas užklausas padaryti švaresnes, greitesnes ir nuoseklesnes.

Per visus penkis bandymus nuolat ryškėjo vienas modelis. Gemini 3.5 Flash laikėsi užduoties. Jis keitė toną ir metodą pagal tai, ko buvo prašoma, bet nepametė pagrindinės minties. Tai gali skambėti elementariai, tačiau būtent čia daugelis greitų AI modelių istoriškai klupdavo. Greitį lengva parduoti. Išlikti orientuotam judant greitai yra kur kas sudėtingesnis triukas.

Galbūt tai ir yra didesnė šio leidimo istorija. Gemini 3.5 Flash ne tik bando būti greitesnis už ankstesnius modelius. Jis bando atrodyti labiau susikaupęs. Labiau prisitaikantis. Naudingesnis tada, kai užklausos ilgos, sluoksniuotos, vizualinės, techninės ar tiesiog šiek tiek išprotėjusios.

Ar tai virs kasdiene verte, priklausys nuo to, kiek pasitikėjimo naudotojai bus pasirengę suteikti Google ekosistemai, ypač kai geriausiems rezultatams dažnai reikia prieigos prie asmeninio konteksto ir duomenų. Tačiau vertinant vien gebėjimus, Gemini 3.5 Flash atrodo kaip rimtas žingsnis į priekį. Ne todėl, kad puikiai užpildė testų lentelę, o todėl, kad su chaosu susitvarkė taip, lyg jau būtų matęs tikrus žmones.

„Esu žaidimų entuziastas ir AI entuziastas. Rašau apie tai, kas svarbu – naujausius žaidimus, AI projektus ir tai, kaip šie du pasauliai jungiasi.“

Palikite komentarą

Komentarai

Marius

Pingvinų testas mane prajuokino 😅 bet šiaip logiška, kad čia ir yra tikras AI išbandymas, ne tie blizgūs pristatymai.

roadx

Skamba įdomiai, bet dar norisi pamatyt realiai kasdien, ne tik demo. Jei Flash tikrai susitvarko su chaosu, tai wow...