Gemini Omni: Google DI vaizdo kūrimo ateitis jau čia

4 Minutes

Google pateikė naują vaizdo kūrimo ateities viziją, ir tai nėra dar viena laiko juosta, perpildyta sluoksnių, raktinių kadrų ir smulkmeniškų įrankių. Tai pokalbis. Per Google I/O 2026 bendrovė pristatė Gemini Omni, naują DI sistemą, sukurtą beveik bet kokią įvestį paversti vaizdo įrašu, nesvarbu, ar pradinis taškas būtų tekstinė užklausa, statiškas vaizdas, balso įrašas, ar jau esamas vaizdo failas.

Pirmoji versija, pavadinta Gemini Omni Flash, tiesiogiai orientuota į greitą ir lankstų vaizdo generavimą. Google ją diegia Gemini programėlėje, Google Flow, YouTube Shorts ir YouTube Create, o vėliau tikimasi platesnės prieigos kūrėjams ir verslo naudotojams. Vien tai šį pristatymą daro reikšmingą. Tai nepateikiama kaip siauras eksperimentas. Google integruoja šią technologiją į produktus, kuriais žmonės jau naudojasi.

Gemini Omni ambicingesnę už įprastą DI vaizdo generatorių daro tai, kaip Google siūlo su ja dirbti. Bendrovė šį įrankį pristato ne tiek kaip programinę įrangą, kiek kaip kūrybinį bendradarbį. Užuot rankiniu būdu redagavę scenas, naudotojai gali paprasta kalba paprašyti pakeitimų ir žingsnis po žingsnio tobulinti rezultatą. Google vizijoje įprasta vaizdo gamybos trintis ima trauktis į antrą planą.

Redagavimas kalbant, o ne spaudžiant mygtukus

Šioje vietoje pristatymas tampa ypač įdomus. Google teigia, kad Gemini Omni sukurta taip, jog išlaikytų tęstinumą, kai naudotojai projektą taiso natūralios kalbos užklausomis. Tai reiškia, kad personažai turėtų išlikti vizualiai nuoseklūs, scenos neturėtų subyrėti tarp redagavimų, o judesys turėtų atrodyti įtikinamai, užuot kaskart pakeitus užklausą keistai ar netvarkingai prasidėjęs iš naujo.

Tai gerai žinoma generatyvinės medijos problema. Daugelis DI įrankių gali iš pirmo karto sukurti įspūdingą klipą, tačiau viskas ima byrėti, kai naudotojas paprašo antros versijos. Google akivaizdžiai bando išspręsti šią silpnąją vietą. Bendrovė teigia, kad Gemini Omni geriau supranta, kaip objektai juda realiame pasaulyje, įskaitant judėjimą, gravitaciją ir fizinę sąveiką. Praktiškai tai galėtų reikšti tokias detales kaip veidrodis, palietus raibuliuojantis lyg skystis, arba skulptūra, besielgianti taip, tarsi būtų sudaryta iš burbulų, neprarandant visos scenos vientisumo.

Tai svarbu, nes tikroji konkurencija DI vaizdo srityje nebėra vien apie neapdorotas galimybes. Ji susijusi su patogumu naudoti. Kas sugebės padaryti šiuos įrankius pakankamai natūralius, kad paprasti kūrėjai, rinkodaros specialistai, smulkusis verslas ir kasdieniai naudotojai norėtų prie jų grįžti vėl ir vėl? Bent jau kol kas Google atsakymas paprastas: leisti žmonėms režisuoti vaizdo įrašą taip, kaip jie kalba.

Gemini Omni neatsirado iš niekur. Ji remiasi ankstesniu Google darbu DI generuojamų vaizdų srityje, ypač vaizdų kūrimo pažanga, 2025 m. pristatyta su Nano Banana. Šis modelis išplėtė Gemini vizualinių įrankių rinkinį ir rado praktinių pritaikymų, nuo senų šeimos nuotraukų atkūrimo iki grubiai nupieštų eskizų pavertimo išbaigtomis koncepcijomis. Gemini Omni tą pačią kūrybinę logiką perkelia į judančius vaizdus.

Ir Google neketina sustoti ties vaizdo įrašais. Bendrovė teigia, kad būsimos Gemini Omni versijos palaikys sudėtingesnius projektus, kuriuose nuotraukos, tekstinės užklausos, muzika ir pavyzdinė filmuota medžiaga bus sujungti į vieną darbo eigą. Jei šis planas pasitvirtins, įrankis gali iš vaizdo generatoriaus išaugti į platesnę DI medijos studiją.

Pasitikėjimo problema niekur nedings

Nepaisant kūrybinio potencialo, Google taip pat žengia į tą pačią nepatogią teritoriją, su kuria susiduria kiekviena didelė DI bendrovė: pasitikėjimą. Kuo įtikinamesnė tampa sintetinė medija, tuo sunkiau ignoruoti rizikas. Google teigia, kad su Gemini Omni sugeneruoti vaizdo įrašai turės SynthID vandens ženklinimą, jos sistemą DI sukurtam turiniui žymėti. Bendrovė taip pat planuoja išplėsti tikrinimo įrankius Gemini, Chrome ir Paieškoje, siekdama didesnio skaidrumo.

Atsargumo matyti ir kitur. Ankstyvieji naudotojai galės kurti vaizdo avatarus pagal save, įskaitant savo balsą, tačiau pažangesnės balso modifikavimo funkcijos vis dar vertinamos. Toks delsimas pasako daug. Technologija juda greitai, tačiau kartu su ja juda ir socialiniai bei saugumo klausimai.

Taigi taip, Gemini Omni yra apie kūrybą. Tačiau ji taip pat yra apie kontrolę, autentiškumą ir klausimą, ar DI generuojamas vaizdo turinys gali tapti naudingas netapdamas nejaukus. Panašu, kad Google supranta: sukurti galingą modelį yra tik pusė darbo. Sunkesnė pusė yra priversti žmones pasitikėti tuo, ką jis sukuria, ir tuo, kaip jis naudojamas.

Vis dėlto kryptis aiški. Google nori, kad vaizdo kūrimas mažiau primintų darbą su programine įranga ir labiau panašėtų į idėjos formavimą realiuoju laiku. Jei Gemini Omni įgyvendins bent dalį šio pažado, tradiciniai vaizdo redagavimo įrankiai neišnyks per naktį, bet gali pradėti atrodyti gerokai mažiau neišvengiami.

Domantas Čepaitis

„Esu žaidimų entuziastas ir AI entuziastas. Rašau apie tai, kas svarbu – naujausius žaidimus, AI projektus ir tai, kaip šie du pasauliai jungiasi.“