Google Gemini žymėjimas: greitesnis vaizdų redagavimas

Google Gemini žymėjimas: greitesnis vaizdų redagavimas

Jokūbas Žilinskas Jokūbas Žilinskas . 2 Komentarai

7 Minutės

Google kuria naują "žymėjimo" funkciją Gemini platformai, kuri leis vartotojams piešti arba pridėti tekstą tiesiai ant sugeneruotų vaizdų ir vėliau iš naujo pateikti tuos pažymėtus rezultatus greitiems patobulinimams. Šis naujas darbo būdas skirtas suteikti žmonėms tiesesnę kontrolę prieš AI generuojamus vaizdus ir pagreitinti smulkius redagavimus be būtinybės iš naujo rašyti ilgų užklausų (promptų). Funkcija ypač aktuali dizaineriams, rinkodaros komandoms ir bendriems kūrėjams, kurie nori greitai iteruoti vizualus ir tikslinti detales vizualiai, o ne vien teksto pagalba.

Pieškite, rašykite, koreguokite: praktiškesnis būdas redaguoti AI vaizdus

Išplatinti ekrano vaizdai ir ataskaitos rodo, kad Gemini žymėjimo vartotojo sąsaja turės horizontalią spalvų paletę ir du pagrindinius įrankius: banguotą teptuką laisvam piešimui ir „T“ piktogramą tekstui įterpti. Vietoj to, kad redaguotumėte pradinį užklausos tekstą ir regeneruotumėte visą vaizdą, vartotojai galės pažymėti sukurtą vaizdą — užtepti atspalvį ant regiono, parašyti pastabą arba tiksliai nurodyti, kas turi būti pakeista — ir tada tą pažymėtą failą išsiųsti atgal Gemini modeliui, kad jis pritaikytų korekcijas.

Praktinis žymėjimo privalumas yra aiškumas: vizualūs žymėjimai (rodyklės, apskritimai, tekstinės užrašos ant pačio vaizdo) sumažina dviprasmiškumą ir padeda modeliui geriau interpretuoti vartotojo ketinimą. Tokiu būdu redagavimo eiga tampa labiau panaši į įprastą dizainerių peržiūrų procesą, kai pastabos paliekamos tiesiai ant failo — o tai leidžia greičiau pereiti prie reikiamų pakeitimų nei bandant tiksliai suformuluoti naują promptą.

Techninėje perspektyvoje žymėjimo mechanizmas turėtų leisti modeliams identifikuoti ne tik žodinius nurodymus, bet ir pikselių lygmens kontekstą: kur buvo nubrėžta rodyklė, kuri spalva pažymėta, ar tekstas nurodo „padidinti“, „pašalinti“, „perkelti į kairę“ ir pan. Tokia kombinacija pagerina aiškumą tarp vartotojo intencijos ir modelio atsako, sumažina ciklų skaičių iteruojant dizainą ir leidžia sutaupyti laiko projekto valdyme.

Kaip perdavimo (resubmission) srautas pagreitina darbą

Ankstyvieji testuotojai aprašo paprastą ciklą: atsisiųsti sugeneruotą vaizdą, ant jo uždėti eskizus arba tekstines instrukcijas, tada įkelti arba iš naujo pateikti pažymėtą failą, kad modelis galėtų interpretuoti ir įgyvendinti pakeitimus. Tokia eiga sumažina poreikį iš naujo kurti ilgą promptą ar pradėti nuo nulio, ypač kai reikia atlikti smulkius patobulinimus — pavyzdžiui, perkelti objektą, pakeisti toną ar patikslinti veido bruožus.

Šis srautas labiau pritaikytas daugeliui realių scenarijų: nuo greitų pataisų reklamos vizualuose iki prototipų iteracijų produktų mockupuose. Vietoj laiko gaišimo rašant tikslias verbales instrukcijas, komandos nariai gali pažymėti vietą ir pridėti trumpą užrašą, kurį Gemini interpretuos kontekste. Tai ypač naudinga, kai dirbama pagal griežtus terminus arba kai reikia greitai sukurti kelis variantus A/B testavimui.

Be to, perdavimo srautas sumažina klaidų tikimybę: kai aiškiai parodyta, kas turėtų pasikeisti, modelio interpretacija tampa tikslesnė, todėl mažiau kartų reikės grįžti atgal ir taisyti ankstesnius rezultatus. Tokiu būdu atsiranda efektyvesnis darbas su dirbtiniu intelektu — greitesnės iteracijos, tikslesnės korekcijos ir sumažintas rankinis įsikišimas.

Kodėl tai svarbu kūrėjams ir komandai

Įsivaizduokite, kad iteruojate rinkodaros vizualus arba produktų maketus. Vietoj to, kad rašytumėte detalias instrukcijas tipo „padaryk logotipą mažesnį ir perkėlyk jį į kairę“, galite greitai nubrėžti rodyklę ir apskritimu apibraukti logotipą arba pridėti žodį „mažesnis“ tiesiai ant vaizdo. Tai greičiau, mažiau dviprasmiška ir artimesnė tam, kaip dizaineriai jau dabar žymi failus per peržiūras.

Toks metodas padidina produktyvumą tiek individualiems kūrėjams, tiek komandai: skirtingi komandos nariai gali greitai palikti vizualias pastabas, o AI greitai pateiks pataisytą versiją. Be to, mažiau techniškai išprusę vartotojai — pavyzdžiui, rinkodaros specialistai ar produkto vadybininkai — gali paprastai nurodyti norimas korekcijas be pažangių promptų redagavimo įgūdžių.

  • Greitesnės iteracijos: mažiau promptų perrašymo ir spartesnis vizualinis grįžtamasis ryšys.
  • Aiškesnis ketinimas: vizualūs žymėjimai sumažina netikslumus, palyginti su vien tekstu pateiktomis instrukcijomis.
  • Prieinami pataisymai: net ne techniniai vartotojai gali valdyti AI su paprastais piešiniais ar užrašais.

Pastatyta ant Gemini plėtojamų vaizdų įrankių

Google jau anksčiau šiais metais įdiegė programoje integruotą vaizdų redagavimo funkciją Gemini aplinkoje. Tas įrankis apima tiek vartotojų nuotraukas, tiek dirbtinio intelekto sugeneruotus vaizdus, leidžiant atlikti fono pakeitimus, objektų pridėjimą arba šalinimą bei kelių vaizdų sumaišymą. Naujoji žymėjimo funkcija pratęsia šias galimybes, leisdama paversti išvestį pačiu redaguojamu įvesties failu sekančiam žingsniui.

Tai reiškia, kad Gemini tampa ne tik generatyviniu įrankiu, bet ir interaktyvia darbo priemone, skirtą iteracijai ir refine procesui. Platformos gebėjimas priimti pažymėtus vaizdus kaip kontekstines įvestis optimizuoja darbo srautus: vietoj kelių atskirų etapų (generuoti → atsisiųsti → pažymėti → aprašyti → regeneruoti) daug žingsnių sujungiami į lygiaverčius ir greitus cyklus, kuriuose modelis gali interpretavus pažymėjimus atlikti tikslinius pakeitimus.

Tokio tipo integracija taip pat kuria prielaidas gilesnei automatizacijai: pavyzdžiui, modelis gali išmokti atpažinti nuolat vartotojo naudojamus žymėjimo simbolius ir per laiką prisitaikyti prie konkrečios komandos termino ar žodyno. Tai svarbu didinant procesų standartizavimą didesnėse organizacijose, kur daug vartotojų dirba prie vienų ir tų pačių vizualinių šablonų.

Nano Banana Pro: aštresni vaizdai, aiškesnis tekstas

Gemini vizualiniai gebėjimai dar labiau pagerėjo su Nano Banana Pro modeliu. Google nurodo, kad ši modelio variacija generuoja sodresnį turinį su geresnėmis detalėmis ir pagerintu šriftų bei teksto įskaitomumu vaizduose. Kartu su žymėjimo funkcija tai reiškia, kad tiek nubrėžtos instrukcijos, tiek užrašyti tekstai ant vaizdų bus interpretuojami patikimiau, todėl pataisymai bus švaresni ir tiksliau atitinkantys vartotojo pageidavimus.

Nano Banana Pro ypač naudingas tais atvejais, kai vaizde yra daug smulkių elementų ar tipografinių detalių, kurių reikšmė yra didelė produkto dizainui arba rinkodaros iššūkiams. Geresnis teksto atpažinimas leidžia modeliams tiksliau suprasti vartotojo pažymėtus nurodymus, o didesnė detalumo kokybė padeda užtikrinti, kad pakeitimai nesugadintų bendros kompozicijos. Tokiu būdu derinant Nano Banana Pro galimybes su pažymėjimo darbo eiga gaunamas pažangesnis redagavimo patyrimas.

Be techninių pagerinimų, tokios naujovės turi ir praktinių pasekmių: trumpesnis grįžtamasis laikas, mažesnis poreikis techniniam redagavimui ir didesnis kūrybinis lankstumas. Dizaineriai gali eksperimentuoti su keliais vizualiais sprendimais, produktų komandos — greitai gauti variantus testavimui, o rinkodaros specialistai — sukurti kelis išdėstymus kampanijoms per trumpesnį laiką. Visa tai stiprina organizacijos gebėjimą greitai reaguoti į rinkos pokyčius.

Kūrėjams, produktų komandoms ir laisvalaikio kūrėjams vaizdų žymėjimas gali pakeisti bendrą sąveikos būdą su generatyviuoju dirbtiniu intelektu: mažiau priklausomybės nuo išsamiai išvystytų promptų, daugiau tiesioginės, taktilinės kontrolės galutinio rezultato atžvilgiu. Stebėkite pokyčius — atrodo, kad Google linksta link sklandesnio perėjimo tarp žmogaus ketinimo ir AI tobulinimo.

Šaltinis: smarti

Esu Jokūbas – aistringas dirbtinio intelekto ir žaidimų pasaulio tyrinėtojas. Digin.lt dalinuosi naujienomis ir analizėmis, kurios padeda suprasti technologijų ateitį.

Palikite komentarą

Komentarai

mokslas

Ar tikrai Gemini supras mano nubrėžtą rodyklę ar 'mažesnis' užrašą jei fonas chaotiškas? Gali būt klaidų.. bet verta pabandyt

Tomas

Oho, žymėjimas ant AI vaizdų iš tiesų skamba kaip game changer, greitos korekcijos be promptų! Lauksiu testų, bet neaišku kaip su privatumu, hmm