OpenAI kuria muzikos AI: Juilliard duomenimis paremtas modelis

OpenAI kuria muzikos AI: Juilliard duomenimis paremtas modelis

Jokūbas Žilinskas Jokūbas Žilinskas . 2 Komentarai

8 Minutės

OpenAI, kaip skelbia keli pranešimai, ruošiasi parašyti naują generatyviosios dirbtinio intelekto („AI“) skyrių: ambicingą muzikos modelį, mokytą nuožmiai anotuotais duomenimis, surinktais iš Juilliard studentų. Jeigu ši informacija pasitvirtins, tai būtų ženklas, kad siekiama perkelti studijinės kokybės kūrybinius įrankius į milijonų vartotojų rankas — ir tuo pačiu pakviesti šį produktą į augantį teisinį bei etinį ginčą.

Ką OpenAI kuria ir kodėl tai svarbu

Remiantis The Information išskirtiniu pranešimu, OpenAI tyliai pradėjo treniruoti muzikos generavimo sistemą, naudojančią kruopščiai anotuotus muzikinius duomenis, gautus iš Juilliard atlikėjų ir studentų. Ši detalė rodo dėmesį niuansams, instrumentinei technikai ir muzikinio audinio sudėliotumui — tai nėra vien atsitiktinių rimojų ar pakartojamų kilpų rinkinys. Vidaus diskusijos nurodo, kad modelis galės priimti tiek teksto, tiek garso užklausas, primenančias būdą, kaip OpenAI Sora generuoja vaizdo įrašus iš teksto.

Panaudojimo scenarijai yra įvairūs: reklamos džinglai, foninės garso takelių partijos vaizdo įrašams, pilnai sumontuotos kompozicijos filmams ar žaidimams. Galima integracija į ChatGPT arba Sora aplinką reikštų, kad šimtai milijonų vartotojų galėtų per kelias sekundes gauti AI sukurtą muziką — nuo idėjos eskizo iki pilno garso takelio.

Palikimo eksperimentai ir nauja pradžia

Tai nėra OpenAI pirmasis žingsnis muzikoje. Ankstesni projektai, tokie kaip MuseNet ir Jukebox, 2019–2020 metais tyrinėjo AI kompoziciją ir padėjo pakloti techninį pagrindą. Tačiau tie eksperimentai turėjo ribotumų — jie dažniau rėmėsi vienmodalinėmis architektūromis, neturėjo išplėtotos daugialypės įvesties (tekstų, garso, kontekstinių žymų) ir nevisiškai atitiko dabartines multimodales ambicijas.

Naujas projektas atrodo kaip kitos kartos bandymas sujungti muzikalumą, stilistinę subtilybę ir vartotojams pažįstamą pokalbio bei multimodalią sąsają. Tokia platforma gali pasiūlyti sudėtingesnę harmoninę struktūrą, tembrinį valdymą, dinaminius aranžuotes parametus ir išmanią stilistinę imitaciją, kartu suteikiant galimybes koreguoti tempo, instrumentaciją ir emocinį toną per natūralų tekstinį ar garso promptą.

Kūrėjai, leidybos kompanijos ir teisinis ritmas

Statymai yra aukšti ir daugiasluoksniai. Naudotojams ir kūrėjams dirbtinio intelekto įrankiai gali tapti labai naudingais — jie pagreitintų idėjų generavimą, padėtų sukurti profesionaliai atrodančius eskizus ir leistų mažesnėms įmonėms konkuruoti su didelėmis studijomis. Tačiau tuo pačiu metu vyksta teisminiai ir politiniai ginčai dėl to, kaip buvo surinkti mokymo duomenys ir ar autoriai bei atlikėjai gavo tinkamą kompensaciją.

  • Kūrėjai gali įgyti galingus įrankius idėjų eskizavimui ir greitesniam profesionalių takelių gamybai.
  • Tuo pat metu menininkai bijo, kad modeliai galės imituoti jų charakteringą stilių be leidimo ar atlyginimo.
  • Leidybinės kompanijos ir agentūros jau aiškiai signalizuoja, kad reikalaus licencijavimo arba imsis teisinių veiksmų.

Anksčiau Suno, Udio ir kiti startuoliai, kurie buvo pionieriai AI muzikos srityje, susidūrė su ieškiniais, kuriuose teigiama, kad modeliai buvo mokyti naudodami autorių teisių saugomą muziką be sutikimo. OpenAI įsitraukimas išplečia ginčą ir paverčia jį platesne mūšio lauke dėl to, kas kontroliuoja kūrybinį turinį, kaip turėtų būti tvarkomi mokymo duomenys ir kokios apsaugos mechanizmai turi būti įdiegti autoriams apsaugoti.

Sora, deepfake‘ai ir trūkstamos apsaugos priemonės

Sora aplinkybės bei susijusi deepfake diskusija parodė, kaip gebėjimai gali labai greitai aplenkti saugumo priemones. Muzika turi savo sutikimo, identifikavimo ir autorinių teisių iššūkius: galia sukurti atpažįstamą kūrinio fragmentą, choro dalį ar net atlikėjo timbrą reiškia, kad klausimų apie licencijavimą, priskyrimą (attribution) ir pajamų dalybą sprendžiama ne tik techniškai, bet ir teisiškai bei etiketiškai.

Pagrindiniai klausimai, kurie kils: ar modelis turės funkcijas, leidžiančias priskirti įkvėpimo šaltinius ar automatiškai pažymėti, kada galimos stilistinės imitacijos; ar bus įdiegti parametriniai ribotuvai, kurie užkirs kelią atpažįstamų melodingų frazių atkūrimui; ir kaip bus organizuojama kompensacija autoriams, kurių muzika galėjo būti naudojama modeliui treniruoti.

Kaip tai gali pakeisti kūrybines darbo eigos

Panaikinkime kai kurias klišes: dirbtinis intelektas muzikos kūrime nereikš, kad žmonės bus visai nereikalingi. Vietoj to AI gali veikti kaip partneris arba įrankis, kuris supaprastina darbo eigą, suteikia greitus prototipus ir leidžia sutelkti dėmesį į kūrybinius sprendimus, o ne techninę produkciją. Pavyzdžiui, nedidelė reklamos agentūra gali per kelias minutes sugeneruoti pritaikytą foninį takelį, o nepriklausomas muzikantas gali susikurti pilnai aranžuotus demo be brangios studijos nuomos.

Tačiau pakeitimai taip pat gali turėti ir neigiamų pasekmių: komerciniame sektoriuje gali sumažėti atlygis už tradicinę studijinę darbo jėgą, iškils skaidrumo trūkumo klausimų dėl autorystės, ir atsiras daugiau teismų dėl panašumo ar stiliaus kopijų. Žaidimų industrija ir interaktyvūs pasirodymai gali laimėti, nes AI leis kurti adaptuotą, žaidėjo elgseną atitinkančią muziką realiu laiku, tačiau nepriklausomi kompozitoriai gali susidurti su sumažėjusia pajamų baze, jei nebus sukurti nauji licencijavimo mechanizmai.

Techniniai niuansai: duomenų anotacija, modelių architektūra ir multimodališkumas

Nors daug diskusijų sukasi apie teisinius ir verslo aspektus, verta pažvelgti į techninę pusę. Jei pranešimai apie Juilliard anotacijas yra teisingi, tai reiškia, jog duomenų rinkimas apima ne tik garso failus, bet ir metaduomenis: natų ekvivalentai, instrumentacija, dinamika, frāzavimo žymėjimas, atlikimo instrukcijos, improvizacijos žymės ir net kontekstinės pastabos apie interpretaciją. Tokios struktūruotos anotacijos leidžia modeliams išmokti semantiką ir atlikimo niuansus, o ne vien tik paviršutinišką stiliaus „skaitmeninį atvaizdavimą“.

Modelio architektūra greičiausiai bus multimodalinė, derinsianti transformerių pagrindu veikiančius komponentus su spektrinėmis reprezentacijomis (pvz., mel-spectrogramomis) ir galbūt su sintezės pavaromis, leidžiančiomis atkurti aukštos kokybės garso failus. Integracija su tekstiniais promptais reikalaus semantinės sinchronizacijos tarp kompozicinės instrukcijos ir garso generacijos — t.y. kad tekstas apie „šiltą, melancholišką pianizmą su violončelių patalu“ virstų konkrečiais tembrais, dinamikos kontūrais ir aranžuotėmis.

Reguliavimo ir teisinės realybės akcentai

Reguliuotojai įvairiose jurisdikcijose jau domisi, kaip AI modeliai eksploatuoja intelektinę nuosavybę ir kokios yra vartotojų teisės. Europos Sąjungoje, JAV ir kitur politiniai atsakymai gali skirtis: kai kur gali atsirasti privalomi pranešimai apie duomenų kilmę, rekvizitai dėl autorių atlyginimo ar net specialios duomenų etalono taisyklės. Toks reglamentavimas turės įtakos modelių komerciniam diegimui ir licencijavimo politikai.

Jeigu OpenAI sieks didelių partnerystių su pagrindinėmis leidybos kompanijomis, tai gali reikšti derybas dėl platesnių licencijavimo sutarčių, kompensavimo schemų ir techninių priemonių, užtikrinančių, kad originalūs autoriai būtų atpažinti ir apmokėti. Tuo tarpu jei teisminiai ginčai tęsis ir sieks precedento, vystymosi tempas gali būti sulėtintas arba verslo modeliai bus stipriai perorientuoti.

Ką stebėti toliau

Tikėtina, kad OpenAI išbandys ir tobulins modelį privačiai prieš viešą pristatymą, ir pranešimų apie produktą galima tikėtis 2026 ar 2027 metais. Svarbūs signalai, kuriuos verta stebėti:

  • Ar OpenAI pasiekia licencijavimo susitarimus su didelėmis leidybos kompanijomis ir autorių teisių organizacijomis, įskaitant mechanizmus, kaip bus sumokamos autorinės honorarai.
  • Kaip įmonė sukuria priskyrimo, pajamų dalybos ir menininkų sutikimo mechanizmus — ar bus automatizuotas priskyrimas, atsekamumas ir atskaitomybė.
  • Teisinė ar reguliacinė reakcija: ar pavyks išvengti ar sumažinti teismų bangą panašią į tą, kuri nusitaikė į mažesnes AI muzikos firmas.

Taip pat reikėtų stebėti techninius sprendimus dėl „guardrail“ priemonių: ar modelis turės parametrus, kurie užkirs kelią tiksliam atpažinstamų frazių atkūrimui, ar bus įdiegtos pirmenybės, leidžiančios atlikėjams uždrausti savo stiliaus imitaciją.

Verslo ir industrijos pasekmės

Jeigu OpenAI pavyks sukurti patikimą ir lengvai prieinamą muzikos AI, tai gali pakeisti reklamos, žaidimų, filmų ir transliacijų turinio kūrimo ekonomiką. Didesnės kūrybinės agentūros galės sumažinti gamybos sąnaudas ir pagreitinti rinkodaros kampanijas, o mažesni kreatyvai galės įeiti į rinką su mažesnėmis investicijomis. Tačiau šis pokytis gali išlaisvinti ir naujus verslo modelius: prenumeratos už prieigą prie muzikos generavimo platformų, licencijavimo sandorių sistema, arba hibridinės kompensavimo schemos, kur autorius gauna dalį pajamų, kai jų stilius arba kūrybinis indėlis yra naudojamas.

Išvados ir rekomendacijos kūrėjams bei teisės turėtojams

Vienas dalykas aiškus: AI generuojama muzika jau nebeegzistuoja tik kaip įdomus eksperimentas — ji juda link infrastruktūrinio sprendimo, įtraukiamo į kasdienes kūrybines grandines. Kūrėjams rekomenduojama aktyviai sekti licencijavimo iniciatyvas, apsvarstyti technologinį saugumą (pvz., registruoti savo darbų datą, naudoti skaitmeninius pirštų atspaudus ir pan.) ir dalyvauti viešuosiuose diskursuose apie autorinių teisių atnaujinimą AI kontekste. Teisės turėtojams verta ieškoti skaidrių sutarčių su AI platformomis, kurios užtikrintų kompensaciją ir autorystės pripažinimą.

Jei OpenAI pasiseks, muzikos ritmas reklamoje, žaidimuose ir kūryboje apskritai pasikeis — tačiau šis pokytis nebus be įtampos: kūrėjų bendruomenė, teisės turėtojai ir teismai vaidins svarbų vaidmenį formuojant, kaip ši nauja technologija bus integruota į teisėtą ir etišką praktiką.

Šaltinis: smarti

Esu Jokūbas – aistringas dirbtinio intelekto ir žaidimų pasaulio tyrinėtojas. Digin.lt dalinuosi naujienomis ir analizėmis, kurios padeda suprasti technologijų ateitį.

Palikite komentarą

Komentarai

Bitas

Nežinau... jei per sekundes gausim filmo takelį, ok, bet muzikoj gali išnykt darbai ir stiliai bus kopijuojami. Reikia aiškių taisyklių, dabar chaosas.

Tomas

Ar tikrai Juilliard leido naudot studentų anotuotes? Jei taip kas mokės autorams? Bus didelis teisinis sumaištis, greičiausiai bylos..