Broadcom ir CAMB.AI: įrenginyje veikiantis AI lustas

Broadcom ir CAMB.AI: įrenginyje veikiantis AI lustas

Austėja Kavaliauskaitė Austėja Kavaliauskaitė . 2 Komentarai

6 Minutės

Broadcom, bendradarbiaudama su CAMB.AI, pristatė naują ant įrenginio veikiančią dirbtinio intelekto lustą, skirtą tvarkyti sudėtingas garso užduotis, tokias kaip dublavimas ir garso aprašymas — visa tai be interneto ryšio. Šis žingsnis žada greitesnes vertimo operacijas, stipresnę privatumo apsaugą ir didesnę medijos prieinamumą vartotojams, o taip pat plečia galimybes išmaniesiems televizoriams, transliacijos dėžutėms ir mobiliems įrenginiams veikti autonomiškai.

Ką lustas atlieka ir kodėl tai svarbu

Naujas Broadcom AI lustas atlieka balso atpažinimą (ASR), kalbos vertimą, dublavimą ir aprašomąjį naratyvą tiesiogiai įrenginyje, o ne pasikliauja nuotoliniais debesų serveriais. Toks vietinis apdorojimas reiškia, kad garso duomenys lieka įrenginyje, sumažėja tinklo pralaidumo poreikis ir išvengiama jautrios medžiagos siuntimo į trečiųjų šalių serverius. Broadcom teigia, kad technologija gali palaikyti vertimus daugiau nei į 150 kalbų, tačiau svarbu pabrėžti, kad lustas vis dar yra bandymų stadijoje ir dar nėra viešai diegiamas televizoriuose ar vartotojų įrenginiuose. Techniniu požiūriu ši architektūra apima akustinio modelio ir neuroninio vertimo (NMT) sluoksnius, optimizuotus specialiai veikti ribotus energijos ir atminties resursus turinčiuose skirtukuose. Tokie sprendimai, kai didžioji dalis apdorojimo perkeliama į periferinius įrenginius, dažnai vadinami „on-device AI“ arba „edge AI“, ir jie leidžia mažinti duomenų perdavimo sąnaudas bei pagerinti reagavimo greitį realiu laiku.

Gyvas demonstravimas ir dėmesys prieinamumui

Įmonių parodytame demonstraciniame vaizdo įraše lustas pateikė garso aprašymus ir tiesioginius vertimus iš animacinio filmo „Ratatouille“ epizodo. Vaizdo įraše matėsi tuo pačiu metu rodomos rašytinės subtitrų vertimo versijos ekrane, o dirbtinis intelektas garsiai pasakojo scenos turinį skirtingomis kalbomis — funkcija, kuri gali būti ypač naudinga žiūrovams su regos sutrikimais arba daugiakalbėms šeimoms, norinčioms gauti vietinį dubliavimą akimirksniu. Demonstracijoje taip pat buvo parodyta sinchronizacija tarp balso sintetinės kalbos (TTS) ir originalaus garso takelio, siekiant išlaikyti intonaciją ir emocinį toną. Tokios funkcijos atveria naujas galimybes prieinamumui: integracija su WCAG (Web Content Accessibility Guidelines) principais reiškia, kad įrenginiai galėtų pasiūlyti ne tik tekstinius subtitrus, bet ir detalų garso aprašymą, pritaikytą akliesiems arba turintiems regos negalią auditorijoms.

Privalumai ir galimi apribojimai

On-device AI sprendimai duoda kelis esminius privalumus: greitesnį atsaką be tinklo vėlinimo, pagerintą naudotojo privatumo lygį, nes garsas niekada neišeina iš įrenginio, ir mažesnį nuolatinį interneto srautų poreikį, kadangi audio apdorojimas nevyksta debesyje. Tai reiškia, kad vartotojai gali gauti beveik realiu laiku atliktą dublavimą ar vertimą net ten, kur interneto ryšys ribotas arba brangus. Be to, lokalus apdorojimas sumažina priklausomybę nuo nuolatinio debesų skaičiavimo, kas ilgainiui gali reikšti mažesnes paslaugų eksploatavimo išlaidas gamintojams. Tačiau šiai arkitektūrai taip pat kyla techninių iššūkių: įrenginio skaičiavimo galia ir energijos sąnaudos yra ribotos, todėl modeliai turi būti optimizuoti pagal svorį, greitį ir atminties poreikį. Be to, norint užtikrinti, kad garso sintezė būtų natūrali ir vertimai tikslūs, reikalingi išradingi modelių suspaudimo metodai, kvantizacija ir hibridiniai inferencijos varikliai. Realiame pasaulyje sėkmingas diegimas priklausys nuo to, kiek gerai inžinieriai sugebės subalansuoti kokybę, efektyvumą ir energijos sunaudojimą.

  • Privatumas: Garso failai neperkeliami į nuotolinius serverius, sumažinant duomenų nutekėjimo riziką.
  • Vėlinimas: Realaus laiko dublavimas ir vertimas be interneto ryšio suteikia greitesnį vartotojo patyrimą.
  • Pralaidumas: Mažesnis interneto srautas, nes apdorojimas vyksta lokaliai įrenginyje.
  • Prieinamumas: Garso aprašymai ir lokalizuotas dublavimas pagerina prieinamumą žmonėms su regos sutrikimais.

Klausimai, kuriuos verta stebėti

Nors pristatymas ir demonstracija kelia entuziazmą, vis dar yra nemažai nežinomųjų. Publikuotas demo įrašas buvo trumpas ir montažuotas, todėl lieka atvirų klausimų, kaip lustas veiks realiomis sąlygomis — triukšmingoje aplinkoje, prie daug kalbančių veikėjų ar sudėtingų dialogų su persidengiančiais balsais. Vertimų tikslumo ir sintezės natūralumo nepriklausomai patikrinti dar nebuvo, tad reikės nepriklausomų bandymų ir atvirų benchmarkų, kad būtų objektyviai įvertinta technologijos kokybė. Broadcom pabrėžia, kad garso AI modelis, palaikantis šią funkciją, jau naudojamas didelėse organizacijose, tokiuose kaip NASCAR, Comcast ir Eurovizijos dainų konkursas, kas suteikia technologijai tam tikrą kredibilitetą. Tačiau plataus masto realių vartotojų testavimas, įvairių kalbų ir dialektų palaikymas, triukšmo atsparumo įvertinimas ir ilgalaikė modelio atnaujinimo strategija — visi šie veiksniai bus lemiami, ar sprendimas pasieks plataus vartojimo rinką. Be to, reikšminga dalis sėkmės priklausys nuo gamintojų, kurie turi nuspręsti, ar integruoti šį lustą į savo produktus, kokios bus programinės įrangos atnaujinimo galimybės ir kaip bus valdoma privatumo politika.

Kol kas Broadcom ir CAMB.AI bendradarbiavimas signalizuoja aiškią tendenciją: pažangesnių DI funkcijų perkėlimas į vietinius įrenginius, siekiant pagerinti greitį, privatumo apsaugą ir prieinamumą. Kai gamintojai integruos šį lustą į televizorius ir kitą vartotojų elektroniką, naudotojai gali gauti momentinį, privačią dublavimo ir garso aprašymo funkciją be priklausomybės nuo interneto — tačiau praktiniai rezultatai turės atitikti demonstracijas, kad ši pažada virstų kasdienybe. Svarbu paminėti ir industrinį kontekstą: didėjant poreikiui saugesnėms, greitesnėms ir labiau pritaikomoms medijos paslaugoms, on-device AI sprendimai gali tapti standartu skaitmeninio transliavimo ir televizijos sektoriuose. Taip pat reikėtų atsižvelgti į reguliavimo aspektus — šios technologijos diegimas turi atitikti vietinius duomenų apsaugos įstatymus ir etikos gaires, kad būtų užtikrintas vartotojų pasitikėjimas.

Šaltinis: smarti

„Technologijos visada mane žavėjo – nuo išmaniųjų telefonų iki dirbtinio intelekto proveržių. Džiaugiuosi galėdama dalintis naujienomis su jumis kiekvieną dieną.“

Palikite komentarą

Komentarai

baituolis

Skamba įspūdingai, bet demo per trumpas ir montažuotas. Ar bus nepriklausomi testai triukšmingam fone? neaišku

Tomas

Oho, jei tik veikia kaip parodyta, realus privalumas akliesiems ir šeimoms! Bet kiek laiko bateria laiko, hmm...