Samsung ir Nota AI: spartesnė vietinė AI Exynos 2500

Samsung ir Nota AI: spartesnė vietinė AI Exynos 2500

Jokūbas Žilinskas Jokūbas Žilinskas . 2 Komentarai

7 Minutės

Samsung pasirašė susitarimą su Nota AI, kuris gali reikšmingai pagreitinti vietinę dirbtinį intelektą telefonuose ir kituose įrenginiuose, kuriuose veikia Exynos 2500. Vietoj didelių AI užduočių perkėlimo į debesį, optimizuoti modeliai gali veikti lokalėse, taip sumažindami latenciją, didindami privatumo apsaugą ir leidžiant efektyviau naudoti baterijos išteklius. Šis poslinkis link vietinės AI optimizacijos ir modelių suspaudimo gali pakeisti tai, kaip gamintojai ir kūrėjai planuoja funkcionalumą, ypač kai kalbama apie generatyvinį AI, kalbos atpažinimą, vaizdų apdorojimą ir realaus laiko inferenciją.

Nota AI pristato modelių suspaudymą ir optimizavimo įrankių grandinę

Pagal naują susitarimą, Nota AI tieks modelių suspaudymo ir optimizavimo technologijas, kurios bus integruotos su Samsung Exynos AI Studio. Pagrindinis tikslas yra užtikrinti, kad pažangūs generatyviniai ir inference tipo modeliai veiktų sklandžiai ant Exynos 2500 lustų, nepriklausant nuo nuotolinių serverių. Tokia vietinė dirbtinio intelekto optimizacija leidžia sumažinti tinklo priklausomybę ir pagerinti reagavimo laiką kasdienėse vartotojo scenarijuose.

Nota AI įrankių rinkinys orientuojasi į kelis kertinius optimizavimo sluoksnius: modelių suspaudimą (model compression) per pruning, kvantizaciją (quantization) ir žingsnių mažinimą (parameter reduction), operatorių fuziją, runtime optimizacijas bei specifinių instrukcijų ir atminties paskirstymo pritaikymą Exynos architektūrai. Integracija su Exynos AI Studio reiškia, kad kūrėjai gaus paruoštas darbo eigos priemones modeliams konvertuoti, profiliuoti ir išmatuoti realiose sąlygose, taip supaprastinant diegimą ant mobiliųjų įrenginių ir kitų krašto (edge) sistemų.

Be to, tokia optimizavimo grandinė paprastai palaiko tarptinklines bibliotekas ir formatų konversijas, pavyzdžiui ONNX, TensorFlow Lite ar PyTorch Mobile, kas reiškia, kad tiek mokslininkai, tiek nepriklausomi kūrėjai gali lengviau pritaikyti ir teste savo modelius Exynos 2500 aparatinės įrangos ribose. Vietinė inference plėtra tampa realiu sprendimu, kai reikia greitų, saugių ir energiją taupančių AI funkcijų.

Šio tipo sprendimai ypač svarbūs, kai kalbame apie generatyvinius modelius, tokius kaip teksto ar vaizdo generavimas, taip pat sudėtingesnius vision arba audio algoritmus. Optimali kombinacija tarp modelio suspaudimo ir runtime adaptacijų leidžia išlaikyti aukštą kokybę, bet ženkliai sumažinti resursų poreikį. Tai yra kertinis aspektas, kai Exynos 2500 turi konkuruoti realiame pasaulyje su kitais pažangiais mobiliaisiais NPU, kurių TOPS rodikliai yra aukštesni.

Nota AI vadovo komentaras ir techninis požiūris

Nota AI generalinis direktorius Myungsu Chae aprašė bendradarbiavimą kaip pastangą sukurti „tarpusavyje stipriai integruotą sistemą, kurioje AI aparatinė įranga ir programinė įranga susilieja, kad teiktų aukštos spartos generatyvinį AI krašte“. Praktikoje tai reiškia, kad bus sukuriami mažesni, efektyvesni modelių failai, runtime optimizacijos ir architektūrai pritaikyti vykdymo planai, leidžiantys Exynos 2500 išnaudoti savo galimybes dar praktiškiau.

Toks apjungtas požiūris akcentuoja programinės įrangos ir aparatinės įrangos koordinaciją — tai vadinama hardware-software co-design. Užuot pasikliauta vien tik su aparatine įranga susijusiais TOPS rodikliais, Samsung ir Nota AI orientuojasi į realaus pasaulio veikimą: kaip realūs modeliai, su visomis jų atminties, I/O ir laiko priklausomybėmis, veiks vartotojo įrenginyje. Tai apima detalesnį operatorių optimizavimą NPU instrukcijų rinkiniui, atminties taktinį planavimą, duomenų srauto (dataflow) optimizacijas bei sumažintą I/O ryšio naudojimą, kai įmanoma.

Ką technologiškai suteikia Exynos 2500

  • 10 branduolių CPU su Cortex-X925 pagrindiniu branduoliu, veikiančiu 3.30GHz dažniu, suteikiantis aukštą vienos gijos našumą sunkioms užduotims ir greitam operacijų vykdymui
  • 2x Cortex-A725 branduoliai 2.74GHz ir 5x Cortex-A725 branduoliai 2.36GHz, kurie balansuoja tarp našumo ir energijos vartojimo optimizacijos daugiasrutinėse užduotyse
  • 2x Cortex-A520 efektyvumo branduoliai 1.80GHz, skirti mažesnės reikšmės užduotims ir ilgesniam baterijos tarnavimo laikui kasdieniame naudojime
  • Samsung Xclipse 950 grafikos procesorius, paremtas AMD RDNA architektūra, suteikiantis pažangią grafikos ir kompiuterinę galią veidų, vaizdų ir vizualių efektų apdorojimui
  • Dedi-ikuotas NPU, įvertintas 59 TOPS, skirtas AI inferencijai ir orientuotam skaičiavimui, kuris, tinkamai optimizuotas programiškai, gali valdyti sudėtingesnius modelius efektyviau
  • Palaikymas LPDDR5X atminties su 76.8 Gb/s pralaidumu, kas suteikia didesnį duomenų srautą modelių vykdymui ir leidžia sutrumpinti atminties vėlavimus intensyvioms užduotims

Šios specifikacijos parodytos yra tvirtos pamatinės galimybės, tačiau vien tik TOPS skaičius nepasako visos istorijos. Pavyzdžiui, Qualcomm Snapdragon 8 Elite Gen 5 savo Hexagon NPU vertinamas apie 100 TOPS, tačiau faktinė našumo išraiška priklauso nuo to, kaip gerai programinė įranga išnaudoja atminties pralaidumą, cache valdymą, operatorių palaikymą ir vykdymo planavimą. Todėl Samsung skiria daug dėmesio programinės įrangos optimizacijoms, kad Exynos 2500 būtų konkurencingas realiuose scenarijuose, kur svarbiausia yra pritaikytas, stabilus ir efektyvus veikimas.

Kodėl optimizacija svarbesnė už maksimalias skaitines reikšmes

Verta pagalvoti apie Nota AI įrankius kaip apie detalią neurinių tinklų priežiūrą: pruning (neuronų ar svorių pjovimą), kvantizaciją (nuskaitymą į mažesnės bitų talpos formatus), operatorių fuziją ir runtime planavimą, kurie mažina skaičiavimo ir atminties apkrovas. Tokios technikos leidžia Exynos 2500 59 TOPS NPU efektyviau apdoroti didesnius arba sudėtingesnius modelius nei būtų įmanoma be optimizacijų, kartu taupant energiją ir sumažinant šilumos išsiskyrimą.

Pruning ir distiliacija (model distillation) leidžia sukurti mažesnes modelių versijas, kurios išlaiko esminius funkcionalumus, o kvantizacija dažnai susijusi su perėjimu nuo 32 bitų plūduriuojančio taško reikšmių prie 8-, 6- arba net 4-bitų formatų. Toks perėjimas ženkliai sumažina atminties naudojimą ir reikalingą duomenų pralaidumą, tačiau reikalauja kruopštaus suderinimo, kad modelio tikslumas nenukentėtų. Nota AI sprendimai taip pat apima įrankius, kurie atlieka tikslumo kompensaciją ir post-training quantization adaptacijas, leidžiančias išlaikyti aukštą našumą mažesnėse architektūrose.

Ką vartotojai turėtų tikėtis

  • Greitesnės reakcijos laikas vietinėms AI funkcijoms ir generatyviniams uždaviniams: spartesnis teksto sugeneravimas, greitesnis nuotraukų ir vaizdo apdorojimas bei mažesnė laukimo trukmė interaktyvioms paslaugoms
  • Mažesnė latencija ir geresnis privatumas, nes mažiau užklausų siunčiama į debesį — svarbu jautriems duomenims, tokiems kaip balso įrašai ar asmeniniai vaizdai
  • Geresnis baterijos efektyvumas vietinių AI apkrovų metu, nes optimizuoti modeliai reikalauja mažiau skaičiavimo ciklų ir efektyviau naudoja NPU bei atminties pralaidumą

Be tiesioginių vartotojo patobulinimų, gamintojams ir programų kūrėjams tai reiškia mažesnę infrastruktūros priklausomybę, paprastesnį offline režimo palaikymą ir galimybę siūlyti funkcijas, kurios anksčiau reikalavo nuolatinio debesies ryšio. Dėl to gali sumažėti duomenų perdavimo kaštai ir padidėti paslaugų patikimumas, ypač tose situacijose, kai tinklo ryšys yra ribotas arba nepatikimas.

Galutinė partnerystės nauda slypi praktiško veikimo išspaude iš Exynos 2500 naudojant protingesnę programinę įrangą. Vartotojams tai gali reikšti sklandesnius įrenginio asistentus, greitesnį vaizdų ir balso apdorojimą, mažesnę priklausomybę nuo debesies paslaugų kasdienėms AI funkcijoms ir bendrą geresnę vartotojo patirtį. Be to, tai atveria kelią platesniam vietinės AI naudojimui sektoriuose, kur privatumas ir greitis yra kritiškai svarbūs, pavyzdžiui, medicinoje, pramonės automatikos sprendimuose arba autonominėse transporto priemonėse.

Šaltinis: wccftech

Esu Jokūbas – aistringas dirbtinio intelekto ir žaidimų pasaulio tyrinėtojas. Digin.lt dalinuosi naujienomis ir analizėmis, kurios padeda suprasti technologijų ateitį.

Palikite komentarą

Komentarai

kodas

Ar čia realu, kad Exynos+Nota AI lenks Snapdragon praktikoje? TOPS nesako visos tiesos, reikia matyt greitį, bateriją ir tikslumą realiai. kur tie pavyzdžiai?

Marius

Na jei tai veikia kaip skamba, būtų rimtas žingsnis — vietinė AI atspari lėtoms tinklams. Bet ar išlaikys kokybę po kvantizacijos? smarkiai noriu pamatyt realius testus...