Samsung TRM: mažas modelis, didelė AI revoliucija jau čia

Samsung TRM: mažas modelis, didelė AI revoliucija jau čia

Viltė Petrauskaitė Viltė Petrauskaitė . Komentarai

9 Minutės

Samsung tyrėjų komanda pristatė kompaktišką, bet galingą dirbtinio intelekto modelį — Tiny Recursion Model (TRM). Vos su 7 milijonais parametrų, TRM meta iššūkį mažesniam vis mažesniems modeliams, parodydamas, kad dydis nelygu pranašumui: pasiekti rezultatai benchmarkuose stebina, o resursų ir aparatūros reikalavimai išlieka mažesni.

Kaip mažas modelis pranoko milžinus

TRM sukūrė Alexia Jolicoeur-Martineau Samsung Advanced Institute of Technology (SAIT) komandoje, ir pagrindinis modelio principas — rekursinis samprotavimas. Vietoj to, kad būtų pastatytas milžiniškas sluoksnių bokštas arba sudėtas ansamblis iš kelių tinklų, TRM kelis kartus perkelia savo atsakymus per tą patį dviejų sluoksnių tinklą, kol atsakymai stabilizuojasi. Tai veikia kaip lengvas vidinis atsiliepimų ciklas: modelis peržiūri savo prognozes ir jas koreguoja tol, kol rezultatas tampa pakankamai „gera” pagal mažą sustabdymo (halting) mechanizmą.

Rekursinis samprotavimas: paprastumas, kuris veikia

Anksčiau šiais metais Hierarchical Reasoning Model (HRM) parodė, kad kooperuodami greitus ir lėtus procesus, tinklai gali pagerinti samprotavimą. TRM supaprastina šią idėją: vietoje kelių specializuotų takų naudojamas vienas dviejų sluoksnių tinklas, kuris iteratyviai peržiūri savo prognozes. Sustabdymo mechanizmas — mažas, bet kritinis komponentas — sprendžia, kada iteracijos gali būti nutrauktos. Dėl to architektūra lieka ekonomiška, bet vis tiek pasiekia tvirtą loginį ir semantinį supratimą be didelio skaičiavimo biudžeto.

Praktikoje tai reiškia, kad TRM mato savo sprendimo patikimumą ir savarankiškai koreguoja šiek tiek pakartotinai. Įsivaizduokite, kad modelis sprendžia užduotį keliais mažo masto patikrinimais — vietoje to, kad viską vienu užmetimu išspręstų ar kad būtų sudėtingai sukonstruotas iš kelių modelių. Toks požiūris leidžia išlaikyti mažą parametrų skaičių, bet gauti rezultatus, kurie kai kuriais atvejais lenkia daug didesnius modelius, pavyzdžiui, OpenAI o3 Mini arba Google Gemini 2.5 Pro.

Techniniai niuansai: ką verta žinoti apie TRM treniravimą

Nors TRM koncepcija atrodo elegantiška, jos įgyvendinimas reikalauja kruopštaus treniravimo ir tinkamo hiperparametrų parinkimo. Samsung komanda dalijasi ne tik architektūriniu aprašymu, bet ir treniravimo skriptais, konfigūracijomis bei datasetų kūrimo priemonėmis. Tokia skaidrumo strategija leidžia kitiems mokslininkams ir praktikams atkartoti eksperimentus ir pritaikyti TRM skirtingoms užduotims.

Keletas techninių pavyzdžių iš publikacijos ir repozitorijos:

  • Modelio branduolys: dviejų sluoksnių transformeriška ar panaši architektūra su rekursinių žingsnių valdymu.
  • Sustabdymo mechanizmas: lengvas sprendėjas, kuris pagal vidinius kriterijus nusprendžia, ar tolesnė iteracija pagerins rezultatą.
  • Treniravimas: mišri strategija su tikslinimu (fine-tuning) ir tam tikromis curricula learning taktikomis, kad iteracijų seka būtų stabili.

Tokie sprendimai leidžia TRM išlaikyti efektyvumą tiek mokymo metu, tiek inference fazėje. Kitas svarbus aspektas — matavimai ir benchmark'ai: TRM komanda pateikė palyginimus su kitais modeliais ir parodė atvejus, kur mažas rekursinis modelis pasiekė arba pranoko galingesnius konkurentus specifiniuose testuose.

Testai ir benchmark'ai: kas buvo palyginta

TRM buvo išbandytas keliuose standartuose pripažintuose benchmark'uose, kuriuose vertinamas loginis mąstymas, nuoseklios užduotys ir kiti kalbos supratimo aspektai. Nors detalės gali priklausyti nuo individualių eksperimentų nustatymų, komanda nurodo, kad TRM tam tikrose užduotyse pranoko didesnius modelius — tai ypač pasakytina apie užduotis, kuriose svarbus iteratyvus aiškinimas ir vidinis patikrinimas.

Toks pasiekimas rodo, kad efektyvumo optimizacijos (mažesnis parametų skaičius, rekursija, sustabdymo kriterijus) gali būti veiksminga alternatyva vien smarkiai didinant modelio dydį.

Kodėl efektyvumas – svarbus faktorius AI ateičiai

Didėjant skaičiavimo kainoms ir energijos suvartojimui, atsiranda realus poreikis kurti modelius, kurie nebūtų priklausomi nuo milžiniškų GPU fermų. TRM pabrėžia, kad architektūriniai sprendimai gali sumažinti resursus ir padaryti AI prieinamesniu verslams, tyrėjams ir net produktų kūrėjams, kurie nori diegti protingas sistemas lokaliai arba ant ribinio (edge) įrenginio.

Štai kelios priežastys, kodėl efektyvūs modeliai kaip TRM įgauna reikšmę:

  • Mažesnės eksploatavimo sąnaudos: mažiau GPU valandų, mažesnės elektros energijos sąnaudos.
  • Prieinamumas: galimybė diegti sudėtingesnes kalbos ir samprotavimo funkcijas ant įprastos serverinės infrastruktūros arba net galingesnių mobilų įrenginių.
  • Saugumas ir privatumas: vietinis inference sumažina poreikį siųsti jautrią informaciją į debesį.
  • Tvarumas: mažesnis modelio anglies pėdsakas, o tai svarbu organizacijoms, kurios laikosi ESG principų.

Be to, efektyvumas leidžia greičiau iteruoti eksperimentus, sumažina mokslinių tyrimų įėjimo barjerą ir įgalina nedideles komandas arba akademines laboratorijas daryti rimtesnius sprendimus be priežiūros milijoninių biudžetų.

Praktiniai diegimo pavyzdžiai

Įsivaizduokite kelis realius scenarijus:

  • Klientų aptarnavimo chatbot'ai, veikiantys vietoje ir gebantys atlikti sudėtingesnį kontekstinį samprotavimą be nuolatinio ryšio su debesija.
  • Mobiliosios programėlės, kurios teikia pažangesnes rekomendacijas arba asistentų funkcijas nepriklausomai nuo interneto srauto.
  • Švietimo technologijos, kuriose smegenų tipo užduotys reikalauja aiškaus žingsniavimo ir paaiškinimų — TRM gali pateikti patikimus, pakartotinai tikrinamus atsakymus.
  • Robotika ir IoT įrenginiai, kuriems reikia greitų, mažai energijos reikalaujančių sprendimų realiu laiku.

Atviras kodas ir aparatinės įrangos pastabos

Svarbu paminėti, kad TRM kodas pasiekiamas GitHub'e pagal MIT licenciją. Tai leidžia tiek akademinei bendruomenei, tiek verslo atstovams tyrinėti, kopijuoti ir adaptuoti modelį. Repozitorijoje rasite treniravimo ir vertinimo skriptus, datasetų kūrimo įrankius bei konfigūracijas, naudotas publikacijoje — tai svarbu reproducibility ir platesnei bendruomenės priėmimui.

Samsung TRM AI

Nors pagrindiniai TRM eksperimentai pabrėžia minimalų skaičiavimą, komanda nurodė ir aparatinės įrangos pavyzdžius rimtesniems bandymams. Paminėti GPU įrenginiai apima Nvidia L40S, naudotus Sudoku treniruotėms, bei Nvidia H100, skirtus sunkesniems ARC-AGI tipo benchmark'ams. Visgi esminė žinia — TRM buvo suprojektuotas taip, kad pagrindiniai eksperimentai būtų pasiekiami su santykinai mažesniais ištekliais.

Ką randate repozitorijoje

  • Treniravimo skriptai ir bakalaurinės konfigūracijos.
  • Vertinimo įrankiai ir benchmark'ai, naudojami palyginimams.
  • Datasetų konstruktoriai ir pavyzdinės duomenų poros, kad būtų lengviau pakartoti eksperimentus.
  • Instrukcijos, kaip paleisti TRM lokaliai ar debesyje, kartu su rekomendacijomis aparatūrai.

Ką tai reiškia AI plėtrai ateityje?

TRM yra priminimas, kad architektūrinė inovacija gali konkuruoti su paprastu skaičiaus didinimu. Kai skaičiavimo kaštai auga ir tvarumo klausimai tampa vis akivaizdesni, efektyvūs modeliai su sumaniais samprotavimo triukais taps patrauklesni. Tai ne tik technologinė žygdarbis, bet ir strateginė kryptis: vietoje „scale at all costs” (masto didinimo už bet kokią kainą) modeliais, rinkoje gali atsirasti daugiau sprendimų, kurie orientuojasi į santykį tarp našumo ir išteklių.

Galimos pasekmės:

  • Hibridiniai modeliai: TRM idėja gali įkvėpti modelius, kurie derins rekursiją su kitais efektyvumo mechanizmais (pvz., kvantavimo technikos, pruned architektūros, distiliavimo metodai).
  • Specializuotos programos: vietoje universalaus, didelio modelio gali atsirasti daugiau nedidelių, konkrečioms užduotims optimizuotų sprendimų.
  • Demokratizacija: mažesnės infrastruktūros poreikis leidžia daugiau organizacijų ir tyrėjų prisidėti prie AI pažangos.

Vis dėlto verta pripažinti ir ribotumus: TRM gali būti itin efektyvus specifinėse užduotyse, bet didelio masto multimodalinėms sistemoms ir platesnėms generatyvinėms užduotims vis dar gali prireikti didesnio parametrų skaičiaus arba papildomų komponentų. TRM – tai galimybė iš naujo apgalvoti, kur ir kaip verta skirti resursus.

Unikalūs TRM privalumai ir konkurencinis pranašumas

Norint išsiskirti tarp konkurentų, svarbu ne tik pasiekti rezultatą benchmark'e, bet ir pateikti aiškų naudojimo atvejį. TRM siūlo kelis konkurencinius pranašumus:

  • Greitesnis iteracijos ciklas tyrėjams dėl mažesnių treniravimo sąnaudų.
  • Galimybė integruoti samprotavimą į ribinės galios įrenginius be didžiulės infrastruktūros.
  • Atviras kodas ir MIT licencija – greitesnis priėmimas komerciniame sektoriuje.

Tai suteikia TRM tvirtą poziciją tarp efektyvių modelių, ypač kai įmonės ieško būdų diegti pažangias AI funkcijas su ribotu biudžetu ir didesniu dėmesiu tvariems sprendimams.

Praktiniai patarimai komandoms, norinčioms bandyti TRM

Jei jūsų tikslas yra išbandyti TRM ar jį pritaikyti savo produktui, apsvarstykite šiuos žingsnius:

  • Pradėkite nuo repozitorijos pavyzdinių konfigūracijų — ten rasite optimizuotas nustatymų pradines reikšmes.
  • Testuokite TRM ant mažesnių, bet reprezentatyvių datasetų, kad suprastumėte rekursijos poveikį ir sustabdymo kriterijų elgseną.
  • Išmatuokite ne tik tikslumą, bet ir energijos sąnaudas, latenciją bei atminties naudojimą — tai svarbūs kriterijai sprendžiant, ar modelis tinka produkcijai.
  • Apsvarstykite hibridinius variantus: kombinavimą su kvantavimo ar distiliavimo metodais, kad dar labiau sumažintumėte resursus.

Tokiu būdu komanda gali įvertinti TRM tikrąją vertę savo konkrečiam atvejui ir spręsti, ar verta pereiti prie masiškesnių diegimų.

TRM atvėrė įdomią diskusiją apie tai, kaip architektūra ir dizainas gali pakeisti požiūrį į AI kūrimą. Maži, sumanūs modeliai turi realią galimybę tapti svarbiu komponentu AI ekosistemoje ir padėti pasiekti pusiausvyrą tarp našumo, sąnaudų ir tvarumo.

Įsivaizduokite ateitį, kur pažangus samprotavimas telpa į kuklią aparatūrą — tai yra ateitis, kuri atrodo arčiau nei manėme, ir Samsung Tiny Recursion Model yra vienas iš žingsnių link jos.

Šaltinis: sammobile

Sveiki! Esu Viltė, kasdien sekanti technologijų naujienas iš viso pasaulio. Mano darbas – pateikti jums svarbiausius ir įdomiausius IT pasaulio įvykius aiškiai ir glaustai.

Palikite komentarą

Komentarai