Kas yra Google Ironwood TPU ir kuo jis skiriasi nuo ankstesnių TPU kartų?

Ironwood (TPU v7) yra Google specializuota AI ASIC šeima, kuri orientuota į inferencijos (modelių aptarnavimo) darbo krūvius. Skirtingai nuo ankstesnių kartų, Ironwood pasižymi didesne ant pakuotės atmintimi (192 GB HBM3e vienam lustui), aukštu FP8 skaičiavimo tankiu (~4,614 TFLOPs vienam lustui) ir skalėjančiu SuperPod dizainu, leidžiančiu sujungti iki 9,216 lustų. Visa tai mažina latenciją ir energijos sąnaudas vienai užklausai didelio masto debesų aplinkose.

Kodėl inferencija tapo svarbesnė už mokymą debesų paslaugose?

Nors mokymas reikalauja didelių skaičiavimo resursų, realaus pasaulio diegimuose daugiausiai išteklių sunaudoja inferencijos užklausos, kurios vykdomos milijardus kartų. Todėl latencija, užklausų pralaidumas, energijos sąnaudos vienai užklausai ir kainos efektyvumas tampa kritiniais faktoriais, o architektūros, optimizuotos inferencijai (pvz., Ironwood TPU), įgauna didelę komercinę vertę.

Kaip SuperPod architektūra pagerina didelių modelių aptarnavimą?

SuperPod naudoja tankias InterChip Interconnect (ICI) jungtis ir 3D torus topologiją, leidžiančią efektyviai sujungti tūkstančius lustų su dideliu bendru pralaidumu ir maža latencija. Toks požiūris leidžia laikyti dideles modelių dalis greitos HBM atminties plote, sumažinti tarplustinę komunikaciją ir išvengti dažnų, lėtų svorių perdavimų per tarpinius tinklus.

Ar tai reiškia, kad Nvidia praras rinką?

Ne visiškai. Nvidia vis dar stipri mokymo, universalaus GPU skaičiavimo ir programinės įrangos ekosistemos srityse. Tačiau Ironwood prideda naują konkurencinį sluoksnį, ypač ten, kur svarbi inferencijos ekonomika. Daugeliu atvejų sprendimas priklausys nuo konkretų poreikių: ar prioritetas mokymas, ar 24/7 inferencija su griežtais latencijos ir kaštų reikalavimais.

Ironwood TPU: Google perkuria debesų AI konkurenciją

8 Minutės

Google naujoji Ironwood TPU šeima vėl pakurstė ilgą laiką verdančią kovą dėl dirbtinio intelekto aparatūros: šįsyk tikroji Nvidia varžovė nėra AMD ar Intel, o pačios Google specializuota silicio architektūra, optimizuota inferencijai. Dėl įspūdingo atminties talpumo, tankių tarpusavio jungčių ir ambicingų efektyvumo pareiškimų Ironwood keičia, kaip skalėje atrodo debesų AI paslaugos.

Ironwood skaičiais: atmintis, skaičiavimo galia ir skalėjanti SuperPod

Pagrinde Ironwood (TPU v7) sukurtas vienam tikslui – modelių aptarnavimui produkcijoje. Google jį pozicionuoja kaip „inference-first“ lustą su specifikacijomis, kurios sumažina uždelsimą, sumažina energijos sąnaudas vienam užklausos vienetui ir supaprastina didelių kalbinių modelių bei kitų realaus laiko AI paslaugų diegimą.

Piko FP8 skaičiavimas vienam lustui: ~4,614 TFLOPs
Ant pakuotės esanti atmintis: 192 GB HBM3e (apytiksliai 7–7.4 TB/s pralaidumas)
Pod skalė: iki 9,216 lustų viename SuperPod
Bendras skaičiavimas poode: ≈42.5 exaFLOPS (FP8)
Sistemos HBM poode: ~1.77 PB

Šie grynieji skaičiai yra svarbūs, tačiau istorija taip pat apie tai, kaip lustai tarpusavyje komunikuoja. Google naudoja InterChip Interconnect (ICI) ir 3D torus išdėstymą, kad sujungtų daugybę lustų į vientisą SuperPod, pasikliaudama scale-up fabriku ir 1.8 PB tarp‑pod tinklu, kuris leidžia dideliems modeliams likti greitoje atmintyje, o ne nuolat perkelti svorius per lėtesnes nuorodas. Tokia architektūra sumažina tinklo latenciją ir duomenų perkėlimo kaštus, kas yra kritiškai svarbu didelio masto inference užduotims.

Techniniu požiūriu, ant pakuotės esanti HBM3e atmintis ir padidintas pralaidumas leidžia laikyti plačias modelių dalis ar net pilnas svorių kopijas arčiausiai skaičiavimo elementų. Tai reiškia mažesnį poreikį dėl tarplustinių transakcijų ir didesnį užklausų pralaidumą. Be to, didelis skaičiavimo intensyvumas FP8 režime rodo, kad Google optimizavo architektūrą tiek skaičiavimo tankiui, tiek energijos efektyvumui, o tai turi tiesioginį poveikį kainai už inference užklausą debesų aplinkoje.

Dėl tokio derinio — aukšto TFLOPs, didelės HBM talpos ir specializuotos komunikacijos topologijos — Ironwood labiau orientuotas į nuolatinę per sekundę gaunamų užklausų aptarnavimo apkrovą nei vien tik į mokymo etapo spartą. Tokia strategija atitinka rinkos pokyčius, kur didelė dalis debesų išlaidų kyla iš ilgalaikio inference kaštų.

Kodėl inferencija pakeičia konkurencinę žemėlapį

Anksčiau mokymas buvo pagrindinė kovos arena: grynieji TFLOPs, didelės atminties talpos ir optimizuoti branduoliai buvo svarbiausi rodikliai, ir Nvidia GPU dominavo šioje srityje. Tačiau AI ekonomika keičiasi. Kartą apmokyti modeliai generuoja milijardus inferencijos užklausų — ne mokymo sesijos tampa tikruoju darbo krūviu. Tai reiškia, kad prioritetu tampo uždelsimas (latencija), užklausų srautas (throughput), energija vienai užklausai ir kaštų efektyvumas.

Ironwood yra kuriamas atsižvelgiant į šiuos rodiklius. Didelė ant pakuotės esanti atmintis sumažina tarp lustų vykstančias komunikacijas dideliems modeliams, o tai mažina uždelsimą. Google teigia, kad Ironwood suteikia reikšmingą kartos atžvilgiu patobulintą našumą ir energijos efektyvumą (bendrovė teigia apie ~2× energijos efektyvumo pagerėjimą, palyginti su ankstesnėmis TPU kartomis). Hyperscaleriai ir debesų klientai, kurie moka už 24/7 inferencijos talpą, gali paversti tą efektyvumą tiesioginėmis kaštų taupymo priemonėmis.

Praktiškai tai reiškia, kad klientai, vykdantys dideles produkcines paslaugas — pvz., pokalbių modelius, realaus laiko rekomendacijas, vaizdo interpretaciją ar kitas užklausų intensyvias sistemas — gali sumažinti debesų sąskaitas už energiją ir tinklą, jei perkelia aptarnavimą ant architektūros, kuri mažina duomenų judėjimą ir optimizuoja energiją vienai užklausai. Be to, geresnis energijos efektyvumas taip pat reiškia mažesnę infrastruktūros šildymo ir aušinimo naštą duomenų centruose, ką verta vertinti didelio masto diegimuose.

Inferencijos ekonomika taip pat skatina naujus operacijų modelius: prenumeratos už realaus laiko AI paslaugas, sąnaudomis pagrįstos kainodaros modeliai ir specializuoti SLA, orientuoti į latenciją. Tokiu atveju architektūra, kuri leidžia efektyviai aptarnauti milijonus užklausų per sekundę, įgyja didesnę vertę nei architektūra, kuri vien tik deklaruoja piko TFLOPs be realių inferencijos optimizacijų.

Interconnect, SuperPod'ai ir ekosistemos įrakinto aukštumas

Kitas konkurencinis pranašumas — integracija. Pateikdama Ironwood per Google Cloud, Google gali optimizuoti visą stulpelį — nuo įrangos iki tinklo ir vykdymo aplinkos (runtime) — kad sumažintų kainą už užklausą. Jos SuperPod požiūris, su tankiomis interconnect jungtimis ir scale-up fabriku, sukurtas aptarnauti labai didelius modelius su mažesnėmis našumo nuostolėmis nei fragmentuota GPU klasterių architektūra.

Tokia vertikali integracija gali sukurti strateginius iššūkius Nvidia pozicijai. Net ir turėdami specializuotus sprendimus, tokius kaip Nvidia Rubin stendai ir B200 Blackwell GPU, skirtus inferencijai, debesų klientai gali rinktis natyvią TPU infrastruktūrą, jei ji pastebimai sumažina uždelsimą ir eksploatacines sąnaudas. Tai reiškia, kad klientai gali labiau įsirišti (vendor lock-in) prie konkretaus debesų paslaugų teikėjo aparatūros architektūros.

Ekosistemos uždara integracija taip pat reiškia, kad Google gali pasiūlyti papildomų optimizacijų: tinklo prioritetizavimą, greituosius atminties keitimus, specializuotus runtime optimizavimus (pvz., kompiliavimo įrankius, įrankius mažinantiems quantizaciją) ir platforminius servisus, kurie supaprastina didelių modelių diegimą. Visa tai gali sąlygoti, kad organizacijos, kurioms svarbus latencija ir kainos efektyvumas inferencijai, pirmenybę teiktų vienam debesų teikėjui arba bent jau svarstytų hibridinius sprendimus, perkeliančius inferenciją prie to teikėjo infrastruktūros.

Be to, tokia integracija gali pagreitinti plėtrą aplink konkrečią programinę įrangą ir biblioteka: optimizuoti grafai, operatorių bibliotekos ir infrastruktūros įrankiai, skirti TPU inferencijai. Tai dar labiau apsunkintų multiplatforminį palaikymą ir padidintų integracijos kliūtis tarp skirtingų aparatūros tiekėjų.

Jensen Huang tai pastebėjo

Nvidia generalinis direktorius viešai pripažino, kaip sudėtinga kurti specializuotus ASIC sprendimus, ir paminėjo TPUs kaip reikšmingą konkurentą. Tokia pripažinimo forma yra svarbi: kai dominuojantis rinkos dalyvis viešai identifikuoja konkurencingą technologiją kaip grėsmę, tai dažnai signalizuoja didesnes investicijas abiejose pusėse ir spartesnę produktų evoliuciją.

Tokia dinamika gali paskatinti Nvidia intensyviau plėtoti savo programinę ekosistemą, optimizuoti inference keliuose formatuose (pvz., TensorRT, DLSS stiliaus akceleracija), ir investuoti į naujas aparatinės įrangos kartas ar specializuotus varikliukus, kurie mažina latenciją ir energijos sąnaudas. Kita vertus, Google tikėtina paspartins savo investicijas į TPU šeimą, tinklo infrastruktūrą bei debesų paslaugas, kad užtikrintų konkurencingumą tiek kainos, tiek latencijos prasme.

Tai reiškia, kad Nvidia pasmerktas žlugti?

Visai ne — tačiau taisyklės keičiasi. Nvidia vis dar pirmauja universalaus GPU skaičiavimo srityje, turi didžiulę programinės įrangos ekosistemą ir plačią rinkos pritaikymą mokymui ir daugeliui inferencijos scenarijų. Ironwood atveria naują konkurencijos ašį, sutelktą į inferencijos ekonomiką. Įmonėms, vykdančioms masinius realaus laiko diegimus, Google TPU strategija gali tapti lemiamu faktoriu.

Trumpai tariant: AI rungtynės evoliucionuoja nuo „kas turi daugiausiai flops“ į „kas aptarnauja daugiausiai užklausų pigiausiai ir greičiausiai“. Su Ironwood, įvedamu į gamybą ir debesų paslaugas, tikėtina, kad debesų tiekėjai, hyperscaleriai ir įmonės peržiūrės, kur jiems verta vykdyti inference darbo krūvius — o tai Google daro įdomiu ir rimtu iššūkiu NVIDIA ir kitiems rinkos žaidėjams.

Be to, verta pažymėti, kad konkurencija tarp specializuotos aparatūros (TPU) ir programiškai galingų GPU sprendimų skatina inovacijas tiek aparatinėje, tiek programinėje įrangoje. Tai iš esmės gerai visai pramonei: didesnis efektyvumas, mažesnės sąnaudos ir platesnės galimybės integruoti pažangias modelių versijas realiu laiku. Rinkos dalyviai turėtų atidžiai stebėti tiek techninius rodiklius (latencija, pralaidumas, energijos sąnaudos), tiek operacinius aspektus (integracijos kaštai, ekosistemos palaikymas ir suderinamumas), priimdami sprendimus dėl debesų infrastruktūros ir AI strategijos.

Galiausiai, architektūros pasirinkimas priklausys nuo konkrečių poreikių: ar prioriteto reikalas — treniravimas ir eksperimentavimas (kur GPU vis dar labai stiprūs), ar 24/7 inferencijos aptarnavimas didelėmis apimtimis (kur specializuota TPU infrastruktūra gali būti ekonomiškesnė). Įmonėms rekomenduotina įvertinti TCO (bendrą nuosavybės kaštą), SLA reikalavimus, latencijos ribas ir integracijos sudėtingumą prieš pasirenkant platformą.

Santrauka: Ironwood žymi reikšmingą žingsnį į priekį specializuotų inferencijos įrenginių srityje ir gali keisti debesų AI tiekėjų konkurencinį peizažą. Stebėkite Google Cloud, SuperPod architektūras, HBM3e atminties sprendimus ir tarp‑pod tinklų evoliuciją, kad suprastumėte, kaip keisis inferencijos privalumai ir kaštai didelio masto diegimuose.

Šaltinis: wccftech

Austėja Kavaliauskaitė

„Technologijos visada mane žavėjo – nuo išmaniųjų telefonų iki dirbtinio intelekto proveržių. Džiaugiuosi galėdama dalintis naujienomis su jumis kiekvieną dieną.“

Palikite komentarą

Komentarai

duombyte

prieš 5 mėnesius

Ar čia tikrai 2× efektyvumas realybėje? skamba per gerai, hyperscaleriai gal gali išspaust — bet smulkios įmonės? bibliotekos, toolchain, palaikymas..?

Atsakyti

Tomas

prieš 5 mėnesius

wow, netikėta! Ironwood atrodo kaip tikras žaidimų keitiklis, HBM3e ir SuperPod'ai + milžiniški TFLOPs. Bet ar praktiškai taip gerai? migracija, kainos, vendor lock in... nežinau, įdomu

Atsakyti

Ironwood TPU: Google perkuria debesų AI konkurenciją

Ironwood skaičiais: atmintis, skaičiavimo galia ir skalėjanti SuperPod

Kodėl inferencija pakeičia konkurencinę žemėlapį

Interconnect, SuperPod'ai ir ekosistemos įrakinto aukštumas

Jensen Huang tai pastebėjo

Tai reiškia, kad Nvidia pasmerktas žlugti?

Palikite komentarą

Komentarai

duombyte

Tomas

Susijusios straipsniai

Segway Xaber 300: naujas elektrinis bekelės motociklas

Apple spartina planus: iPhone ir išmanieji akiniai

Google Gemini automobiliuose keičia balso asistentus

Gemini užrašinės telefone jau prieinamos visiems naudotojams

Huawei Nova 15 Max: 8500 mAh baterija pasaulinei rinkai

Even G2 akiniai stebės DI kodavimo agentus realiu laiku

Google paieška sparčiai auga: DI stiprina Alphabet pajamas

Alphabet 2026 m. pradeda rekordiniu DI ir debesijos augimu

Apple Vision Pro ateitis: kodėl tai pauzė, o ne pabaiga

Honor Magic 9: ARRI kamera ir rimtas vaizdo šuolis

Pixel 11: „Tensor G6“ CPU šuolis ir senos GPU abejonės

Galaxy S27 dizainą gali pakeisti Qi2 magnetinis įkrovimas