Huawei Ascend lustai: DeepSeek V4-Pro mokymo testas

Huawei Ascend lustai: DeepSeek V4-Pro mokymo testas

Austėja Kavaliauskaitė Austėja Kavaliauskaitė . Komentarai

3 Minutės

Įsivaizduokite serverių salę, prigrūstą silicio, kur kiekvienas lustas po truputį dorojasi su milžinišku teksto kalnu. Būtent tokį vaizdą piešia „Huawei“ tyrimų grupė, paskelbusi, kad apmokė „DeepSeek V4-Pro“, 1,6 trilijono parametrų modelį, naudodama klasterį, sukurtą bent iš tūkstančio „Ascend 910C“ lustų.

Iš pirmo žvilgsnio istorija atrodo paprasta: vietoje pagamintas DI silicis pagaliau susitvarko su didelio masto modelių apkrovomis. Tačiau tikrovė sudėtingesnė. „Huawei“ teigia, kad komanda atliko visų parametrų atnaujinimus, vadinasi, buvo mokomas kiekvienas modelio svoris, o ne tiesiog pridėtas plonas adapterio sluoksnis. Be to, V4-Pro išankstinio mokymo etape apdorotas stulbinamas duomenų korpusas, kuris, kaip pranešama, viršijo 32 trilijonus teksto vienetų. Išankstinis mokymas suformuoja pagrindines modelio galimybes, o vėlesnis papildomo derinimo etapas elgseną nukreipia per instrukcijų derinimą ir saugumo suderinimą.

Kodėl tai svarbu? Todėl, kad visų parametrų mokymas yra gerokai reiklesnis nei lengvesni metodai, kai koreguojama tik maža tinklo dalis. Jam reikia nuolatinio našumo, stabilių jungčių tarp lustų ir itin tikslaus darbo paskirstymo. Istoriškai Kinijos komandoms buvo sunku perkelti sunkias mokymo apkrovas nuo „Nvidia“ aparatinės įrangos nesusiduriant su našumo ir jungčių stabilumo kliūtimis.

„Huawei“ teigia, kad „Ascend 910C“ dvigubos konstrukcijos architektūra gali tapti lūžio tašku. Ankstesnių „DeepSeek“ eksperimentų nepriklausomi testai rodė, kad vienas „Ascend“ komponentas galėtų pasiekti maždaug 60 % „Nvidia H100“ išvedimo našumo, tačiau tai buvo išvedimas, o ne didelio masto sinchronizuotas mokymas. Mokymo apkrovos atskleidžia kitokias silpnąsias vietas: kolektyvinę komunikaciją, atminties valdymą ir programinės įrangos brandą, kurios tampa lemiamos.

Vis dėlto šis teiginys turi išlygų. Tyrėjai pranešė užbaigę visų parametrų mokymą, tačiau nepateikė griežtų našumo testų: nėra realaus vykdymo laiko, nėra pralaidumo rodiklių, nėra tiesioginio palyginimo su H100 klasteriais ir nėra išsamios energijos sąnaudų ar efektyvumo analizės. Be šių skaičių pranešimas atrodo būtent taip, kaip ir yra, daug žadantis techninis pasiekimas, bet dar ne nepriklausomas įrodymas, kad „Ascend“ klasteriai prilygsta ar pranoksta įsitvirtinusias alternatyvas pažangiausiam išankstiniam mokymui.

Atsargumui pagrindo jau yra. Ankstesnėse ataskaitose teigta, kad bandymai mokyti kitą modelį, R2, naudojant „Huawei“ silicį, susidūrė su nestabilumu ir lėtomis jungtimis tarp lustų. Pereiti nuo sėkmingų išvedimo demonstracijų prie patikimo, didelio masto išankstinio mokymo yra didelis šuolis. Įmonės kartais gali sutelkti pakankamai inžinerinių sprendimų vienam mokymo ciklui užbaigti, tačiau vis dar neturėti tokio patikimumo, kokio reikia reguliariam modelių kūrimui dideliu mastu.

Ką tai reiškia platesnei dirbtinio intelekto ekosistemai? Jei „Huawei“ pateikta versija atlaikys kritinį vertinimą, tai rodys augantį Kinijos DI aparatinės įrangos konkurencingumą ir bręstantį programinės įrangos paketą, galintį koordinuoti mokymo užduotis tūkstančio lustų klasteriuose. Jei neatlaikys, tai tik pabrėš, kad viešas entuziazmas vis dar lenkia patikrinamą pažangą. Bet kuriuo atveju kitas žingsnis aiškus: nepriklausomi našumo testai ir skaidrūs vykdymo laiko duomenys.

Stebėsime, kada šie skaičiai pasirodys. Nepriklausomas patvirtinimas parodys, ar tai tikras posūkis pasaulinėje DI infrastruktūroje, ar tiesiog ambicingas koncepcijos įrodymas.

Šaltinis: smarti

„Technologijos visada mane žavėjo – nuo išmaniųjų telefonų iki dirbtinio intelekto proveržių. Džiaugiuosi galėdama dalintis naujienomis su jumis kiekvieną dieną.“

Palikite komentarą

Komentarai