Naujos LLM vertinimo inovacijos: AI vertinimo šuolis į priekį | Digin - Technologijų naujienos, apžvalgos ir tendencijos Lietuvoje
Naujos LLM vertinimo inovacijos: AI vertinimo šuolis į priekį

Naujos LLM vertinimo inovacijos: AI vertinimo šuolis į priekį

2025-07-24
0 Komentarai Austėja Kavaliauskaitė

2 Minutės

Inovacijos dirbtinio intelekto vertinime: reikšmingas proveržis LLM analizėje

Dirbtinio intelekto (DI) sistemos sparčiai keičia technologijų reakciją į žmonių poreikius. Didelės kalbų modeliai (LLM) tapo DI revoliucijos pagrindu. Tačiau LLM modeliams vis dažniau patikima vertinti kitų modelių atsakymus („LLM-as-a-judge” metodika), o tai išryškina tam tikrus ribotumus. Ypač sunku tiksliai atlikti sudėtingą faktų tikrinimą, programavimo kodo peržiūrą ar matematikos uždavinių sprendimą.

Kembridžo universitetas ir „Apple” pristatė naują tyrimą, kuriame kuriamas pažangus AI vertinimo metodas. Siūloma sistema DI vertintojus aprūpina specializuotais išoriniais verifikavimo įrankiais. Ši naujovė pagerina vertinimo tikslumą ir patikimumą, sprendžiant tiek žmonių, tiek esamų DI vertintojų trūkumus.

Kaip veikia vertinimo agentas: svarbiausios ypatybės ir įrankiai

Šios sistemos pagrindas – autonominis Vertinimo agentas (Evaluation Agent). Vertinimas vyksta trimis etapais: nustatoma, kokios srities žinios reikalingos, tuomet išmaniai parenkami ir taikomi specializuoti išoriniai įrankiai, o galiausiai pateikiamas pagrįstas įvertinimas:

  • Faktų tikrinimas: Pasitelkiamos realaus laiko internetinės paieškos priemonės, užtikrinančios informacijos tikslumą.
  • Kodo vykdymas: Naudojamas „OpenAI“ kodų interpretatorius, analizuoja ir tikrina programavimo atsakymų funkcionalumą ir teisingumą.
  • Matematikos tikrinimas: Taikomas individualus, būtent matematikai pritaikytas kodų vykdymo įrankis, skirtas aritmetinių ir matematikos uždavinių sprendimų tikrinimui.

Jei nė vienas iš specializuotų įrankių nereikalingas, agentas naudoja bazinį LLM anotatorių. Tokiu būdu užtikrinamas efektyvumas ir išvengiama perteklinio apdorojimo paprastose situacijose.

Palyginimai ir našumo privalumai

Agentu paremta vertinimo metodika pranoksta tiek tradicinius LLM, tiek žmonių anotatorius, ypač sudėtinguose uždaviniuose. Atliekant išsamią faktų patikrą, atitikimas tikriems duomenims reikšmingai pagerėjo – kai kuriais atvejais net aplenkė žmonių anotatorius. Programavimo užduotys buvo įvertintos tiksliau visais atvejais, o sudėtinguose matematiniuose uždaviniuose pavyko pasiekti geresnių rezultatų nei kelios kitos vertinimo bazės, tiesa, susitarimo lygis siekė apie 56%.

Pritaikymo sritys ir reikšmė rinkai

Naujas požiūris padeda įveikti tiek žmonėms, tiek dabartiniams DI vertintojams būdingus trūkumus: žmonės dažnai pavargsta arba daro šališkas išvadas, o LLM iki šiol sunkiai dorojosi su detaliu vertinimu. Integruojant internetinės paieškos funkcionalumą, kodo vykdymą ir specializuotą matematikos tikrinimą tiesiai į vertinimo eigą, šią sistemą gali patikimai naudoti kūrėjai, tyrėjai ir DI technologijų kūrėjai – tiek turinio moderavimui, tiek kodo auditui, švietimo platformose ar faktų patikroje.

Ateities perspektyvos: plėtra ir atvirojo kodo potencialas

Ypač svarbu, kad platforma kurtą su plėtros galimybėmis – ateityje planuojama integruoti dar pažangesnius įrankius ir vertinimo sistemas. „Apple“ ir Kembridžas žada kodą paskelbti kaip atvirojo kodo projektą „Apple“ GitHub platformoje, paskatindami inovacijas ir bendradarbiavimą DI bendruomenėje.

Žengdami link vis patikimesnio dirbtinio intelekto, tokie proveržiai taps lemiamais, didinant pasitikėjimą autonominėmis skaitmeninėmis sistemomis ir jų veiksmingumu.

Šaltinis: neowin

„Technologijos visada mane žavėjo – nuo išmaniųjų telefonų iki dirbtinio intelekto proveržių. Džiaugiuosi galėdama dalintis naujienomis su jumis kiekvieną dieną.“

Komentarai

Palikite komentarą