K Prize AI Kodo Konkursas Parodo AI Programavimo Ribas: Pirmieji Rezultatai ir Nauji Standartai

3 Minutės

K Prize AI kodo konkursas atskleidė pirmuosius rezultatus ir AI programavimo ribotumus

Svarbus žingsnis dirbtinio intelekto (DI) vystymosi srityje – K Prize kodo konkursas – paskelbė pirmuosius rezultatus. Tai tapo realybės patikrinimu DI programavimo įrankiams. Šį konkursą organizavo ne pelno siekiantis Laude institutas, o sumanytojas – Databricks ir Perplexity bendraįkūrėjas Andy Konwinski. K Prize AI kodavimo iššūkis kelia naujus reikalavimus vertinant DI, kaip programinės įrangos kūrėjų, galimybes.

Netikėtas laimėtojas ir žema sėkmės kartelė

Pirmasis nugalėtojas, Brazilijos promptų inžinierius Eduardo Rocha de Andrade, pelnė 50 000 JAV dolerių prizą, pasiekęs aukščiausią balą konkurse. Vis dėlto įdomiausia ne jo pergalė, bet itin žemi rezultatai – Andrade teisingai išsprendė vos 7,5 % užduočių. Tai atskleidžia didelį atotrūkį tarp šiandieninių lūkesčių DI programavimo sistemoms ir jų realių gebėjimų susidūrimo su netreniruotomis, realiomis programavimo problemomis metu.

DI vertinimo kriterijų iššūkis

Idėjos autorius Andy Konwinski pabrėžė, kad būtina kurti tokius DI testus ir vertinimus (angl. benchmarks), kurie iš tiesų keltų iššūkį modeliams. „Vertinimo standartai turi būti sudėtingi, kad būtų prasmingi“, – pažymėjo Konwinski, pabrėždamas, kad K Prize sąmoningai riboja skaičiavimo išteklius. Tokiu būdu konkurse gali varžytis ir mažesni, atvirojo kodo (open source) DI modeliai, nenusileisdami didžiosioms pramonės sistemoms.

Norėdamas dar labiau paskatinti inovacijas, Konwinski pažadėjo 1 mln. JAV dolerių prizą pirmajam atvirojo kodo DI modeliui, kuris pasieks daugiau nei 90 % K Prize testo įvertinimą – tačiau realūs rezultatai rodo, kad iki šio tikslo kelias dar ilgas.

K Prize ir SWE-Bench: naujas sąžiningumo standartas

K Prize konkursas, įkvėptas populiariosiojo SWE-Bench vertinimo, testuoja DI modelius su tikromis GitHub užduotimis. Dalyviams tenka spręsti realius programavimo iššūkius. Nors SWE-Bench naudoja fiksuotą užduočių rinkinį, su kuriuo modeliai galėjo susidurti treniruotės metu, K Prize išsiskiria kaip „neužterštas“ alternatyvus vertinimas. Dėl laiko ribojamos registracijos ir tik naujai pažymėtų GitHub užduočių įtraukimo K Prize užtikrina, kad nėra išankstinio modelių supažindinimo ar specifinio mokymo pagal šias problemas.

Lyginamieji rezultatai atskleidžia reikšmingas spragas

Rezultatų skirtumai tarp šių vertinimų iškalbingi: SWE-Bench dalyviai „Verified“ teste yra pasiekę net 75 %, o sudėtingesniame „Full“ – 34 %, kai K Prize aukščiausias rezultatas – tik 7,5 %. Tokia disproporcija kelia diskusijas DI bendruomenėje: ar SWE-Bench rezultatus paveikė informacijos nutekėjimas, ar gi naujos GitHub užduotys pateikia ypatingus iššūkius?

„Turime atlikti daugiau pasikartojančių testų, kad tiksliau suvoktume situaciją“, – TechCrunch sakė Konwinski. Jis pabrėžia, kad kūrėjai kiekvieną K Prize ciklą turi peržiūrėti strategijas bei tobulinti DI modelius.

Peržiūrima DI galimybių ir pramonės standartų samprata

Nors populiarėja tokie DI įrankiai kaip Copilot ar ChatGPT, rezultatai rodo, jog dabartiniai DI modeliai dar toli nuo laisvesnių, atviro tipo programinės įrangos kūrimo užduočių įvaldymo. Sunkiai atkartojami ar realių programavimo problemų neatitinkantys testai tampa nepatikimi, todėl K Prize vertinimas laikomas svarbia priemone sąžiningai ir objektyviai vertinti pažangą DI programavimo srityje.

Pritardamas šiai nuomonei, Prinstono tyrėjas Sayash Kapoor pažymi, kad tik nauji, švieži vertinimai leidžia nustatyti, ar DI spragų priežastis – duomenų filtravimas ar tikros kompetencijos trūkumas.

Ateities perspektyvos: atviras iššūkis tiek DI, tiek kūrėjams

Konwinski ir DI tyrėjų bendruomenė mato K Prize ne tik kaip konkursą, bet ir kaip viešą iššūkį visai DI sričiai atsikratyti nepagrįstos euforijos. Nors medijos nuolat giriamos DI specialistų pasiekimais, šiandieniniai rezultatai primena: net 10 % įvertinimas sąžiningame, naujoviškame DI programavimo teste vis dar yra išskirtinis pasiekimas. Šio konkurso raida žada itin vertingas įžvalgas, kurios gali formuoti DI vaidmenį programinės įrangos inžinerijoje ateityje.

Reikšmė DI kūrimo ekosistemai

K Prize tampa svarbiu matuokliu tiek kūrėjams, tiek DI tyrėjams, siekiantiems tikro, praktinio poveikio. Šis konkursas skatina skaidrius, atvirojo kodo ir efektyvius modelius, didina inovacijų galimybes už didžiųjų laboratorijų ribų. Įmonės, akademinės komandos ir nepriklausomi kūrėjai, norintys plėsti DI programų generavimo galimybes, turėtų sekti besikeičiantį K Prize rezultatų sąrašą – tikrą DI pažangos barometrą.

Šaltinis: techcrunch

Viltė Petrauskaitė

Sveiki! Esu Viltė, kasdien sekanti technologijų naujienas iš viso pasaulio. Mano darbas – pateikti jums svarbiausius ir įdomiausius IT pasaulio įvykius aiškiai ir glaustai.

Komentarai

Palikite komentarą

K Prize AI Kodo Konkursas Parodo AI Programavimo Ribas: Pirmieji Rezultatai ir Nauji Standartai

K Prize AI kodo konkursas atskleidė pirmuosius rezultatus ir AI programavimo ribotumus

Netikėtas laimėtojas ir žema sėkmės kartelė

DI vertinimo kriterijų iššūkis

K Prize ir SWE-Bench: naujas sąžiningumo standartas

Lyginamieji rezultatai atskleidžia reikšmingas spragas

Peržiūrima DI galimybių ir pramonės standartų samprata

Ateities perspektyvos: atviras iššūkis tiek DI, tiek kūrėjams

Reikšmė DI kūrimo ekosistemai

Komentarai

Susijusios straipsniai

Dirbtinio intelekto klaidos JAV teisme: AI sukelta sumaištis biotechnologijų byloje

LG pristato 34BA75QE-B UltraWide lenktą monitorių: idealus profesionalams ir kūrėjams

Galaxy S25 FE: Naujausi nutekėjimai atskleidžia spalvų pasirinkimą ir technines specifikacijas

Samsung Galaxy S25 vartotojai patirs nedidelį stabilios One UI 8 versijos išleidimo vėlavimą

Intel susiduria su sudėtingais sprendimais dėl stabilaus 2025 m. antrojo ketvirčio rezultato

Nokia sumažina 2025 metų pelno prognozę 300 mln. JAV dolerių

Pristatomas iOS 26 viešas beta testavimas: Naujas skyrius Apple sąsajoje

Samsung pristato žaismingas pirštų atspaudų animacijas LockStar skirtuke One UI 8

Laukiama Galaxy S26 Ultra: svarbūs atnaujinimai kameros srityje