3 Minutės
Neseniai „Apple“ dirbtinio intelekto ir mašininio mokymosi komanda paskelbė reikšmingą mokslinį straipsnį „Mąstymo iliuzija“, kuriame teigiama, kad šiuolaikiniai didieji kalbiniai modeliai iš tiesų nesugeba savarankiškai samprotauti ar vykdyti loginio mąstymo. Šis tyrimas sukėlė karštas diskusijas dirbtinio intelekto bendruomenėje. Netrukus mokslininkų atsakas, pasirodęs tame pačiame sektoriuje, suabejojo „Apple“ išvadomis ir paskatino naują diskusijų bangą apie tikruosius AI modelių ribotumus ir potencialą.
Pagrindiniai argumentai: Ar dabartiniai dirbtinio intelekto modeliai iš tiesų riboti?
Elenna Lason, tyrėja iš „Open Philanthropy“, paskelbė atsakomąjį straipsnį „Mąstymo iliuzijos iliuzija“, kuriame tiesiogiai kritikuoja „Apple“ argumentus. Remdamasi pažangiu „Claude Opus“ modeliu iš „Anthropic“, Lason tvirtina, kad „Apple“ rezultate matomi trūkumai susiję su modeliavimo, konfigūravimo ar užduočių pateikimo specifika, o ne su pačia AI modelių ribotumo problema. Jos teigimu, būtent techniniai ir nustatymų aspektai nulėmė „Apple“ tyrime pabrėžtus AI trūkumus.
Pagrindinė „Apple“ metodologijos kritika
Lason išskyrė tris esmines „Apple“ vertinimo problemas:
- Tokenų apribojimų nepaisymas: Pasak Lason, AI modeliai loginių užduočių neišsprendė ne dėl gebėjimų trūkumo, o dėl griežtų išvesties tokenų limitų, kurie buvo nustatyti „Apple“ eksperimentuose.
- Nesprendžiamos užduotys laikytos nesėkme: Kai kurios, kaip antai „Upės kirtimo“ užduoties, modifikacijos buvo objektyviai neišsprendžiamos, bet „Apple“ jas vistiek užskaitė kaip AI nesėkmes, taip nesąžiningai nubausdama modelius.
- Vertinimo sistemos apribojimai: „Apple“ automatizuota sistema apdovanojo tik visiškai užbaigtus, žingsnis po žingsnio atsakymus. Net jei AI pateiktas dalinis ar strategiškas sprendimas buvo logiškas, jis vistiek buvo įskaitomas kaip nesėkmė, nepriklausomai nuo tikro samprotavimo lygio.
Norėdama pagrįsti savo išvadas, Lason pakartojo „Apple“ atliktus bandymus, tačiau pašalino išvesties apribojimus. Rezultatai atskleidė, kad be dirbtinių apribojimų AI modeliai gebėjo išspręsti sudėtingas logines užduotis, o tai rodo, jog, tinkamai sukonfigūravus sistemas, samprotavimo sugebėjimai išties egzistuoja.

AI testavimas su klasikinių logikos galvosūkių rinkiniais
„Apple“ pradinis tyrimas AI samprotavimą vertino taikant keturias klasikines loginio mąstymo užduotis: Hanoinės bokštą (paveikslėlyje aukščiau), Blokų sandėlio užduotį, Upės kirtimo galvosūkį ir šuolių užduotį šaškėse. Šie galvosūkiai, dažnai naudojami tiek pažintinių mokslų, tiek AI tyrimuose, didėjant užduočių sudėtingumui reikalauja vis tvirtesnių daugiaetapių planavimo gebėjimų.
„Apple“ reikalavo, kad AI modeliai ne tik pateiktų teisingą atsakymą, bet ir detaliai išdėstytų visą „mąstymo eigą“, taip užtikrinant griežtesnį vertinimą.
Rezultatų nuosmukis didėjant užduočių sudėtingumui
Pagal „Apple“ tyrimą, didėjant užduočių sudėtingumui, modelių tikslumas ženkliai mažėjo, kol sudėtingiausiose užduotyse pasiekė nulį. Tai „Apple“ aiškino kaip įrodymą, kad net pažangiausi kalbiniai modeliai šiuo metu patiria esminį loginių gebėjimų lūžį.
Bendruomenės atsakas: problemos su samprotavimu ar su išvestimi?
AI tyrėjai ir su šia sritimi susijusios bendruomenės greitai atkreipė dėmesį į „Apple“ interpretacijos trūkumus. Kritikai pabrėžė, kad dėl pertraukto atsakymo (dėl ribOTO kiekio tokenų) nesėkmė nelaikytina samprotavimo stoka – dažnai modeliai gebėdavo generuoti teisingą logikos eigą, tačiau jų išvados buvo apribotos techninių sąlygų. Be to, minusiniai balai buvo skirti net neišsprendžiamoms užduotims, ką daugelis vertina kaip neteisingą vertinimą.
Praktinė reikšmė ir įtaka dirbtinio intelekto rinkai
Šios diskusijos svarbios tobulinant generatyvinį DI, pažangius didžiuosius kalbinius modelius ir DI asistentus. Kadangi technologijų kompanijos siekia kurti AI, galintį spręsti realias, daugiaetapes užduotis – nuo autonominių sprendimų iki programavimo ar paieškos – supratimas apie tikruosius modelių stiprius ir silpnus taškus yra itin svarbus.
Tiek „Apple“, tiek Lason tyrimai pabrėžia, kokią reikšmę turi aiški AI testavimo metodologija ir sąžiningi vertinimo standartai. Tobulėjant generatyviniam DI, skaidrūs, visapusiški ir objektyvūs testavimai taps būtini norint realiai įvertinti bei pagerinti AI problemų sprendimo gebėjimus.
Šaltinis: arxiv

Komentarai