AI pokalbių robotų patikimumas: kas klysta dažniau

AI pokalbių robotų patikimumas: kas klysta dažniau

Domantas Čepaitis Domantas Čepaitis . Komentarai

5 Minutės

Paklauskite AI pokalbių roboto akcijos kainos, teismo posėdžio datos ar įmonės vadovo vardo, ir atsakymas gali nuskambėti visiškai užtikrintai. Būtent tai ir kelia nerimą. Sakinys gali būti nugludintas, tonas gali atrodyti tvirtas, tačiau faktai vis tiek gali būti klaidingi.

Nauja patikimumo analizė, kurią atliko Legal Guardian Digital, SEO bendrovė, dirbanti su advokatų kontoromis, skaičiais pagrindžia problemą, kurią daugelis naudotojų jau atpažįsta: kai kurie populiarūs AI pokalbių robotai haliucinuoja gerokai dažniau nei kiti. Kadangi maždaug ketvirtadalis JAV darbuotojų dabar reguliariai naudoja dirbtinio intelekto įrankius, skirtumas tarp naudingo asistento ir įtikinamo dezinformacijos šaltinio tikrai nėra smulkmena.

Nepatogi dalis: pasitikėjimas nėra tikslumas

Didieji kalbos modeliai nemąsto taip, kaip žmonės. Jie mokomi prognozuoti tikėtinus žodžius ir frazes pagal modelius, aptiktus milžiniškuose tekstų kiekiuose. Kai sistema turi pakankamai konteksto, tai gali duoti greitus ir naudingus atsakymus. Kai konteksto trūksta, modelis vis tiek gali sugeneruoti įtikinamai skambantį atsakymą, nes statistiškai žodžiai dera tarpusavyje.

Būtent tai žmonės dažniausiai turi omenyje sakydami, kad AI pokalbių robotas haliucinuoja. Jis nesvajoja. Jis nemeluoja žmogiškąja prasme. Jis pateikia atsakymą neturėdamas patikimo faktinio pagrindo, todėl vardus, datas, teisines nuorodas, medicinines detales, finansinius skaičius ir naujausias žinias vis dar būtina patikrinti žmogui.

Tyrime buvo palyginti keli gerai žinomi AI modeliai, vertinant haliucinacijų dažnį, klientų pasitenkinimą, atsakymų kokybę ir veikimo laiką. Šie veiksniai buvo sujungti į indekso balą nuo 0 iki 100, suteikiant platesnį vaizdą, kurie pokalbių robotai yra patikimiausi kasdieniam naudojimui.

Google Gemini šioje grupėje išsiskyrė didžiausiu haliucinacijų dažniu ir, kaip pranešama, netikslią informaciją pateikė 32 % atsakymų. Šis rodiklis ypač įdomus turint omenyje pranešimus, kad Apple moka Google mažiausiai 1 mlrd. JAV dolerių per metus už pritaikyto 1,2 trilijono parametrų Gemini modelio naudojimą būsimam Siri atnaujinimui, kurio tikimasi su iOS 27.

ChatGPT atsiliko nedaug: haliucinacijos pasirodė maždaug trijuose iš dešimties atsakymų. Paprastai tariant, jei šie skaičiai pasitvirtintų, šiame teste ChatGPT būtų maždaug du kartus labiau linkęs pateikti klaidingą atsakymą nei DeepSeek. Toks palyginimas tikriausiai sulauks dėmesio, juolab kad DeepSeek buvo sukurtas už gerokai mažesnę mokymo kainą nei pirmaujantys JAV modeliai.

Perplexity AI pagal haliucinacijų dažnį pasirodė geriausiai: klaidingi atsakymai naudotojus pasiekė 13 % atvejų. DeepSeek buvo visai šalia su 14 %, o Elono Musko Grok pasiekė 15 %. Naudotojams, kurie AI įrankiais remiasi tyrimams, santraukoms ar greitam faktų tikrinimui, tokie skirtumai yra reikšmingi.

Prieinamumas internete vis dar svarbus

Tikslumas yra tik dalis bendro vaizdo. Pokalbių robotas gali atrodyti puikiai teoriškai, tačiau būti nenaudingas, jei neveikia tada, kai jo prireikia. Pagal veikimo laiką Perplexity AI ir Grok buvo vienintelės dvi apklausoje vertintos paslaugos, kurios išliko prieinamos visą bandymo laikotarpį.

ChatGPT ir Gemini nedaug atsiliko, jų veikimo laikas siekė atitinkamai 99,98 % ir 99,95 %. Net Claude, kurio veikimo laikas tyrime buvo žemiausias, išliko labai patikimas ir pasiekė 99,68 %. Praktiškai dauguma šių įrankių beveik visą laiką buvo pasiekiami internetu, tačiau net maži skirtumai gali būti svarbūs įmonėms, priklausomoms nuo AI darbo procesų.

Naudotojų pasitenkinimas atskleidė kitą pusę. DeepSeek ir ChatGPT abu gavo aukščiausią klientų pasitenkinimo įvertinimą: 4,7 iš 5. Perplexity AI sekė su 4,6 balo. Meta AI atsidūrė apačioje su 3,4 balo, o keli kiti modeliai susitelkė maždaug ties 4,4.

Pagal atsakymų nuoseklumą ir kokybę pirmavo Kimi AI, surinkęs 4,3 iš 5. ChatGPT, Microsoft Copilot ir Gemini pasidalijo ta pačia vieta su 4,0 balo. Meta AI vėl liko paskutinis su 3,4 balo, o tai rodo, kad silpnesnį bendrą rezultatą lėmė ne viena prasta kategorija.

Sujungus visus veiksnius, pirmąją vietą užėmė Perplexity AI, surinkęs 85 indekso balus. Grok liko antras su 79 balais, po jo sekė DeepSeek. ChatGPT finišavo šeštas su 50 balų, o Gemini užėmė aštuntą vietą su 41 balu. Meta AI liko apačioje su 37 balais.

Svarbiausia pamoka nėra ta, kad vienu pokalbių robotu reikėtų aklai pasitikėti, o kito vengti visiems laikams. AI įrankiai keičiasi greitai. Modeliai atnaujinami, apsaugos priemonės koreguojamos, o našumas gali pagerėti beveik per naktį. Vis dėlto toks reitingas yra naudingas priminimas: žinomiausias pokalbių robotas ne visada yra patikimiausias, o sklandžiausias atsakymas ne visada yra teisingas.

Visiems, kurie AI naudoja darbe, saugiausias požiūris yra paprastas. Pokalbių robotus vertinkite kaip darbo spartintojus, o ne galutinius autoritetus. Leiskite jiems rengti juodraščius, struktūruoti informaciją, apibendrinti ir generuoti idėjas. Tačiau kai atsakymas susijęs su pinigais, sveikata, teise, tapatybe ar sprendimu, turinčiu realių pasekmių, prieš veikdami patikrinkite faktus.

„Esu žaidimų entuziastas ir AI entuziastas. Rašau apie tai, kas svarbu – naujausius žaidimus, AI projektus ir tai, kaip šie du pasauliai jungiasi.“

Palikite komentarą

Komentarai