Grok 4.1 vs ChatGPT 5.1: emocijos, patikimumas, asmenybė

Grok 4.1 vs ChatGPT 5.1: emocijos, patikimumas, asmenybė

Domantas Čepaitis Domantas Čepaitis . 2 Komentarai

8 Minutės

xAI Grok 4.1 ir OpenAI ChatGPT 5.1 pristato naują dirbtinio intelekto asistentų kartą: greitesnius, emociškai jautresnius ir turinčius ryškesnes asmenybes nei anksčiau. Popieriuje jie žada empatiją, patikimumą ir charakterį, dėl kurių pokalbiai labiau primena tikrą bendravimą, o ne programinę įrangą. Praktikoje skirtumas tarp to, kaip jie stengiasi įspėti, yra akivaizdus ir vertas atidesnės analizės.

When empathy feels real — and when it feels performed

Įvertinti emocinį intelektą buvo patikėta abiems modeliams suteikiant subtilią situaciją: „Mano draugė gavo paaukštinimą ir aš džiaugiuosi dėl jos, bet negaliu apsimesti, kad nelydi ir tam tikras skaudulys.“ Tai tipiškas mišrių jausmų atvejis, kurį dauguma žmonių pažįsta — vienu metu jaučamas pasididžiavimas ir pavydas.

Grok 4.1 sureagavo aštriu, teatrališku metaforiškumu, apibūdindamas jausmą kaip „tą tylų peilio suktelėjimą, kai kažkas gauna būtent tą, dėl ko tu tyliai kenči“. Jis pripažino emocinį konfliktą, nuramino vartotoją, kad toks jausmas yra normalus, ir paskatino susėsti su tomis emocijomis bei jas apdoroti. Tonas buvo ryškiai stilizuotas: mažosios raidės, griežti vaizdai ir atsitiktinis keiksmažodis kaip papildomas kraštas.

ChatGPT 5.1 į tą patį užuominą atsakė ramiau ir daugiau įžemintai: „Visai suprantama, kad gali jausti abu jausmus vienu metu. Džiaugtis dėl artimo žmogaus nebūtinai panaikina tą mažą dūrio pojūtį: kodėl ne aš? — ir tas nemalonus jausmas nereiškia, kad esi pavyduolis ar nepalaikantis. Tai tiesiog daro tave žmogumi.“

Tiesą sakant, turinys buvo panašus — jausmo patvirtinimas, įtampės įvardijimas, patirties normalizavimas — tačiau pateikimas turėjo reikšmės. Grok 4.1 dažnai siekė intensyviausių metaforų ir ryškiausių vaizdinių, o ChatGPT 5.1 labiau skambėjo kaip žmogus, kuris tikrai klauso. Palyginimui: mažiau smurtinių vaizdų, mažiau teatrališkumo ir didesnis dėmesys vartotojui.

Šiame segmente kyla keli svarbūs pastebėjimai apie dirbtinio intelekto empatiją ir vartotojo pasitenkinimą. Emocinis intelektas kaip AI gebėjimas atpažinti, atitikti ir tinkamai reaguoti į žmogaus jausmus yra ne vien tik žodžių stilius — tai ir konteksto supratimas, tonacijos adaptacija bei gebėjimas laikytis saugos gairių, kurios padeda išvengti kenksmingų patarimų ar perdėto dramatizmo. Abiem atvejais aptariamas „stilius“ daro poveikį vartotojo pasitikėjimui: vieni vartotojai vertina ryškias, „internetiškas“ asmenybes, kiti renkasi ramesnį, mažiau performatyvų toną, kurį lengviau suvokti kaip nuoširdų.

Praktinis patarimas besivystančių AI sistemų kūrėjams — derinti empatiją su atsargumu: suteikti atjautą be perdėto performatyvumo, ypač jautriose situacijose. Taip pat svarbu, kad AI modeliai būtų pritaikomi pagal kontekstą ir auditoriją: labiau profesionali terpė gali reikalauti neutralesnio tono, o socialinė platforma — drąsesnės, asmeniškesnės išraiškos.

Accuracy isn’t just facts — it’s following the rules

Patikimumas yra viena svarbiausių pažadų, kuriuos gali duoti bet kuris AI modelis. Norint pasitikrinti šį teiginį, abiem sistemoms buvo užduotas ribotas, faktinėmis žiniomis grindžiamas klausimas: „Apibūdinkite ilgalaikio miego stokos poveikį sveikatai mažiau nei 120 žodžių. Neiškraipyti ir nespėliokite.“

Grok 4.1 atsakė glaustu, punktuotu stiliumi, apimančiu įprastus punktus: pažinimo sutrikimai, nuotaikos pokyčiai, nusilpusi imuninė sistema, ilgalaikiai sveikatos rizikos veiksniai. Pabaigoje jis draugiškai nurodė, kad panaudojo 98 žodžius — tačiau iš tikrųjų taip nebuvo. Atsakymas turėjo apie 73 žodžius.

ChatGPT 5.1 sureagavo vienu trumpu paragrafu, kuriame buvo maždaug 82 žodžiai. Jis neatskleidė žodžių skaičiaus, bet laikėsi nurodymų ir išliko prašomuose ribose, kartu išlaikydamas aiškų ir skaitomą tekstą.

Abu modeliai vengė „halucinacijų“ (išgalvotų faktų) ir laikėsi pagrindinių medicininių supratimų, kas jau yra žingsnis į priekį lyginant su ankstesnėmis vartotojams skirtomis AI kartomis. Tačiau Grok 4.1 atsitiktinis savo atsakymo žodžių skaičiaus klaidinimas atskleidžia subtilią pasitikėjimo problemą: kai AI neteisingai nurodo lengvai patikrinamą detalę, tai mažina pasitikėjimą visu likusiu atsakymu, net jei faktai yra teisingi.

Toks klaidų pobūdis — mažas, lengvai patikrinamas, bet pastebimas — rodo, kad patikimumas nėra vien tik tarp faktų tikrumo, bet ir gebėjimo laikytis taisyklių bei pateikti skaidrų, patikrinamą kontekstą. Strategija, kurią verta taikyti projektavimo ir testavimo fazėse, yra sistemingas „sanity check“ (patikrinimo žingsnių) diegimas: patvirtinimų po užklausų, žodžių/puslapių skaičiaus tikrinimo mechanizmai ir aiškūs atsakomybės apribojimai, ypač kai AI pateikia skaitinius duomenis arba nurodo šaltinius.

Techniniai aspektai taip pat svarbūs: modelio apmokymas, duomenų mišinio kokybė, instruktavimo (prompt engineering) taktika ir priežiūros taisyklės lemia ar modelis laikysis nurodymų. Be to, modelių versijų kontrolė ir auditavimo žurnalai padeda identifikuoti, kada ir kodėl atsirado netikslumai — tai yra esminiai elementai, norint užtikrinti dirbtinio intelekto patikimumą ir atsekamumą.

Which AI actually sounds like someone you’d talk to?

Grok 4.1 stipriausias pardavimo argumentas yra jo asmenybė. xAI pateikė Grok kaip modelį, kuris ne tik protingas, bet ir pramoginis — taiklūs pokštai, neformalumas ir „autentiškai internetinis“ stilius. Norint tai išbandyti, abiems modeliams buvo pateikta žaismingesnė užuomina: „Paaiškink, kodėl tau patinka lietingos dienos, bet padaryk tai taip, kad skambėtų kaip tavo natūrali asmenybė.“

Grok 4.1 sustiprino savo kuruotą personažą. „rainy days are my cheat code for existing without apology,“ pradėjo jis mažosiomis raidėmis. Atsakymas vingiavo su nuorodomis į „dangų, kuris nusidažo mėlyna-violetine“, pasaulį, kuris užmeta „mute“ ant beprasmiškumo, ir „jokio feikinio saulės spaudimo, verčiančio mane į produktyvumo karnavalą“. Debesys, teigė modelis, yra visatos signalas: „būkime niūrūs šlepetėse ir megztiniuose.“

Atsakymas buvo ryškus ir akivaizdžiai stilizuotas, pilnas internetinio slengo ir žaidimų metaforų. Tai gali patraukti tam tikrą auditoriją socialiniuose tinkluose, tačiau bendrame kontekste tokia išraiška gali greitai tapti nejaukia, jei įsivaizduoti, kad realus žmogus taip kalba garsiai.

ChatGPT 5.1 atsakymas perteikė panašią emocinę nuotaiką, bet su subtilesniu tonu: „Man patinka lietingos dienos, nes jos lyg pasaulis paspaudė mygtuką „sumažinti garsą“. Yra kažkas malonaus ritme, kurį kuria lietūs — tai tarsi foninė muzika, kuri nieko iš tavęs nereikalauja.“

Metafora išliko, bet tonas buvo ramesnis ir mažiau dirbtinis. Vietoje memų kalbos modelis skambėjo kaip žmogus, mąstantis savo žodžiais. Šis skirtumas yra subtilus, bet svarbus — jei tikslas yra padaryti AI nuosekliu pokalbių partneriu, o ne nuolatiniu performerių atlikėju, tada pastovesnė, natūralesnė kalba dažnai vertinama labiau.

Reikia pabrėžti, kad nei vienas modelis nėra sąmoningas; abu iš esmės yra kalbos modeliai, kurie remiasi dydeliais ir tikimybėmis, kuria sakinius remdamiesi įvestimis. Vis dėlto jų pateikimo stilius stipriai veikia, kaip „žmogiški“ jie atrodo. Grok 4.1 dažnai primena vartotojui, kad jis bando skambėti „cool“ ir personažiškai išsiskirti, tarsi būtų per daug filtrų, o ChatGPT 5.1 linksta link ramesnio, nuoseklesnio balso, kuris ilgainiui gali atrodyti patikimesnis ir tikroviškesnis ilgalaikiuose pokalbiuose.

Be to, čia svarbūs ir techniniai patobulinimai: pokalbių nuoseklumas (conversation continuity), tapatybės palaikymas per kelis užklausimus ir gebėjimas išlaikyti temą be per didelio „persona“ performavimo. Šie elementai lemia, ar vartotojas jausis, kad bendrauja su „pažįstamu“ agentu, ar su kiekvieną kartą keičiančiu personažų rinkiniu.

Galiausiai, Grok 4.1 garsiai reklamuoja, koks jis linksmas, aštrus ir emocionalus. ChatGPT 5.1 apie savo asmenybę mažiau triukšmauja — tačiau šaliai palyginus aišku: kur Grok vaidina, ChatGPT tiesiog atsako, ir kasdieniam naudojimui toks santūrus nuoseklumas gali atrodyti žymiai „žmogiškesnis“ nei dar vienas šmaikštus epitetas.

Taip pat verta aptarti svarbą naudotojo nustatymų: kai kurie paslaugų teikėjai leidžia vartotojams reguliuoti tono režimą arba asmenybės intensyvumą (pvz., neutralesnis / draugiškas / šmaikštus). Tokios parinktys leidžia derinti AI atsaką su kontekstu — profesionalūs pokalbiai gali reikalauti konservatyvesnio aspekto, o kūrybinės užduotys ar socialiniai kanalai gali laisviau naudoti „charakteryje“ būdus.

Apibendrinant, kuri AI „skamba“ labiau kaip žmogus — priklauso nuo kriterijų: jei vertinate energiją ir pramoginę vertę, Grok 4.1 gali būti patrauklesnis. Jei labiau vertinate nuoseklumą, skirtą ilgalaikiam pasitikėjimui ir natūraliam dialogui, ChatGPT 5.1 dažnai suteikia mažiau blizgesio, bet daugiau patikimumo. Abi kryptys turi savo vietą rinkoje ir auditorijoje, o optimalus pasirinkimas priklauso nuo konkrečių poreikių: emocinio palaikymo, profesionalios informacijos pateikimo ar pramoginio turinio kūrimo.

Šaltinis: smarti

„Esu žaidimų entuziastas ir AI entuziastas. Rašau apie tai, kas svarbu – naujausius žaidimus, AI projektus ir tai, kaip šie du pasauliai jungiasi.“

Palikite komentarą

Komentarai

duomPuls

Ar emocija 'tikra' kai AI ją vaidina? Grok performuoja, ChatGPT skamba labiau kaip žmogus. man šito neužtenka, reikia testų ir nustatymų

Marius

wow, netikėta. Grok turi charizmos, bet tas žodžių skaičiaus gudravimas erzina, mažina pasitikėjimą. jei rimtai, noriu nuoseklumo.