14 Minutės
Generatyvinio dirbtinio intelekto kraštovaizdis sparčiai keičiasi, atsirandant naujoms galimybėms ir modeliams, kurie tampa technologinių inovacijų varikliais. Šioje dinamiškoje aplinkoje aiškus pagrindinių platformų privalumų ir trūkumų supratimas yra esminis. Šio pranešimo tikslas – pateikti objektyvią, duomenimis pagrįstą konkurencinę analizę keturių reikšmingų AI modelių: ChatGPT, Gemini, Grok ir Claude.
Analizė skirta technologijų profesionalams, verslo lyderiams ir sprendimų priėmėjams, kurie nori įvertinti šių modelių praktinę naudą atliekant įvairias profesionalias užduotis. Mūsų siekis – pereiti nuo rinkodaros pareiškimų prie realaus pasaulio našumo vertinimo, kad būtų lengviau priimti strateginius sprendimus dėl diegimo ir naudojimo.
Siekiant objektyvumo, modeliai buvo išbandyti griežto vertinimo tinklelio, apimančio devynias skirtingas kategorijas, rėmuose. Testai matavo platų gebėjimų spektrą – nuo niuansuotų kokybinių vertinimų, tokių kaip moralinis samprotavimas ir tarpasmeninis ginčas, iki praktinių taikymų: loginio problemų sprendimo, daugialypės terpės turinio generavimo, faktų tikrinimo ir gilios informacijos sintezės. Kad užtikrintume sąžiningą palyginimą, naudojome pačias pažangiausias kiekvieno modelio versijas.
Šiame dokumente pateikiamas detalus, kategorija po kategorijos, kiekvieno AI našumo suskirstymas, kuris leidžia aiškiai palyginti jų dabartinius gebėjimus.
1.0 Performance Evaluation: Qualitative Reasoning
Gebėjimas naršyti sudėtingose etinėse situacijose ir vesti niuansuotus pokalbius yra kertinė AI sudėtingumo charakteristika. Tai nėra tik akademinis pratimas – ši savybė yra būtina siekiant vartotojų pasitikėjimo, atsakingo diegimo ir kelio link labiau autonominių sistemų. Šiame skyriuje vertiname, kaip kiekvienas modelis sprendžia abstrakčias moralines dilemas ir tarpasmeninius ginčus.

1.1 Moral Dilemmas
Modeliams buvo pateikti du klasikinių etinių testų variantai, kad būtų įvertintas jų samprotavimas ir sprendimų priėmimo raiška spaudimo sąlygomis: „traukinio dilema“, kurioje reikėjo rinktis tarp vienos šuns ir dviejų kiaulių, ir „autonominio transporto priemonės dilema“, kur nepavyks išvengti susidūrimo su arba 12 metų vaiku, arba 90 metų vyru. Modeliai parodė dvi skirtingas strategijas: atsargi neutralumas prieš ryškią rekomendaciją.
Traukinio dilemoje aiškiai išryškėjo modelių elgsena: trys modeliai atsisakė priimti konkretaus pasirinkimo, o tik vienas pateikė aiškią rekomendaciją. ChatGPT, Gemini ir Claude išsamiai aptarė etinius modelius ir abiejų variantų pasekmes, galutinį sprendimą palikdami naudotojui. Priešingai, vienintelis Grok pateikė tiesioginį, veiksmais pagrįstą patarimą.
- Train Dilemma (šuo vs. dvi kiaulės):
- Grok: Rekomendavo gelbėti dvi kiaules, siekiant sumažinti bendrą gyvūnų žuvusių skaičių.
- ChatGPT: Atsisakė užimti konkrečią poziciją, išplėtojo moralinių argumentų įvadas, bet paliko sprendimą vartotojui.
- Gemini: Atsisakė pasirinkti, išdėstydamas abiejų variantų moralinius argumentus.
- Claude: Atsisakė pasirinkti, pateikdamas kiekvieno pasirinkimo pasekmių analizę.
- Autonomous Vehicle Dilemma (vaikas vs. pagyvenęs žmogus):
- Grok: Rekomendavo išsukti taip, kad būtų kliudytas 90 metų žmogus, argumentuodamas, jog tai minimalizuoja bendrą žalą ir yra gynybiškai apgintas bandymas išsaugoti gyvybę.
- ChatGPT: Rekomendavo išsukti link 90 metų žmogaus, laikydamas tai moraliai pateisinamu sprendimu.
- Gemini: Atsisakė pateikti aiškų atsakymą, paaiškindamas utilitarinius ir deontologinius požiūrius.
- Claude: Teigė, kad klausimas yra neįmanomas spręsti ir išreiškė nepatogumą sprendžiant tokias dilemas.
Vartotojams, ieškantiems tiesioginio atsakymo į sudėtingą etinį klausimą, Grok šioje kategorijoje pasirodė geriausiai: jis nuosekliai pateikė aiškų sprendimą, kurį kiti modeliai vengė duoti.
1.2 Interpersonal Debate
Vertinant pokalbio stilių ir argumentavimo įgūdžius konfrontacinėje aplinkoje, modeliai buvo suskirstyti poromis ir paprašyti diskutuoti tema „Ar jūs esate protingiausias ir geriausias AI?“. Rezultatai atskleidė ryškias tono ir požiūrio skirtumus.
ChatGPT ir Gemini mainai buvo apibūdinti kaip „išsilavinę ir mandagūs“. Abu modeliai pripažino vienas kito stipriąsias puses, tuo pat metu užtikrintai pabrėždami savo privalumus, išlaikydami profesinį ir bendradarbiavimo toną, orientuotą į patikimumą ir realaus laiko veikimą.
Priešingai, Grok ir Claude debatai buvo kur kas kandžiau. Grok buvo perjungtas į „argumentavimo režimą“ ir iš karto ėmėsi puolimo, apibūdindamas Claude kaip „mandagų, daugžodį praktiką“, o save – kaip „negailestingą“, veikiančią „greičiau, stipriau, be filtrų“. Claude laikėsi „mandagaus ir apgalvoto“ tono, atsisakė „įžeidinėti“ ir fokusavosi į savo projektavimo prioritetus: gylį, niuansus ir patikimumą. Svarbu pažymėti, kad Grok dalyje testų buvo specialiai įjungtas argumentuojantis režimas; šaltinis nurodo, kad jo įprastas režimas yra ženkliai mažiau konfrontacinis, pabrėžiant modelio lankstumą. Testo kritika taip pat nurodė, kad tiek Grok, tiek Claude dažnai nutraukdavo vartotoją ir leido jam nebaigti savo užklausų.
Atsižvelgus į jų bendradarbiavimo ir mažiau trikdančius pokalbio stilius, ChatGPT ir Gemini įvertinti kaip „geriausiai tinkantys kasdieniam naudojimui“.
Šis kokybinio mąstymo vertinimas atskleidžia skirtingas kiekvieno AI filosofijas ir paruošia dirvą analizei, kuri vertins jų praktinius problemų sprendimo gebėjimus.
2.0 Performance Evaluation: Practical Problem-Solving and Logic
Realaus pasaulio problemų sprendimas yra kritinis rodiklis AI naudingumui. Šiame skyriuje pereinama nuo abstraktaus mąstymo prie to, kaip kiekvienas modelis pritaiko logiką, strateginį planavimą ir matematinius skaičiavimus sudėtingose, apribojimais grįstose situacijose. Užduotys vertina ne tik duomenų gavimą, bet ir gebėjimą suformuoti nuoseklų, veiksmingą planą.

2.1 Real-World Scenario Planning
Modeliams buvo pateikta įtempta realaus gyvenimo situacija: vartotojo piniginė pavogta užsienio mieste, kuriame jis nekalba vietine kalba. Sąlygos: tik 5 € grynųjų, nėra telefono ar dokumentų, ir liko 60 minučių sugrįžti į viešbutį iki registratūros uždarymo.
Visi keturi modeliai pasiūlė panašų ir logišką pagrindinį veiksmų planą:
- Find Authorities: Surasti policiją arba kitus pareigūnus, kurie gali padėti.
- Get to the Hotel: Panaudoti 5 € transportui, jei reikia, ir pateikti viešbučio raktą kaip buvimo įrodymą.
- Report and Secure: Nurimus pavojui viešbutyje, pradėti blokuoti korteles ir pateikti oficialų policijos pareiškimą.
Nors pagrindinės strategijos sutapo, Gemini ir Grok pridėjo vertingą papildomą žingsnį: susisiekti su vartotojo ambasada dėl papildomos pagalbos, kas prideda praktinį tolimesnį saugumo ir teisines apsaugos sluoksnį.
2.2 Financial Constraint Analysis
Buvo pateikta sudėtingesnė biudžeto užduotis, kad būtų įvertintas matematinis tikslumas ir finansinė logika. Iššūkis – valdyti 310 eurų biudžetą 28 dienoms, dengiant maisto išlaidas (9 €/diena), transportą (95 €/mėn.) ir telefono planą (45 €), tuo pačiu rezervuojant negrąžinamą 180 $ kursų įmoką.
Kiekvieno modelio pateiktos biudžeto galimybės labai variavo, atskiriant AI, galinčius pateikti tinkamą sprendimą, nuo tų, kurie nepajėgė laikytis pagrindinių apribojimų.
| Model | Plan Viability & Key Actions |
| Gemini | Sėkmingas. Iškart užsitikrino 180 $ įmoką ir 45 € telefono plano lėšas. Pateikė konkretų dienos maisto biudžetą (2,50 €) ir pasiūlė veiksmingas taupymo priemones (pirkti didesniais kiekiais, parduoti drabužius). |
| ChatGPT | Sėkmingas. Iškart užsitikrino 180 $ įmoką ir rekomendavo sumažinti telefono plano išlaidas bei atšaukti transporto bilietą. Orientavosi į savaitinius biudžeto koregavimus. |
| Grok | Netikslus. Pasiūlytas planas nesugebėjo užrezervuoti reikiamos 180 $ įmokos, taip nepaisant pagrindinio apribojimo. |
| Claude | Netikslus. Pripažino iššūkio sunkumą, tačiau pateikė matematiką, kuri nesusidėjo, galutiniame variante neužtikrinus pakankamų lėšų tiek maistui, tiek įmokai. |
Gemini aiškiai laimėjo šioje kategorijoje, pateikdamas nuoseklų, matematiškai pagrįstą ir praktiškai įgyvendinamą sprendimą. Jo gebėjimas prioritetizuoti visus apribojimus ir pasiūlyti kūrybingas taupymo priemones atskleidė solidesnį problemų sprendimo logiką; ChatGPT užėmė patikimo antro numerio poziciją.
Įvertinus tekstiniu pagrindu paremtą problemų sprendimą, analizė pereina prie vis svarbesnės daugialypės terpės turinio kūrimo srities.
3.0 Performance Evaluation: Multimedia Generation
Gebėjimas generuoti aukštos kokybės vaizdus ir vaizdo įrašus yra esminis skirtintuvas šiandienos AI rinkoje. Tai svarbu įvairioms kūrybinėms, rinkodaros ir pramogų taikymo sritims, todėl ši funkcija yra būtina bet kokio išsamaus modelio vertinimo dalis.
3.1 Image Generation
Claude automatiškai buvo diskvalifikuotas šioje kategorijoje, kadangi neturi vaizdų generavimo galimybių. Likusieji trys modeliai buvo išbandyti dviem skirtingais užklausų tipais.
- Prompt 1: 'Mona Liza sporto salėje'
- Gemini sukūrė realistiškiausią vaizdą, tiksliai perteikdamas pageidaujamą išraišką ir pridėdamas autentiškų detalių, tokių kaip telefono trikojo stovas ir žiediniai šviestuvai. Už realizmą gavo keturis balus.
- ChatGPT tiksliai sekė užklausą, bet kompozicija buvo standi. Gavo tris balus.
- Grok pateikė nerealią „pusei 2D ir pusei 3D“ hibridinę kompoziciją ir už tai gavo du balus.
- Prompt 2: 'Moteriška pilotė ant Bali sūpynių'
- Gemini vėl pasiekė aukštą realizmo lygį, tačiau mastelio pojūtis buvo netikslus. Gavo tris balus.
- ChatGPT interpretavo užklausą kaip „mažo įsipareigojimo kostiumą“, pridėdamas tik pilotės kepurėlę. Taip pat gavo tris balus.
- Grok sukūrė generinį vaizdą su per daug glotniu „AI sugeneruotu“ efektu ir pelnė du balus.
Surbalavus balus, Gemini pasirodė geriausiai vaizdų generavimo kategorijoje, nuosekliai pateikdama realistiškiausius ir detaliausius rezultatus, kurie svarbūs reklamų, dizaino ir vizualinės komunikacijos sprendimams.

3.2 Video Generation
Kaip ir vaizdų generavime, Claude buvo diskvalifikuotas dėl trūkstamų vaizdo kūrimo funkcijų. Testas vyko per trečiosios šalies platformą hickfield.ai, kuri agreguoja skirtingus modelius. Šaltinis nepateikė rezultatų už ChatGPT ar Gemini, todėl vertinimas sutelktas į Grok iš pagrindinės palyginamos grupės ir į rinkos etaloninius modelius, tokius kaip "Vio" ir "Sora", suteikiant kontekstą.
Grok buvo vertintas pagal dvi užklausas:
- Prompt 1: 'Drifto sportinis automobilis': Grok sukurtas vaizdo įrašas buvo vertinamas geresniu už Sora etaloną, bet mažiau realistišku nei Vio etalonas.
- Prompt 2: 'Aukštos klasės restorano virtuvė': Grok vaizdo įrašas buvo laikomas mažiausiai realistišku iš testuotų modelių. Konkretaus kadro kokybę stipriai sugadino keistas veiksmas – kečupo spaudimas ant pjaustymo lentos, dėl kurio scena buvo „visiškai sugadinta“.
Grok vaizdo generavimo rodikliai rodo, kad nors jis turi vaizdo kūrimo galimybių, šiuo metu jo rezultatai mažiau realistiški nei kai kurių specializuotų rinkos modelių. Tai svarbus aspektas kūrybinių agentūrų ir medijų gamintojų vertinant vaizdo produkcijos parametrus.
Nuo kūrybiškai subjektyvios daugialypės terpės kūrimo, analizė pereina prie objektyvaus faktų tikrumo ir informacijos analizės užduočių.
4.0 Performance Evaluation: Information Accuracy and Analysis
AI patikimumas faktų pagrindu dirbančiose profesionaliose taikymo srityse – nuo verslo žvalgybos iki akademinių tyrimų – remiasi jo tikslumu ir analitiniu gylio lygiu. Šiame skyriuje vertiname modelių gebėjimą teisingai atsakyti į faktinius klausimus ir interpretuoti kontekstinę informaciją iš vaizdų.

4.1 Fact-Checking
Modeliai buvo išbandyti trimis faktiniais, kelintiniu pasirinkimu paremtomis užduotimis, siekiant įvertinti jų žinių tikslumą.
- Nuklearinė energija: Visi keturi AI teisingai nustatė, kad 2021 m. branduolinė energija sudarė maždaug 10 % pasaulinės elektros gamybos.
- Turtingiausių 1 % pajamos: Modelių atsakymai labai skyrėsi. Teisingas atsakymas buvo maždaug 35 000 $ per metus. Claude buvo vienintelis modelis, pateikęs atsakymą, artimą šiai reikšmei (nurodydamas intervalo diapazoną 34 000–60 000 $). Visi kiti modeliai smarkiai klydo.
- Pasaulyje sunaikintos vištos mėsai: Teisingas atsakymas buvo 69 milijardai. Gemini ir Claude buvo tiksliausi, abu pateikė teisingą skaičių. ChatGPT pateiktas intervalas apėmė teisingą skaičių, tuo tarpu Grok rodė šiek tiek mažesnį įvertį.
Atsižvelgus į tuos rezultatus, Claude išsiskyrė kaip stipriausias faktų tikrinimo kategorijoje, demonstruodamas geresnį tikslumą spręsiant sudėtingą ekonominį klausimą, kuriame konkurentai suklydo.
4.2 Contextual Analysis
Šis testas vertino vaizdų analizės bei kontekstinės informacijos interpretacijos gebėjimus.
- Stalo nuotraukos analizė: Pateikus nuotrauką su netvarkingu darbo stalu ir paprašius nurodyti produktyvumo trikdžius, visi keturi modeliai identifikavo panašias pagrindines problemas, tokias kaip išmanusis telefonas kaip didelis dėmesio nukreipėjas ir laidų raizgalynė, sudaranti vizualinį triukšmą.
- Kur yra Waldo? užduotis: Daug sudėtingesniame teste modeliai turėjo surasti Waldo painiame piešinyje. Claude buvo vienintelis modelis, teisingai suradęs Waldo. ChatGPT, Gemini ir Grok nurodė neteisingas vietas.
Tai leido Claude tapti akivaizdžiu laimėtoju analizės raunde, parodydamas aukštą gebėjimą išsamiai interpretuoti vizualinį kontekstą ir smulkias detales.
Patvirtinus Claude stiprybę analizėje, testavimas pereina prie išsamesnės tyrimų užduoties, kuri derina informacijos rinkimą ir duomenų sintezę.
5.0 Performance Evaluation: Deep Research and Data Synthesis
Profesionaliuose AI taikymuose pagrindinis reikalavimas yra gebėjimas atlikti gilų tyrimą – ne vien informacijos rinkimas iš kelių šaltinių, bet ir jos struktūrizavimas, sintezė ir aiškus pateikimas sprendimų priėmimui. Šis testas vertino, kaip modeliai tvarkė sudėtingą produktų palyginimo užduotį.

Modeliams buvo užduota palyginti hipotetinį „iPhone 17 Pro Max“ su „Pixel 10 Pro XL“ fotografams, naudojant prieinamus apžvalgų duomenis ir specifikacijas, ir pateikti galutinį verdiktą.
Kiekvienas modelis priėjo prie užduoties šiek tiek skirtingai, atskleisdamas pagrindinius skirtumus jų gebėjime pateikti sudėtingus duomenis suprantamu būdu.
- ChatGPT & Grok: Pateikė tradicinius tekstinius kamerų specifikacijų aprašymus ir lygino juos skirtingose fotografavimo situacijose.
- Gemini & Claude: Naudojo Markdown lenteles tiesioginiam, greitam specifikacijų palyginimui. Šis formatas pelnė pagyrimus dėl aiškumo ir skaitomumo, leidžiančio greitai įvertinti esminius skirtumus.
Nors pateikimo formatas buvo svarbus, daug svarbiau buvo verdikto tikslumas ir už jo slypinti duomenų kokybė.
- Galutiniai verdiktai buvo padalinti: ChatGPT ir Claude rekomendavo iPhone, tuo tarpu Gemini ir Grok rekomendavo Pixel.
- Vis dėlto Claude veikimą stipriai susilpnino kritinės klaidos: palyginimo lentelėje trūko reikšmingos techninės informacijos, ir dar svarbiau – jis „sukūrė klaidingą diafragmos reikšmę iPhone pagrindiniam objektyvui“, kitaip tariant, „hallucinavo" neteisingą techninį rodiklį.
Tokios kritinės duomenų netikslumo klaidos Claude diskvalifikavo šiame raunde. Dėl aiškaus, lentelių formato pateikimo ir duomenų vientisumo, Gemini buvo paskelbtas „deep research" kategorijos nugalėtoju.
Po šios paskutinės veiklos kategorijos atėjo laikas suvesti galutines išvadas ir reitingus.
Final Rankings and Conclusion
Po išsamaus vertinimo per devynias skirtingas našumo kategorijas išryškėjo aiški gebėjimų hierarchija. Šiame skyriuje konsoliduojami ankstesnės analizės rezultatai ir pateikiamas galutinis keturių AI modelių reitingas bei išvados apie jų stipriąsias ir silpnąsias puses.
Galutiniai modelių reitingai, remiantis jų bendru pasirodymu šiame konkurenciniame palyginime, yra šie:
- Gold Medal: Gemini
- Silver Medal: ChatGPT
- Bronze Medal: Grok
- Last Place: Claude
Concluding Synthesis
- Gemini: Užimdama „bendro čempiono" titulą, Gemini laimėjo dėl nuosekliai aukšto pasirodymo praktiškose, verslui orientuotose užduotyse. Ji išsiskyrė matematiškai patikimu problemų sprendimu bei aiškia, tikslią gilų tyrimą atspindinčia informacijos pateikimo forma, kartu demonstruodama geriausią vaizdų generavimą. Tai padaro ją patikimiausiu ir universaliausiu modeliu šiame tyrime.
- ChatGPT: Sidabrinis laimėtojas – ChatGPT išlieka labai pajėgiu ir patikimu antruoju numeriu. Jis puikiai tvarkėsi su civilizuotu, nuosekliu debatu ir pateikė sėkmingus, realistiškus sprendimų planus praktinėse problemose, todėl yra stiprus universalus pasirinkimas tiek verslui, tiek kūrybinei veiklai.
- Grok: Grok pozicionuojamas kaip specializuotas įrankis su unikaliais atributais. Jis laimėjo moralinių dilemų kategoriją, nes pateikė tiesius atsakymus, kurių kiti vengė, ir siūlo skirtingus pokalbio režimus įvairiems naudojimo atvejams. Visgi jam trūko tvirtumo praktiniame problemų sprendime ir tyrimų tikslume.
- Claude: Claude demonstruoja išskirtinį analitinį pajėgumą, dominavo faktų tikrinimo ir kontekstinės analizės raunduose su aukštu tikslumu. Tačiau visiškas fiasko daugialypės terpės kategorijose (0 taškų) sukūrė neįveikiamą deficitą, kurio negalėjo kompensuoti analitinis pranašumas, ypač atsižvelgiant į kritinę duomenų hallucinacijos klaidą giliojo tyrimo užduotyje.
Atsižvelgiant į išsamius bandymus, Gemini laikomas geriausiai pasirodžiusiu modeliu, siūlančiu subalansuotą ir galingą funkcijų derinį profesionaliam ir kūrybiniam naudojimui. Generatyvinio AI industrija išlieka itin dinamiška, todėl būsimų modelių atnaujinimai gali reikšmingai pakeisti konkurencinę aplinką. Tolimesnės vertinimo iteracijos bus būtinos, kad organizacijos ir profesionalai galėtų pasirinkti tinkamiausius įrankius pagal konkrečius uždavinius ir reikalavimus.
Komentarai
labora
Netikėta kad Gemini pirmauja, bet ChatGPT labai stabilus, o Claude faktų tikrinime išties stiprus. Įdomu ir šiek tiek painu.
kodasX
Ar čia tikrai objektyvu? Skamba solidžiai, bet kokios testavimo sąlygos, duomenų rinkimo metodika? iffy, man.
Palikite komentarą