Baidu pristatė PP-OCRv5 — kompaktiškas OCR modelis Hugging Face

2 Minutes

Baidu išleido PP-OCRv5 — kompaktišką optinio simbolių atpažinimo (OCR) modelį, dabar prieinamą Hugging Face. Remdamasis įmonės naujausiais darbais su Ernie X1.1 modeliu, PP-OCRv5 siekia užtikrinti tikslią dokumentų ir scenų teksto atpažinimą, tuo pačiu išlaikydamas mažą modelio dydį ir skaičiavimo reikalavimus.

Produkto savybės

Dvivienė aptikimo ir atpažinimo grandinė

PP-OCRv5 naudoja paprastą, bet efektyvią grandinę: paveikslėlio paruošimas, teksto aptikimas (tekstinėms sritims nustatyti ir tikslioms aptvarų dėžėms nubrėžti), orientacijos ir teksto eilučių nustatymas, ir galiausiai — teksto atpažinimas. Šis modulinis srautas suteikia tikslias teksto koordinates, kas yra esminė dokumentų išdėstymo analizėje, sąskaitų išgavime ir formų apdorojime.

Lengvas ir efektyvus

Modelis yra itin kompaktiškas — apie 0,07 milijardo parametrų — todėl leidžia greitai daryti prognozes įprastiniuose CPU ir periferinėje įrangoje. Baidu vidiniuose bandymuose PP-OCRv5 apdorodavo daugiau nei 370 simbolių per sekundę Intel Xeon aplinkoje, demonstruodamas didelį pralaidumą paketiniams ir realaus laiko OCR uždaviniams be debesijos masto infrastruktūros.

Daugiakalbis atpažinimas

PP-OCRv5 palaiko daugiau nei 40 kalbų, įskaitant supaprastintą ir tradicinę kinų, japonų, pinyin ir anglų kalbas, ir gerai veikia tiek spausdintame, tiek ranka rašytame tekste.

Palyginimai ir etalonai

Palygintas su dideliais vaizdo-ir-kalbos modeliais, tokiais kaip GPT-4o, Gemini 2.5 Pro ir Qwen2.5-VL OCR orientuotuose testuose, PP-OCRv5 pasiekė geresnį tikslumą struktūrizuotam teksto išgavimui. Pranašumas kyla iš specializacijos: nors dideli VLM gerai atlieka daugiarūšį samprotavimą, jie gali praleisti smulkias išdėstymo užuominas ir tikslią simbolių lokalizaciją, kurią fiksuoja specializuoti OCR modeliai.

Privalumai

Sumažintos prognozavimo sąnaudos ir lengvesnis diegimas periferinėse įrenginiuose bei mobiliuosiuose įrenginiuose.
Tikslūs aptvarų langeliai ir teksto koordinatės tolesniam dokumentų supratimui ir RPA (robotizuotam procesų automatizavimui).
Geras veikimas tiek spausdintuose, tiek rašytiniuose/ ranka rašytuose įrašuose.
Atviro prieinamumo modelis Hugging Face platformoje, supaprastinantis integraciją kūrėjams ir įmonėms.

Panaudojimo atvejai

Automatizuotas sąskaitų, kvitų ir formų skaitmeninimas finansų ir apskaitos srautams.
Mobiliosios programėlės, kurioms reikalingas OCR be interneto ryšio periferiniuose įrenginiuose.
Daugiakalbis dokumentų apdorojimas tarptautinėms įmonėms ir valstybinėms institucijoms.
Duomenų išgavimas iš logistikos etikečių, asmens tapatybės kortelių ir ranka rašytų užrašų.

Rinkos reikšmė

PP-OCRv5 iliustruoja platesnę pramonės kryptį: tikslui pritaikyti, efektyvūs modeliai, kurie specializuotose užduotyse, tokiose kaip OCR, lenkia universalizuotus didelius modelius. Verslams, balansuojantiems tarp sąnaudų, delsos ir tikslumo, PP-OCRv5 yra praktiška alternatyva gabaritiniams vaizdo-kalbiniams sprendimams ir gali pagreitinti gamybos procesus bei sumažinti infrastruktūros išlaidas.

Išvada

Paskelbę PP-OCRv5 Hugging Face platformoje, Baidu pateikė įtikinamą argumentą už lengvą, aukšto tikslumo OCR realaus pasaulio diegimuose. Kūrėjams ir įmonėms, orientuotoms į dokumentų supratimą, periferinį AI ir daugiakalbį teksto išgavimą, ši versija siūlo patrauklų, diegiamą sprendimą, suderintą tarp našumo ir efektyvumo.

Viltė Petrauskaitė

Sveiki! Esu Viltė, kasdien sekanti technologijų naujienas iš viso pasaulio. Mano darbas – pateikti jums svarbiausius ir įdomiausius IT pasaulio įvykius aiškiai ir glaustai.