JanKoWeb: Počítače a IT - PDFXChange: OCR rozpoznání českého textu a hledání v pdf snadno a rychle
jankoweb.wz.cz
Mezinárodní den proti hluku.


PDFXChange: OCR rozpoznání českého textu a hledání v pdf snadno a rychle

Dlouhou dobu používám na prohlížení PDF program PDFX-Change, který vřele doporučuji. Nyní v něm přibyla nová možnost - OCR českého textu.

Vyhledávání v PDF

Pomocí PDFXChange můžete hledat nejen v aktuálním dokumentu, ale třeba v PDF dokumentech v celé složce. Pomocí zkratky Ctrl + Shift + F se vyvolá pokročilé vyhledávání, které umožňuje hledat ve více dokumentech najednou a přehledně zobrazí výsledky i s kusem okolního textu.

Vyhledávat je možné i/pouze v komentářích (textových polích, které můžete do dokumentů sami vkládat).

Pokročilé hledání v PDF
Pokročilé hledání v PDF

Občas se mi ale stane, že mám PDF s naskenovaným nebo jen vyfoceným textem a rád bych v něm také fulltextově vyhledával. S PDFXChange s přídavným OCR (zdarma) je to nyní hračka. Stačí otevřít dokument, který obsahuje naskenovaný text a zvolit Dokument / OCR (případně standardní klávesovou zkratkou CTRL + Shift + C):

Dialog rozpoznání textu v dokumentu PDF
Dialog rozpoznání textu v dokumentu PDF

Ukázka

Vstupní PDF s textem v obrázku

Pro první pokus jsem zvolil velice nekvalitně nafocený dokument. S ním si OCR neporadilo:

Vstupní PDF, neupravené
Vstupní PDF, neupravené

Pro druhý pokus byl tentýž dokument upraven prahováním pro tisk.

Vstupní PDF
Vstupní PDF, naprahované

Rozpoznaný text

Výsledek z druhého pokusu je překvapivě dobrý, v tomto vzorku bylo špatně rozpoznáno jen pár slov. Potenciál je tedy obrovský - uvědomte si, že na začátku jsme měli třeba 20 stránkový scan textu, ve kterém jsme chtěli najít určité slovo. Po rozpoznání pomocí OCR i pokud nebude 100% bezchybné máme obrovský vyhledávací potenciál.

1) Principy fyziologických regulaci v . . _
'   lidský organismus potřebuje pro správnou funkci dynamickou homeostázu
(pohyblivou stálost)   každý děj v lidském těle je regulován
  př.: směr katalýzy/syntézy látek závisí na koncentraci na obou stranách reakce
_   jednodušší pohled ~ regulace funguje na základě zpětné vazby _
  rozdělení regulací podle principů (občas nejasné hranice)
   a) regulace na základě změny konformace proteinů
0 proteiny mohou měnit svoji konformaci (uspořádání molekul) a díky tomu
› měnit charakter nějakého fyziologického děje (regulace)
O př.: hem0StäZđ lpľüľeifly spouští reakci srážení krve   kaskáda
enzymatických dějů   kaskáda změn konformací proteinů)
0 př.: iontová homeostáza (koncentrace iontů v extra či intracelulárním
prostoru závisí na tom, zda je iontový kanál otevřený)
O př.: regulace intenzity přenosu signálu pñ zvýšené aktivaci receptoru
0 př.: protonová homeostáza, regulace šíření vzruchu po membráně nervu,
regulace rytmických autonomních činností (srdce, dech, Střeva), regulace
úrovně metabolismu, synaptická facilitace či inhibice
  b) regulace dle pohybu podle koncentračního či elektrického gradientu
0 základ homeostázy ~ dle potřeby (např. koncentračního gradientu) má
organismus tendenci vyvažovat rovnováhu

Stažení

PDFXChange na Slunecnice.cz, oficiální stránky výrobce.

Rubrika Počítače a IT | Tagy Pdf, Ocr, Rozpoznání, PDFXChange, Prohlížeč | So 14.01.2012 | 4753x

Související články:

PDFXChange: OCR rozpoznání českého textu a hledání v pdf snadno a rychle (vydáno So 14.01.2012, 20:40) - právě čtete
OCR: rozpoznání českého textu na Google Documents (vydáno Út 10.01.2012, 15:25)
OCR online - rozpoznávání textu z obrázků v češtině a zdarma (vydáno So 31.07.2010, 21:51)

Náhodné články

Tento web jsem zakládal na střední, v roce 2008. Je zde hlavně archiv mé tvorby.

Aktuální věci publikuji kvůli úspoře času na Twitter.

Honza

"Člověk má tři cesty, jak moudře jednat. Nejprve přemýšlením, to je ta nejušlechtilejší cesta. Druhá cesta vede napodobováním, ta je cestou nejlehčí, a třetí cesta, zkušenosti, je tou nejtvrdší."

Konfucius