Google Documents umožňuje rozpoznávat český text u nahrávaných pdf dokumentů a obrázků.
Hlavní nevýhodou v článku OCR online - rozpoznávání textu z obrázků v češtině a zdarma zmiňovaných nástrojů je, mimo poměrně stále vysoké chybovosti také to, že docela silně ignorují formátování dokumentu. Rozpoznávání českého textu od Google formátování bere v potaz a má i v češtině poměrně nízkou chybovost (samozřejmě nic není dokonalé, na jedné straně najdete několik překlepů - je tedy vhodné, pokud dále chcete dokument používat jej projet kontrolou pravopisu a "překlepy" opravit).
Google Dokuments jsou zdarma, je ale nutné mít účet u Google.
Na https://docs.google.com se přihlaste do Google Docs.
Nahrajte vybraný obrázek či pdf soubor s obrázkem textu do Google Docs a nechte jej rozpoznat (nezapomeňte tuto volbu v možnostech nahrání zaškrtnout).
Jak jsem psal výše, výsledek není sice 100% bez "překlepů", ale rozpoznání češtiny je již na velmi dobré úrovni. (orientačně bych to viděl tak na 15 překlepů na stránku, což se opraví lehce Kontrolou pravopisu) V docela velké míře je i zachováno formátování.
Napadá mě fůra uplatnění rozpoznání českého textu z obrázků - já to teď třeba využil při převodu naskenovaného obrázku s výtahem poznámek ze skript do editovatelné podoby.
Reference: Google OCR konečně i pro nás
Tento web jsem zakládal na střední, v roce 2008. Je zde hlavně archiv mé tvorby.
Aktuální věci publikuji kvůli úspoře času na Twitter.
Honza
"Náš blahobyt nespočívá v tom, co máme, ale v tom, co nás těší."