Google Documents umožňuje rozpoznávat český text u nahrávaných pdf dokumentů a obrázků.
Hlavní nevýhodou v článku OCR online - rozpoznávání textu z obrázků v češtině a zdarma zmiňovaných nástrojů je, mimo poměrně stále vysoké chybovosti také to, že docela silně ignorují formátování dokumentu. Rozpoznávání českého textu od Google formátování bere v potaz a má i v češtině poměrně nízkou chybovost (samozřejmě nic není dokonalé, na jedné straně najdete několik překlepů - je tedy vhodné, pokud dále chcete dokument používat jej projet kontrolou pravopisu a "překlepy" opravit).
Google Dokuments jsou zdarma, je ale nutné mít účet u Google.
Na https://docs.google.com se přihlaste do Google Docs.
Nahrajte vybraný obrázek či pdf soubor s obrázkem textu do Google Docs a nechte jej rozpoznat (nezapomeňte tuto volbu v možnostech nahrání zaškrtnout).
Jak jsem psal výše, výsledek není sice 100% bez "překlepů", ale rozpoznání češtiny je již na velmi dobré úrovni. (orientačně bych to viděl tak na 15 překlepů na stránku, což se opraví lehce Kontrolou pravopisu) V docela velké míře je i zachováno formátování.
Napadá mě fůra uplatnění rozpoznání českého textu z obrázků - já to teď třeba využil při převodu naskenovaného obrázku s výtahem poznámek ze skript do editovatelné podoby.
Reference: Google OCR konečně i pro nás
Tento web jsem zakládal na střední, v roce 2008. Je zde hlavně archiv mé tvorby.
Aktuální věci publikuji kvůli úspoře času na Twitter.
Honza
"Bezpečí je většinou pověra. Ve skutečnosti neexistuje. Život je buď odvážné dobrodružství, nebo vůbec nic."