JanKoWeb: Počítače a IT - OCR: rozpoznání českého textu na Google Documents

OCR: rozpoznání českého textu na Google Documents

Google Documents umožňuje rozpoznávat český text u nahrávaných pdf dokumentů a obrázků.

Hlavní nevýhodou v článku OCR online - rozpoznávání textu z obrázků v češtině a zdarma zmiňovaných nástrojů je, mimo poměrně stále vysoké chybovosti také to, že docela silně ignorují formátování dokumentu. Rozpoznávání českého textu od Google formátování bere v potaz a má i v češtině poměrně nízkou chybovost (samozřejmě nic není dokonalé, na jedné straně najdete několik překlepů - je tedy vhodné, pokud dále chcete dokument používat jej projet kontrolou pravopisu a "překlepy" opravit).

Google Dokuments jsou zdarma, je ale nutné mít účet u Google.

Rozpoznání textu na Google Dokuments krok za krokem

Přihlášení do Google

Na https://docs.google.com se přihlaste do Google Docs.

Přihlášení do Google Docs
Přihlášení do Google Docs

Nahrání obrázku

Nahrajte vybraný obrázek či pdf soubor s obrázkem textu do Google Docs a nechte jej rozpoznat (nezapomeňte tuto volbu v možnostech nahrání zaškrtnout).

Tlačítko pro upload
Tlačítko pro upload
Menu nahrání
Menu nahrání
Možnosti rozpoznání textu v nahrávaném souboru
Možnosti rozpoznání textu v nahrávaném souboru

Výsledek rozpoznání

Jak jsem psal výše, výsledek není sice 100% bez "překlepů", ale rozpoznání češtiny je již na velmi dobré úrovni. (orientačně bych to viděl tak na 15 překlepů na stránku, což se opraví lehce Kontrolou pravopisu) V docela velké míře je i zachováno formátování.

Výsledek rozpoznání textu
Výsledek rozpoznání textu

Kdy se to hodí?

Napadá mě fůra uplatnění rozpoznání českého textu z obrázků - já to teď třeba využil při převodu naskenovaného obrázku s výtahem poznámek ze skript do editovatelné podoby.

Reference: Google OCR konečně i pro nás

Rubrika Počítače a IT | Tagy Ocr, Czech, čeština, Google, Docs, Rozpoznání, Text, Obrázek na text | Út 10.01.2012 | 6120x

Související články:

PDFXChange: OCR rozpoznání českého textu a hledání v pdf snadno a rychle (vydáno So 14.01.2012, 20:40)
OCR: rozpoznání českého textu na Google Documents (vydáno Út 10.01.2012, 15:25) - právě čtete
OCR online - rozpoznávání textu z obrázků v češtině a zdarma (vydáno So 31.07.2010, 21:51)

Náhodné články

Tento web jsem zakládal na střední, v roce 2008. Je zde hlavně archiv mé tvorby.

Aktuální věci publikuji kvůli úspoře času na Twitter.

Honza

"Bezpečí je většinou pověra. Ve skutečnosti neexistuje. Život je buď odvážné dobrodružství, nebo vůbec nic."

H. Kellerová