JanKoWeb: Počítače a IT - OCR: rozpoznání českého textu na Google Documents
jankoweb.wz.cz
Den filosofie, televize a světový den pozdravů.


OCR: rozpoznání českého textu na Google Documents

Google Documents umožňuje rozpoznávat český text u nahrávaných pdf dokumentů a obrázků.

Hlavní nevýhodou v článku OCR online - rozpoznávání textu z obrázků v češtině a zdarma zmiňovaných nástrojů je, mimo poměrně stále vysoké chybovosti také to, že docela silně ignorují formátování dokumentu. Rozpoznávání českého textu od Google formátování bere v potaz a má i v češtině poměrně nízkou chybovost (samozřejmě nic není dokonalé, na jedné straně najdete několik překlepů - je tedy vhodné, pokud dále chcete dokument používat jej projet kontrolou pravopisu a "překlepy" opravit).

Google Dokuments jsou zdarma, je ale nutné mít účet u Google.

Rozpoznání textu na Google Dokuments krok za krokem

Přihlášení do Google

Na https://docs.google.com se přihlaste do Google Docs.

Přihlášení do Google Docs
Přihlášení do Google Docs

Nahrání obrázku

Nahrajte vybraný obrázek či pdf soubor s obrázkem textu do Google Docs a nechte jej rozpoznat (nezapomeňte tuto volbu v možnostech nahrání zaškrtnout).

Tlačítko pro upload
Tlačítko pro upload
Menu nahrání
Menu nahrání
Možnosti rozpoznání textu v nahrávaném souboru
Možnosti rozpoznání textu v nahrávaném souboru

Výsledek rozpoznání

Jak jsem psal výše, výsledek není sice 100% bez "překlepů", ale rozpoznání češtiny je již na velmi dobré úrovni. (orientačně bych to viděl tak na 15 překlepů na stránku, což se opraví lehce Kontrolou pravopisu) V docela velké míře je i zachováno formátování.

Výsledek rozpoznání textu
Výsledek rozpoznání textu

Kdy se to hodí?

Napadá mě fůra uplatnění rozpoznání českého textu z obrázků - já to teď třeba využil při převodu naskenovaného obrázku s výtahem poznámek ze skript do editovatelné podoby.

Reference: Google OCR konečně i pro nás

Rubrika Počítače a IT | Tagy Ocr, Czech, čeština, Google, Docs, Rozpoznání, Text, Obrázek na text | Út 10.01.2012 | 6263x

Související články:

PDFXChange: OCR rozpoznání českého textu a hledání v pdf snadno a rychle (vydáno So 14.01.2012, 20:40)
OCR: rozpoznání českého textu na Google Documents (vydáno Út 10.01.2012, 15:25) - právě čtete
OCR online - rozpoznávání textu z obrázků v češtině a zdarma (vydáno So 31.07.2010, 21:51)

Náhodné články

Tento web jsem zakládal na střední, v roce 2008. Je zde hlavně archiv mé tvorby.

Aktuální věci publikuji kvůli úspoře času na Twitter.

Honza

"Náš blahobyt nespočívá v tom, co máme, ale v tom, co nás těší."

J. Petit-Senn