OCR - rozpoznávání textu v MS Office 2003
OCR - optické rozpoznávání znaků (z anglického Optical Character Recognition). Pomocí scanneru můžete digitalizovat tištěnou předlohu do editovatelného textu v editoru. Nemusíte tak snímat a archivovat předlohy jako obrázky, ale jako text.
Většinou je na rozpoznání textu potřeba speciální program, nicméně kolega mě upozornil, že je základní verze OCR součástí kancelářského balíku Microsoft Office 2003. Konkrétně jde o Microsoft Office Document Imaging ze sady nástrojů Microsoft Office.
Microsoft Office Document Imaging
Zmíněný program naleznete v nabídce Start -> Microsoft Office -> Nástroje sady Microsoft Office.
- Pokud nemáte potřebný dokument v počítači, je potřeba ho samozřejmě naskenovat v Document Imaging(u). Od kvality předlohy se odvíjí výsledné procento rozpoznaného textu.
- Máte-li daný dokument v počítači je potřeba, aby byl ve formátu TIFF (Tagged Image File Format). Jestli je v jiném, zkuste mezikrok s malováním (otevřít - uložit jako - uložit jako typ souboru tiff).
V Imagingu zvolte rozpoznat text pomocí OCR (menu nástroje), následuje průběh rozpoznání. Dalším krokem je odeslat text do aplikace Word (menu nástroje). Tím máme teoreticky hotovo. Prakticky musíme ještě provést korekturu chybného textu, protože nic není dokonalé. Záleží na zmíněné kvalitě scanované předlohy.
OCR v Microsoft Office
Jako vždy nejvíce věcí zjistíte v nápovědě. Jádro OCR běží na OmniPage Pro OCR společnosti ScanSoft a uživatelé Microsoft Office Document Imaging mají nárok na inovaci za zvláštní cenu. Rozpoznané informace se dají také uložit do zdrojového TIFu a následně použít službou Indexing Service.
- Indexuje obsah a vlastnosti souborů na místních a vzdálených počítačích a zajišťuje rychlý přístup k souborům prostřednictvím pružného dotazovacího jazyka.
Ukázkové soubory
Na ukázku a porovnání kvality rozpoznaného textu jsem připravil pár scanovaných předloh a výsledné texty převedené do dokumentů Word - následně do PDF. Ukázky jsou z knihy Bible Windows Vista a dokumentu "Best practice - Pravidla pro tvorbu přístupného webu".
Scanovaný dokument | velikost | Rozpoznaný text | velikost |
ocr-01.tif - prostý text | 723KB | ocr-01.pdf | 26KB |
ocr-02.tif - prostý text a barvy | 167KB | ocr-02.pdf | 28KB |
ocr-00.tif - kopie z knihy | 404KB | ocr-03.pdf | 47KB |
ocr-04.tif - kopie z knihy + obrázek | 377KB | ocr-04.pdf | 45KB |
OCR software
Samozřejmě existují i jiné komerční programy na rozpoznání textu. Jejich výhody jsou především v učení (naučíte je chybně rozpoznané znaky) a rozpoznání layoutu (rozložení) textu. Výsledný dokument je uložen s formátováním, správným umístěním obrázků... Mezi komerční OCR programy patří například:
Uložit či sdílet článek na: Sdílet Bookmark this on Delicious
Vydáno: 20.10.2008, v rubrice: Programy, autor: Jaroslav Liška, diskuze: 1 příspěvek
Lisak.cz| © 2000-2024 Jaroslav Liška |
Servis výpočetní techniky |
Služby |
Kontakt |
Partneři:
Fitness,
Golf-vozik.cz,
Sportobchod.eu,
SQK.cz,
Úklidový servis,
Diagnostika - poradenství - psychoterapie, Praha,
::: ONEbit.cz ::: Webhosting, který Vám sedne :::