Lišák.cz

Navigace: Lišák.cz » Rychlé tipy » Programy » OCR - rozpoznávání textu v MS Office 2003

OCR - rozpoznávání textu v MS Office 2003

OCR - optické rozpoznávání znaků (z anglického Optical Character Recognition). Pomocí scanneru můžete digitalizovat tištěnou předlohu do editovatelného textu v editoru. Nemusíte tak snímat a archivovat předlohy jako obrázky, ale jako text.

Většinou je na rozpoznání textu potřeba speciální program, nicméně kolega mě upozornil, že je základní verze OCR součástí kancelářského balíku Microsoft Office 2003. Konkrétně jde o Microsoft Office Document Imaging ze sady nástrojů Microsoft Office.

Microsoft Office Document Imaging

Zmíněný program naleznete v nabídce Start -> Microsoft Office -> Nástroje sady Microsoft Office.

  • Pokud nemáte potřebný dokument v počítači, je potřeba ho samozřejmě naskenovat v Document Imaging(u). Od kvality předlohy se odvíjí výsledné procento rozpoznaného textu.
  • Máte-li daný dokument v počítači je potřeba, aby byl ve formátu TIFF (Tagged Image File Format). Jestli je v jiném, zkuste mezikrok s malováním (otevřít - uložit jako - uložit jako typ souboru tiff).

V Imagingu zvolte rozpoznat text pomocí OCR (menu nástroje), následuje průběh rozpoznání. Dalším krokem je odeslat text do aplikace Word (menu nástroje). Tím máme teoreticky hotovo. Prakticky musíme ještě provést korekturu chybného textu, protože nic není dokonalé. Záleží na zmíněné kvalitě scanované předlohy.

Rozpoznat pomocí OCR

Přenos do Wordu

OCR v Microsoft Office

Jako vždy nejvíce věcí zjistíte v nápovědě. Jádro OCR běží na OmniPage Pro OCR společnosti ScanSoft a uživatelé Microsoft Office Document Imaging mají nárok na inovaci za zvláštní cenu. Rozpoznané informace se dají také uložit do zdrojového TIFu a následně použít službou Indexing Service.

  • Indexuje obsah a vlastnosti souborů na místních a vzdálených počítačích a zajišťuje rychlý přístup k souborům prostřednictvím pružného dotazovacího jazyka.

Ukázkové soubory

Na ukázku a porovnání kvality rozpoznaného textu jsem připravil pár scanovaných předloh a výsledné texty převedené do dokumentů Word - následně do PDF. Ukázky jsou z knihy Bible Windows Vista a dokumentu "Best practice - Pravidla pro tvorbu přístupného webu".

Scanovaný dokument velikost Rozpoznaný text velikost
ocr-01.tif - prostý text 723KB ocr-01.pdf 26KB
ocr-02.tif - prostý text a barvy 167KB ocr-02.pdf  28KB
ocr-00.tif - kopie z knihy 404KB ocr-03.pdf  47KB
ocr-04.tif - kopie z knihy + obrázek 377KB ocr-04.pdf  45KB

OCR software

Samozřejmě existují i jiné komerční programy na rozpoznání textu. Jejich výhody jsou především v učení (naučíte je chybně rozpoznané znaky) a rozpoznání layoutu (rozložení) textu. Výsledný dokument je uložen s formátováním, správným umístěním obrázků... Mezi komerční OCR programy patří například:

Uložit či sdílet článek na: Sdílet Delicious Bookmark this on Delicious TopČlánky.cz pošli na vybrali.sme.sk

Vydáno: 20.10.2008, v rubrice: Programy, autor: Jaroslav Liška, diskuze: 1 příspěvek


Další články z rubriky: Programy
Olympus Master - skrýt nabídku www odkazů
Piriform Defraggler - defragmentace disku a souborů
Piriform CCleaner - vyčištění disku
Pdf Creator - sloučení dokumentů do PDF
Piriform Recuva - obnova smazaných souborů


Lisak.cz| © 2000-2017 Jaroslav Liška | Servis výpočetní techniky | Služby | Kontakt |
Partneři: Fitness, Golf-vozik.cz, Sportobchod.eu, SQK.cz, Úklidový servis,
Diagnostika - poradenství - psychoterapie, Praha,
::: ONEbit.cz ::: Webhosting, který Vám sedne :::