Home Reviews

OCR stapje dichter bij perfectie

0
50

In de OCR-markt verloren vaste waarden als Caere OmniPage en ScanSoft TextBridge veld, ten voordele van andere goden. Zo neemt ReadIris, van Belgische bodem, een steeds prominentere plaats in en mogen we het Russische FineReader niet uit het oog verliezen.
fine_reader_5_office_nl
Sinds de lovende kritieken over ABBYY FineReader 4.0 hebben de Russen niet bepaald op hun lauweren zitten rusten. Integendeel. In FineReader 5.0 is er nog heel wat verbeterd en dat merk je vooral bij het scannen van faxen of slechte originelen. Op dit vlak is er werkelijk een spectaculaire vooruitgang geboekt en laat het concurrent ReadIris ver achter zich.

Twee smaken
Zoals de vorige keer kun je in onze contreien twee versies vinden van FineReader, de beperkte versie die met scanners meegeleverd wordt, niet meegerekend. Wat in versie 4 nog de standaardversie was, heet nu FineReader 5 Professional en wat in versie 4 de Professional heette, is nu omgedoopt tot FineReader 5 Office. Deze laatste versie kan dus overweg met multiprocessingsystemen en netwerken.

Engine
Geloof het of niet, de nauwkeurigheid is door een sterk verbeterde engine nog flink verbeterd. Zelf maakt FineReader reclame met ‘een factor 1,5 tot 2’. Neem dat evenwel met een grove korrel zout, want een praktisch perfecte leesbaarheid kunt u nu eenmaal niet met een factor twee verbeteren. Het bewaren in HTML en PDF is ook stevig verbeterd. We hebben dit zelf kunnen vaststellen: elk van onze gescande documenten lieten we na de OCR-behandeling niet alleen afdrukken vanuit Word 2000, maar bewaarden we ook als PDF-bestand en jawel, PDF werd beter bewaard. Het verschil was weliswaar slechts zichtbaar in details van de lay-out, maar toch. Een dubbele pagina in een boek wordt nu als zodanig herkend. Dat is vooral voor archiveringsdoeleinden handig. Nieuw is ook de herkenning van verticale tekst en in tabellen ingebedde afbeeldingen. Subscript-karakters en eenvoudige chemische formules worden nu ook herkend, al kan hier nog wel iets mislopen. Zo werd het trademark-teken in onze testdocumenten soms herkend, soms niet. Niet minder dan 121 talen kan FineReader nu de baas. Dat geldt tenminste voor de Europese versie, want de Cyrillische versie spant met 176 talen de kroon. Deze versie herkent behalve de 121 talen uit de Europese versie ook nog verschillende Slavische talen die gebruik maken van het Cyrillische alfabet. Deze Cyrillische versie is op aanvraag tegen meerprijs eveneens bij ons verkrijgbaar.

Programmeertalen
Heel nieuw is wel de herkenning van programmeertalen zoals Basic, C/C++, COBOL, Fortran, Java en Pascal. Als toemaatje kunt u nu FineReader onmiddellijk vanaf Word starten. Het programma ondersteunt trouwens ook nog WordPerfect, Lotus AmiPro en zelfs StarWriter.

Testresultaten
Voor de test gebruiken we vier testdocumenten. Een eerste document is een persbericht met een logo, een grafiekje en een schreefloos lettertype. Dit gebruiken we omdat het hierin voor een OCR-pakket moeilijker is om bijvoorbeeld ‘alle’ of ‘Illustratief’ goed te herkennen en de I, i en de l te onderscheiden. Een tweede document is gekozen omwille van de afbeeldingen in de tekst en het complexere logo. Ook het lettertype is speciaal. Ten derde scanden we ook nog een klein Excel-rekenblad in en als laatste test gebruikten we een elektronisch binnengekomen fax, afgedrukt op een HP LaserJet 4000TN aan 1200 op 1200 dpi. Deze fax verstuurden we in de hoogste resolutie. Alle documenten scanden we in op een Agfa SnapScan e20 (met ScanWise TWAIN-driver) aan 300 dpi op een AMD Athlon Classic 800 MHz met 128 MB RAM onder Windows 98 SE.Telkens als er een leesfout optrad, trokken we een punt af. Een foutje tegen de lay-out zagen we door de vingers. Het parcours was nagenoeg foutloos. Alleen de fax telde nogal wat leesfouten, waaronder de steeds voorkomende letter ‘z’ die niet werd herkend en waar FineReader steevast een ‘/’ van maakte. Toch is het resultaat van die laatste fax-test spectaculair, omdat onmiddellijke concurrent ReadIris 6.0 Pro er op dit vlak niks van bakte.

Conclusie
De evolutie in OCR is duidelijk nog niet ten einde. Steeds betere technieken zorgen voor betere resultaten. Bij standaardteksten zijn ReadIris 6.0 en FineReader 5.0 aan elkaar gewaagd, maar het herkennen van minder goed leesbare originelen zoals faxen doet FineReader vele malen beter, al is het resultaat nog verre van perfect. Toch blijft hiermee FineReader 5.0 een van de beste OCR-pakketten op de markt.
Adviesprijs
99,00 euro
De Office versie kost 407,00 euro
Systeemvereisten
Pentium 133 MHz of hoger, Windows 95/98/SE/Me of Windows NT 4.0(SP3)/2000, 64 MB Ram, 50 MB vrije ruimte op de harde schijf, Internet Explorer 4.0 of hoger, 100% Twain-compatibele scanner.