OCR brengt papierloze kantoor dichterbij

0
28

Uit recent onderzoek bleek dat sinds de komst van elektronische communicatiesystemen als e-mail, faxservers en digitalisering van archieven, het gemiddelde kantoor zo’n derde meer papier gebruikt dan voorheen. Is het ‘paperless office’ dan echt onmogelijk? OCR of tekstherkenning kan heel goed helpen bij het digitaliseren van documenten en archieven en twee van de belangrijkste spelers op de markt stellen hun nieuwste OCR-versie voor.

Relatief snel na de nieuwe versies van het voorjaar, pakken zowel ScanSoft als IRIS uit met vernieuwde OCR-pakketten. De derde grote speler, het Russische ABBYY, houdt het voorlopig bij versie 5.0 van hun succesnummer FineReader.

Tendenzen
FineReader 5.0 kende het al, de mogelijkheid om rechtstreeks te scannen naar het Adobe Acrobat PDF-formaat. Nu kun je dit ook in ReadIris Pro 7 en OmniPage Pro 11. De mogelijkheden zijn zelfs wat uitgebreider. Zo maakt ReadIris een onderscheid tussen PDF Tekst en PDF Beeld-Tekst. Het eerste kan wel beeldmateriaal bevatten, maar het PDF-resultaat bevat slechts één laag. De tweede optie herkent extra items op de gescande pagina en bevat twee lagen. Daardoor is het ook mogelijk om bladwijzers aan te maken, miniaturen te creëren en achteraf doorheen heel het PDF-document te zoeken. OmniPage gaat nog een stapje verder en kent nog twee extra varianten om in PDF-formaat op te slaan: enerzijds is er PDF Beeld, wat betekent dat je het pdf-bestand alleen kunt bekijken maar niet wijzigen en ook niet doorzoeken, anderzijds is er PDF Met Beeldsubstituten, wat staat voor een normaal PDF-bestand dat je kunt bekijken en bewerken, waarbij niet herkende tekens worden weergegeven zoals ze in het oorspronkelijk document staan, als grafische weergave met andere woorden. OmniPage laat je toe PDF-bestanden zelf te herkennen als bron en te converteren naar bijvoorbeeld Word-formaat om er eventueel wijzigingen in aan te brengen. Om het resultaat opnieuw in PDF op te slaan, heb je wel een PDF-writer nodig. Het meest voor de hand liggend is Adobe Acrobat zelf, maar er zijn ook goedkopere alternatieven.

Trager is sneller
Hoe testen we OCR-programma’s? Heel eenvoudig door documenten van verschillende oorsprong te scannen en door de OCR-pakketten te laten passeren. We gebruiken een Agfa SnapScan e40 scanner (1200 op 2400 dpi optisch) gekoppeld aan een AMD Athlon Classic 800 MHz met 128 MB Ram onder Windows 98 SE. Het resultaat van de OCR-bewerking drukken we af en vergelijken we met het origineel. Net als de leraar op school halen we dan de rode balpen boven en verbeteren elke fout uit het OCR-document. Het gemiddelde resultaat van de verschillende documenten vormt de nauwkeurigheidsscore.Je zult je wellicht afvragen waarom we de tijd niet meten hoelang een OCR-bewerking duurt. Tenslotte is snelheid ook een belangrijke factor bij de keuze van een OCR-programma, zeker als je veel documenten dient te verwerken. Er is een heel goede reden om de snelheid niet in overweging te nemen. Sommige OCR-pakketten zoals OmniPage Pro 11 uit deze test, laten toe de nauwkeurigheidsgraad min of meer te bepalen: ofwel sneller scannen ofwel nauwkeuriger scannen. Deze laatste optie is algemeen genomen sneller, hoe vreemd dat ook klinkt. Het scannen en de tekst herkennen gebeuren inderdaad trager, maar je moet zelf veel minder eventuele fouten corrigeren. Bij het sneller scannen en tekst herkennen is de kans op fouten beduidend hoger. Je zult de gescande tekst helemaal moeten nalezen en dat kost extra tijd. ‘Sneller’ is dus trager. Heb dus wat meer geduld en kies steeds voor de hoogste nauwkeurigheid. Het resultaat is veel beter en uiteindelijk ook sneller.

ScanSoft OmniPage Pro 11
OmniPage Pro 11 komt vrij snel na de versie 10, maar heeft toch heel wat nieuwigheden te bieden, naast de uitgebreide PDF-ondersteuning waarover eerder sprake. Zo is er veel aandacht besteed aan het behoud van de opmaak, al is dat niet over gans de lijn uit de test merkbaar en laat OmniPage hier wel soms een steekje vallen. Toch zijn er verbeteringen zoals het behoud van kolommen, kop- en voetteksten, paginanummers, bijschriften en beginkapitalen, om er maar enkele te noemen. De intelligente nieuwe IntelliTrain-functie laat de proeflezer toe wijzingen aan te brengen en die ook onmiddellijk in de rest van het document door te voeren. Gelijksoortige fouten worden zo automatisch hersteld. De nieuwe optimalisatiemodule moet voor een betere verwerking van slechte originelen zorgen zoals faxen en kopieën van kopieën. Daarvoor zorgt de Despeckle-functie die, zoals de Engelse naam al zegt, zwarte puntjes, spikkels en andere storende elementen uit het origineel filtert voor het scannen en de tekstherkenning beginnen. Ook tabellen zonder raster worden nu als tabel herkend. De Direct OCR laat onmiddellijk tekstherkenning toe vanuit Word en Excel, zonder eerst OmniPage te moeten starten. Het aantal herkende talen is fors toegenomen en komt met meer dan 100 talen nog voor de 93 van Readiris Pro 7. Heel handig is dat je nu toch langere documenten zoals boeken of meerdere losse vellen kunt verwerken zonder dat je scanner over een automatische documentinvoer (ADF, Automatic Document Feeder) beschikt. Bij vele goedkopere scanners is een dergelijke extra module zelfs niet mogelijk. Het enige dat je moet doen, is het instellen van een interval tussen het scannen om je de tijd te geven een andere pagina klaar te leggen.In OmniPage Pro 11 zit naast de Caere tekstherkenningsengine, ook nog de engine van het vroegere Recognita verwerkt, plus nog een derde engine. Afhankelijk van de aard van het origineel, kiest het programma automatisch de engine die het geschiktst is.

ReadIris Pro 7.0
Uiterlijk zien we weinig verschil met versie 6.0. Aan de interface is immers nauwelijks geraakt. De grote verbetering tegenover eerdere versies zijn immers bij die versie 6.0 al doorgevoerd. Wat kon er dan nog verbeterd worden? Jawel, net zoals OmniPage Pro 11, beloven de makers een verbetering van de nauwkeurigheid met maar liefst 40 % door het verfijnen en verbeteren van de tekstherkenningsengine, de basis van heel het programma. Dat lijkt spectaculair, maar wanneer je al een heel hoge nauwkeurigheidsgraad had, dan is die 40 % plots veel kleiner. Zoals FineReader en OmniPage Pro 11 kan ReadIris Pro 7 nu ook documenten in PDF-formaat bewaren. Dit, samen met de ondersteuning van digitale camera’s en de detectie van de oriëntatie van een pagina, zijn de belangrijkste nieuwigheden. De ondersteuning van digitale camera’s lijkt vreemd voor een OCR-programma, maar in archiveringskringen zal deze functie zeker worden gewaardeerd. Verder zijn er een heleboel functies uitgebreid of verbeterd. Dat is bijvoorbeeld het geval met het herkennen van gekleurde documenten, automatische tabelherkenning en het verwijderen van vlekken in bijvoorbeeld faxen. Het aantal ondersteunde talen is fiks uitgebreid en de OCR Wizard is onder handen genomen.Voor wie dikwijls meerbladige documenten scant, is er goed nieuws. Meerbladige documenten kunnen nu groter zijn dan honderd pagina’s. Wel moet je om goed te kunnen werken beschikken over een scanner met ADF. Een oplossing zoals OmniPage Pro 11 biedt om ook meervoudige documenten te scannen zonder ADF, is er niet. Misschien een tip voor de volgende versie?

Conclusie
ScanSoft OmniPage Pro 11 en ReadIris 7 ontlopen elkaar niet zoveel. Qua nauwkeurigheid scoren ze quasi evenveel. OmniPage scoort door de band genomen net iets beter en daarom haalt dit pakket het met een neuslengte van ReadIris. En ABBYY FineReader 5.0? Dat blijft, zeker omwille van zijn aardig prijskaartje en zijn goede prestaties, nog een aanrader.
Systeemvereisten
Voor Omnipage: Pentium of hoger, Windows 95/98/SE/Me of Windows NT 4.0(SP3)/2000, 64 MB Ram, 140 MB vrije ruimte op de harde schijf, 100% Twain-compatibele scanner, minstens SVGA monitor met 256 kleuren.

Voor ReadIris Pro: Pentium pc of hoger, 32 MB RAM
Vorig artikelD modelling voor een prikje
Volgend artikelVanaf 3 mei