Tekstherkenning voor de professional

0
115
Dit artikel is deel 2 van 3 in het DiskIdee dossier OCR
DossiernavigatieTekstherkenning verhoogt productiviteitTwee OCR-pakketten getest: een besluit

Ingewikkelde lay-out
Bij de ingewikkelde lay-out van de flyer ging Abbyy FineReader 10 Professional in eerste instantie volledig de mist in. We zijn dus benieuwd welk resultaat OmniPage 17 Professional zal afleveren. We gaan scannen naar Word, in kleur en op 600 dpi. In dit geval is het enorm belangrijk dat we True Page als opmaakniveau kiezen. We willen immers de opmaak behouden, omdat het gaat om een ingewikkelde lay-out. De eerste poging ziet er op het eerste zicht aanvaardbaar uit. Toch doen we meteen een tweede poging. We kiezen dit keer voor ‘Doorlopende pagina’ als opmaakniveau. Het resultaat van de doorlopende pagina ziet er beter uit. We beoordelen de laatste scan. We tellen vijf opmaakfouten. De fouten zijn telkens te vinden daar waar een stukje tekst geïntegreerd werd in de afbeelding. De software heeft getracht deze stukjes tekst te herkennen, maar slaagde daar blijkbaar niet in omdat de tekst schuin stond. De vijfde opmaakfout zien we in de uitlijning van een tabel op de pagina. De tabel werd niet 100% behouden zoals op het origineel. We tellen tot slot ook nog vijf conversiefouten. De software heeft moeite met de herkenning van het fijngedrukte lettertype dat gebruikt werd in het brondocument. Maar liefst vier van de vijf fouten vinden we terug in dit lettertype. Even verderop in het document werd een ‘L’ foutief omgezet in een ‘i’. Tot zover onze flyer. Mits wat manuele aanpassingen was deze herbruikbaar. Het zou vast en zeker meer moeite kosten om de flyer van scratch terug samen te stellen.

Platte tekst
Ook een afdruk van internet bieden we aan OmniPage 17 Professional aan. We scannen in grijstinten aan 600 dpi naar Word. We kiezen voor ‘Tekst zonder opmaak’ als opmaakniveau, omdat de opmaak voor ons in dit geval van ondergeschikt belang is. We willen de tekst recupereren en zien hoe de software presteert met platte tekst. We tellen drie conversiefouten. Een vierde fout rekenen we aan, omdat de software het adres van de website niet mee overnam. Abbyy FineReader presteerde beter en nam dit adres bijna correct over. OmniPage ging de mist in bij twee stukjes tekst die als hyperlink waren opgenomen in de tekst. Verder werd een ‘0’ als ‘o’ herkend.

1
2
3
4
5
6
7
8
9
Vorig artikelDraagbaar en monteerbaar luidsprekersysteem van Bose
Volgend artikelTwee OCR-pakketten getest: een besluit

LAAT EEN REACTIE ACHTER

Schrijf je reactie!
Vul hier je naam in

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.