Tekstherkenning voor de professional

0
115
Dit artikel is deel 2 van 3 in het DiskIdee dossier OCR
DossiernavigatieTekstherkenning verhoogt productiviteitTwee OCR-pakketten getest: een besluit

Reclamefolder
We scannen de reclamefolder eerst naar een Word-document. Als documentbron kiezen we voor ‘Kleur scannen’ en de layout laten we op ‘Automatisch’ staan. De software zal in dat geval zelf bepalen hoe het brondocument eruit ziet en welke zones aangebracht worden voor herkenning. We kiezen er ook nog voor dat we het resultaat willen bekijken als de software klaar is. We kiezen voor True Page als opmaakniveau, omdat we de opmaak zo goed mogelijk willen behouden. We scannen op 600 dpi. De software heeft het kennelijk moeilijk met het herkennen van voetnootverwijzingen (net als Abbyy FineReader 10 overigens). De software zet in veel gevallen een voetnootverwijzing om naar een aanhalingsteken. Het logo van de Post ontbreekt volledig. Abbyy wist daar toch de tekst nog uit te halen. Verder is de conversie geslaagd. Enkel in de kleine lettertjes verslikt de software zich in 21ste. De ‘ste’ wordt niet mee overgenomen. Superscript in het algemeen blijft dus moeilijk voor OCR-software. Het maken van een doorzoekbaar PDF-bestand is eenvoudig. En omdat dit ‘tekst onder het paginabeeld’ is, blijft de opmaak volledig intact.

Via de Workflow-assistent kan je eenvoudig nieuwe workflows maken en bestaande workflows bekijken en aanpassen

Via de Workflow-assistent kan je eenvoudig nieuwe workflows maken en bestaande workflows bekijken en aanpassen (© ; licentie: )

Krantenartikel
Tijd om te testen hoe OmniPage 17 Professional het ervan af brengt met ons krantenartikel. Wederom scannen we naar Word, in kleur en op 600 dpi. Het gekozen opmaakniveau is True Page. Op het eerste zicht ziet het resultaat er verbluffend uit. Heel de lay-out blijft behouden zoals in het origineel. De software verslikt zich in een klein logo dat de vorm van een bloem heeft en probeert dit tevergeefs om te zetten naar tekst. Verder maakt de software nog vier conversiefouten. Een ‘g’ wordt omgezet in een ‘u’ en ‘ook’ wordt ‘eMok’. Tot slot weet de software tweemaal geen raad met het woord ‘ik’ en vertaalt dit in een sterretje. Toch nog even benadrukken dat de lay-out bijna perfect werd overgenomen.

1
2
3
4
5
6
7
8
9
Vorig artikelDraagbaar en monteerbaar luidsprekersysteem van Bose
Volgend artikelTwee OCR-pakketten getest: een besluit

LAAT EEN REACTIE ACHTER

Schrijf je reactie!
Vul hier je naam in

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.