Readiris, accuraat en intuïtief OCR-programma

0
108
Wanneer je een scanner koopt, zit daar vaak OCR-software bij. OCR staat voor Optical Character Recognition, software waarmee je ingescande teksten kunt omzetten in bewerkbare tekst. Je kreeg bij jouw scanner mogelijk een versie van Readiris, het OCR-programma van het Belgische I.R.I.S. (Image Recognition Integrated Systems). Onlangs verscheen hiervan versie 14. Wij hebben het getest.

Ken je Readiris al van vroeger (lees onze testen uit 2002 (v7), 2003 (v8), 2004 (v9)) dan ga je je toch moeten aanpassen, want Readiris 14 kreeg een gloednieuwe interface. Een lint vervangt de menu’s en werkbalken zoals je dat al wel kent uit andere recente programma’s. Readiris maakt verder gebruik van hun nieuwe OCR-engine DRS 15 die een nog grotere nauwkeurigheid vooropstelt. Dat is natuurlijk relatief, want OCR is al lang zijn kinderschoenen ontgroeid. Readiris leverde ook voordien al schitterende resultaten en de perfectie zal het wel nooit bereiken.

Optical Character Recognition met Readiris 14

Optical Character Recognition met Readiris 14 (© ; licentie: )

Vermeldenswaard is dat Readiris 14 speciaal ontworpen is voor de verwerking over meerdere threads. Even verduidelijken: zowat alle moderne CPU’s hebben meerdere kernen (twee in een dual core, vier in een quad core) en als die CPU ook nog eens de Hypertheading technologie ondersteunt kan die computer vier respectievelijk acht threads tegelijkertijd uitvoeren.

Readiris 14 geeft elke thread zijn eigen pagina om te bewerken. Het leuke is dat je dat proces kunt volgen. Rechts op het beeldscherm staat het paneel Activiteit. Hier worden de threads grafisch voorgesteld en kan je zien waar elke thread precies mee bezig is.

Elke thread van de CPU krijgt zijn eigen opdracht

Elke thread van de CPU krijgt zijn eigen opdracht (© ; licentie: )

Readiris ondersteunt voortaan ook de laatste standaard van Microsoft Word en Microsoft Excel (.docx en .xlsx). In versie 14 zitten ook enkele Cloud-connectors. Hiermee kan je de verwerkte documenten rechtstreeks naar de Cloud versturen, te weten naar de Cloud-toepassingen van Evernote, Dropbox, GoogleDocs (binnenkort herdoopt in Google Drive) en Box.net.

De duurdere versie Readiris Corporate (zie verder) verzendt ook documenten naar Microsoft SharePoint 2011 en Therefore 2011. Tot onze verbazing vinden we Microsofts Skydrive niet terug in het lijstje. Op zich is dat geen groot probleem, omdat Skydrive – net als Google Drive overigens – een lokale map op je harde schijf maakt en die nadien automatisch synchroniseert met de Cloud.

Enkele voorbeelden van het lint. De onderste afbeelding toont de cloud-connectors.

Enkele voorbeelden van het lint. De onderste afbeelding toont de cloud-connectors. (© ; licentie: )

 

 
Aan de slag: de installatie

Voor de test ontvingen wij een download-adres en een activeringscode. De installatie op zich verloopt probleemloos; zoals gebruikelijk moet je het nodige aantal keren op “Accept” klikken. Dan volgt de activeringsprocedure.

De sleutel bestaat uit een code van negen blokken van telkens vier letters en cijfers die je moet invoeren in een evenredig aantal velden. Wanneer je een veld ingevuld hebt, springt normaal de focus automatisch naar het volgende veld, maar door een programmeerfout springt de focus hier telkens naar het vorige vak in de plaats van naar het volgende zodat je dat overschrijft. Dit doet niets af aan de kwaliteit van Readiris op zich, maar het blijkt bizar moeilijk om de code correct in te voeren.

Na het activeren kan je je registreren. Dat is strikt genomen niet noodzakelijk maar wel wenselijk als je tenminste op de hoogte wenst te blijven van de laatste updates. Tot slot dien je nog aan te geven welke scanner je gebruikt.

Readiris 14 aan het werk

Readiris 14 aan het werk (© ; licentie: )

 
Je werkomgeving

We hebben het lint bovenaan reeds vermeld. Net zoals in Office 2010 is dat ingedeeld in tabs en groepen. Dat is natuurlijk puur cosmetisch wanneer je dat vergelijkt met de aloude menubalk, maar het oogt fris. Links op het scherm vind je het paneel Pagina’s. Telkens je een pagina in Readiris opent of scant, wordt hiervan een miniatuur in het paneel Pagina’s weergegeven. Klik je op een miniatuur dan wordt deze pagina in het groot in het middenvak weergegeven.

Rechts bovenaan zie je het paneel Eigenschappen. Dit paneel geeft informatie over de eigenschappen van elke pagina weer, zoals de scantijd, OCR-tijd, scanresolutie enz. Daaronder zie je het hoger al besproken paneel Activiteiten, waarmee de verschillende threads bezig zijn. Alle panelen kan je sluiten, verplaatsen of automatisch laten verbergen. Net zoals in Microsoft Office kan je het lint ook minimaliseren.

De SmartTasks in het midden: het volledige proces onder één knop

De SmartTasks in het midden: het volledige proces onder één knop (© ; licentie: )

 
SmartTasks

Wanneer je Readiris start is er uiteraard nog geen enkele pagina gescand of ingelezen, de meeste panelen zijn bijgevolg leeg. In het middengedeelte van de werkplek zie je dan een lijstje met zes “SmartTasks” zoals Readiris ze noemt. In feite zijn het gewone wizards die met één klik het ganse OCR-proces volgens de standaardinstellingen laat verlopen. Je kunt kiezen tussen:

• uitvoer naar Word, Excel,
• omzetten in PDF of XPS en zo opslaan of versturen per e-mail,
• uitvoer naar de Cloud
• of de documenten laten scheiden en indexeren (alleen Corporate versie).

 
Manueel tekst herkennen

Natuurlijk kan je dat ook allemaal stap voor stap zelf sturen, dat geeft je veel meer opties. Dan kan je de bron kiezen (scanner, foto, PDF-bestand), de taal van het bronbestand instellen – in de duurdere Corporate versie kan je nog een tweede taal kiezen -, het type van uitvoerbestand kiezen, de pagina automatisch laten rechtzetten en zo nodig de tekstrichting instellen.

Uitvoer is mogelijk in allerlei formaten

Uitvoer is mogelijk in allerlei formaten (© ; licentie: )

Na het scannen (of openen) van het bronbestand volgt de tweede fase van het OCR-proces, de analyse. De inhoud van de bron wordt nu opgedeeld in tekstvakken, tabellen, figuren en barcodes. Deze vakken zijn genummerd, zo nodig kan je deze volgorde nu aanpassen. De volgorde is immers van belang wanneer je als uitvoertype “lopende tekst” kiest.

Je kunt ook sommige zones compleet weglaten (reclame bijvoorbeeld). Handig zijn de knoppen “Wis kleine zones” – want vaak zijn dat storende artefacten zoals vlekken, gaatjes van de perforator of kreuken – en “Geen vensters detecteren aan de randen van de lay-out” – zo niet wordt de schaduw van de rand van het blad of boek als een lange figuur geïnterpreteerd.

Tot slot is er de uitvoer. De lijst met uitvoerformaten is erg lang, als bekendste (en allicht meest gebruikte) noteren we PDF, XPS, RTF, DOC, DOCX, ODT, XML, XLSX, CSV, TXT, HTML, JPG en TIF. Naast het formaat kan je ook kiezen of je het resultaat als doorlopende tekst wilt, als tekst met behoud van woord- en paragraafopmaak of als een reconstructie van het brondocument.

Boven het origineel, onderaan het resultaat in Word. De reconstructie van tekst en beeld lukt toch niet helemaal.

Boven het origineel, onderaan het resultaat in Word. De reconstructie van tekst en beeld lukt toch niet helemaal. (© ; licentie: )

 
Testresultaten: tekst

• Kwaliteitsdrukwerk zoals boeken, folders of een geprint document met zwarte tekst op witte achtergrond en vrijstaande afbeeldingen wordt quasi foutloos omgezet, wij meten minder dan 1 fout op 1000 woorden. In onze test zat die fout dan nog in een cursief gedrukt, niet bestaand woord waar een kleine L als een schuine streep / aanzien werd.

• Wanneer de tekst over een afbeelding heen loopt, zoals vaak voorkomt in reclame, verandert de situatie. Zolang de tekst donker en de achtergrond licht is wordt de nauwkeurigheid niet merkbaar beïnvloed. Omgekeerd, bij witte tekst op een donkere achtergrond, verslikt Readiris zich steevast. De uitvoeroptie “Brondocument reconstrueren” naar Word is bij tekst-over-reclame niet echt bruikbaar, omdat ofwel de figuur onderbroken wordt achter de tekst, ofwel de afbeelding van de oorspronkelijke tekst als een schaduw achter de gereconstrueerde tekst blijft staan. Hier kan eventueel een uitvoer als “PDF – Doorzoekbare Afbeelding” uitkomst bieden, omdat je dan de volledige pagina als afbeelding ziet en de gereconstrueerde tekst er onzichtbaar maar selecteerbaar achter zit.

• De resultaten van het OCR-proces bij krantenknipsels en reclamefolders allerlei is wisselvallig, recht evenredig met de kwaliteit van het bronbestand en afhankelijk van het (soms fantasierijke) lettertype. Om je toch een idee te geven: na enkele tientallen documenten “allerlei” tellen we een gemiddelde foutenlast van 31 fouten op 1000 woorden.

 
Testresultaten: tabel

Hiervoor drukken we eerst enkele tabellen af en scannen die nadien opnieuw in met uitvoer naar Excel. Aangename verrassing: alle cijfers worden correct herkend! Ook in de wat moeilijker opgaves waar tekst achter de cijfers staat (674 Km of 62,4 l op een verbruiksblad) is de omzetting perfect.

Toch één opmerking: Readiris zet alles om als tekst, ook kolommen waarin uitsluitend cijfers staan. Als je nadien met het resultaat terug bewerkingen wilt uitvoeren, zal je de tekst in Excel eerst terug moeten converteren naar cijfers.

Twee versies: Readiris Pro (99 euro) en Readiris Corporate (599 euro)

Twee versies: Readiris Pro (99 euro) en Readiris Corporate (599 euro) (© ; licentie: )

 
Versies

Readiris wordt verkocht in 2 versies: de engine is voor beide versies dezelfde, de Pro-versie zal dus niet sneller of nauwkeuriger zijn dan de Corporate.

De (merkelijk duurdere) Corporate-versie biedt volgende pluspunten:

• 3 Gebruikerslicenties in plaats van 1
• Indexeer-tools
• OCR en scheiding van documenten in batch-verwerking
• Bewaakte mappen
• Uitgebreide Cloud connectors voor Microsoft SharePoint en Therefore
• Dubbelzijdig scannen en scannen aan hoge snelheid
• Herkenning van visitekaartjes

Voor privégebruik zal in zowat alle gevallen de Pro-versie ruim volstaan.

Conclusie
Readiris 14 toont zich een zeer accuraat OCR-programma. Het is bijzonder intuïtief: er zit een PDF-gebruiksaanwijzing bij maar die heb je aanvankelijk niet eens nodig. Vooral voor de SmartTasks verdient Readiris een pluim. Het originele blad op de scanner leggen, Readiris starten, op de juiste SmartTask klikken en enkele ogenblikken later opent Word (of Excel, PDF lezer…) zich met daarin het resultaat. Nog eenvoudiger kan moeilijk.
Adviesprijs
Readiris 14 Pro: € 99
Readiris Corporate: € 599
Foto van I.R.I.S.
Categorieën: Producenten
Naar begin pagina.
Vorig artikelDunste Sony Walkman mp3-spelers ooit
Volgend artikelEerste EOS systeemcamera van Canon
René Paulus
René Paulus is medewerker van Diskidee.

LAAT EEN REACTIE ACHTER

Schrijf je reactie!
Vul hier je naam in

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.