Dossier spraakherkenning

0
13

Hoe behaal je een zo groot mogelijk herkenningsgraad? We zetten een aantal tips op een rij.

De systeemvereisten die de fabrikanten van spraakherkenningssoftware opgeven zijn eigenlijk minimale vereisten. Zelfs hun ‘optimale’ vereisten liggen aan de lage kant. Een optimaal systeem is een Pentium III 450 MHz met 128 MB en een goede 500 MB vrije ruimte op de harde schijf. Extra geheugen, pakweg 256 MB, is geen overbodige luxe. Zeker niet als je werkt onder Windows NT 4.0 of Windows 2000. Bescheidener hardware kan, maar dat gaat dan ten koste van de herkenningsgraad en/of snelheid waarmee tekst op het scherm verschijnt. Ik ondervond dat mijn testsysteem bestaande uit een AMD K6-2 350 MHz met 128 MB, 6,4 GB harde schijf en SoundBlaster Live! geluidskaart niet bepaald schitterde in snelheid om het zacht uit te drukken.

Geluidskaart
Speciale zorg moet je besteden aan je geluidskaart. Een ouder ISA kaartje of een zogenaamd SoundBlaster compatibel kaartje van een obscuur Taiwanees merk vervang je best. Zo’n ding is wellicht goed voor het geluid dat spelletjes produceren, maar ontoereikend wanneer je met spraakherkenning aan de gang wilt gaan. Het minimum is een SoundBlaster 64 of 128 PCI of een andere PCI kwaliteitskaart zoals een Turtle Beach Montego II of Terratec PCI-geluidskaart. Ben je de trotse bezitter van een SoundBlaster Live! geluidskaart, dan kun je op je beide oren slapen want die geeft heel goede resultaten.

Microfoon
Ook aan de microfoon moet je de nodige aandacht besteden. Meestal is de meegeleverde microfoon niet optimaal. Een gekregen paard kijk je niet in de bek, voor optimaal resultaat heb je toch een beter apparaatje nodig zoals de eerder vermelde Labtec hoofdset of een kwaliteits-hifi microfoon die het omringend storend geluid uitfiltert. Het handigst blijft een hoofdset. Zorg er dan voor dat de microfoon niet recht voor je mond zit, maar wat links of rechts schuinweg. De reden hiervoor is dat je anders onbewust in de microfoon blaast en dat geeft een extra storend geruis dat de herkenningsgraad danig naar beneden haalt. Het is best om de audio setup of AudioWizard te draaien telkens voordat je start. Omgevingsgeluiden kunnen immers dagelijks veranderen.

Notebooks
Notebookgebruikers moeten extra aandacht besteden aan geluidskaart en microfoon. De gebruikte geluids-chipsets in notebooks zijn absoluut onvoldoende voor spraakherkenning en het microfoontje dat soms is ingebouwd in het scherm-frame komt in geen lichtjaren in de buurt. De beste oplossing hiervoor is het gebruik van een USB-microfoon omdat die de kwaliteit versterkt van de gebruikte geluidschip in de notebook. Probleem is dat zo’n USB-microfoon moeilijk is te vinden.

Trainen en nog eens trainen
Doorworstel de volledige trainingscyclus. Ik weet het, het is een noodzakelijk kwaad. Toch is het geen overbodige luxe. De minimumtraining van een kleine tien minuten voor Voice Xpress en een kwartiertje voor FreeSpeech volstaan niet als je spraakherkenning effectief en efficiënt wilt gaan gebruiken. Het is wel voldoende om een paar zinnetjes in te spreken, maar wil je meer, dan moet je ook meer oefenen. Oefening baart immers kunst. Je zult dus pakweg een goed uur zoet zijn met het inspreken van allerlei zinnetjes en teksten. Articuleer duidelijk, maar overdrijf niet tijdens de training. De computer onthoudt immers dit stemtimbre en verwacht dan ook dat je tijdens een gewone sessie op dezelfde manier spreekt. Is dat niet het geval, gaat dat ten koste van de herkenningsgraad. Spreek dus duidelijk maar normaal tijdens de training.

Gebroeders Karamazov
Heb je de training goed overleefd, begin dan niet onmiddellijk met het voorlezen van Dostojevki’s Gebroeders Karamazov. Een pagadder die zijn eerste stapjes zet, loopt ook geen marathon uit. Begin dus met eenvoudige, korte zinnen of woorden. Het klinkt misschien wat raar, maar de eerste leesboekjes voor peuters van het eerste leerjaar of daaromtrent zijn hiervoor ideaal. Kijk na een goede driehonderd woorden hoeveel fouten er zijn gemaakt. Tel de fouten en begin opnieuw. Als je nu minder fouten hebt, ben je blijkbaar goed bezig en kun je langzaam aan met het echte werk aan de slag: kortere brieven en memo’s bijvoorbeeld. Merk je geen verbetering, dan moet je terug naar af en moet je eerst uitvissen waar het probleem zit: bij je hardware, de training of de microfoon/hoofdset. Het heeft immers geen zin te blijven aanmodderen als de herkenningsgraad niet merkbaar verbetert. Je doet er ook goed aan om zinnen of zinsdelen ineens te verbeteren in plaats van losse woorden. Gebruik ook af en toe de weergavefunctie om te zien hoe je stem klinkt.

Formattering
Een brief of memo dicteren is niet heel het verhaal. Het formatteren in een deftige stijl is een tweede aspect en dat kan natuurlijk ook met een goed spraakherkenningsprogramma. Hier moet je zelf ondervinden wat het makkelijkst werkt: ofwel doe je de basisformattering tijdens het dicteren zelf, ofwel laat je dat totdat heel de tekst gedicteerd is en begin je dan met de layout van je tekst. Vele intensieve gebruikers van spraakherkenningsprogramma’s zullen je vertellen dat de laatste werkwijze te verkiezen is. Het hangt wel voor een deel af van het programma dat je gebruikt. L&H heeft een meer intuïtieve interface om een en ander tijdens het dicteren te doen. In FreeSpeech moet je altijd schakelen tussen de dicteermodus en opdrachtmodus en dat werkt niet altijd even vlot.

Conclusie
Volharding is een schone deugd wil je succes boeken met spraakherkenning. Dit is nog lang geen software die je rechtstreeks uit de doos kunt gebruiken.
Vorig artikelDossier spraakherkenning
Volgend artikelDossier spraakherkenning