Dossier spraakherkenning

0
42

Er zal wel nog heel wat water naar de zee vloeien voordat je pc je ’s morgens spontaan begroet. Vergeet immers niet dat de fictieve HAL 9000 computer uit de film 2001, a Space Odyssey gebaseerd is op neurotechnologie en dat duurt toch nog even na 2001 voordat we zover zijn. Wat wel vaststaat is dat de toepassingsgebieden van spraaktechnologie zich verbreden.
spraakherkenning_foto
Een kleine maand geleden introduceerden GSM-providers de eerste WAP-functies voor de nieuwste WAP GSMs oftewel GSMs met Wireless Application Protocol (WAP). Hiermee kun je beperkt surfen op het web met je GSM. Beperkt, omdat een GSM zich nu eenmaal in flitsende multimediasites zou verslikken. Het is ook niet evident om tekst in te tikken vanaf je GSM. Aan de volgende generatie GSMs wordt al flink gewerkt en die zou het probleem oplossen met, jawel, spraaktechnologie. L&H is daar trouwens achter de schermen volop mee bezig. Midden dit jaar zouden de Belgische GSM-aanbieder Mobistar en L&H al op de markt komen met een gesproken alternatief voor SMS (Short Messaging Service). En nu zijn er al GSMs op de markt die de naam van de juiste persoon automatisch bellen als je die in je GSM inspreekt.

PC
Wat de traditionele spraaktechnologie op de pc in de toekomst te bieden heeft, kan het er alleen maar op verbeteren omdat de pc’s steeds sneller worden en de nauwkeurigheid daardoor ook groter wordt. Nu immers moet je meestal nog een compromis sluiten tussen snelheid en nauwkeurigheid. Ik heb de test nog niet gedaan met een 1 GHz pc, maar ik kan me wel voorstellen dat je op zo’n snelheidsbeest met bijvoorbeeld 256 MB Ram-geheugen zonder weinig problemen kunt instellen op maximum nauwkeurigheid zonder dat de snelheid en respons hieronder lijdt. In de toekomst zullen met de snellere processoren nog complexere algoritmen ingebouwd worden in de kernel van de spraakherkenningsprogramma’s die extra grammaticale en semantische controles uitoefenen zodat ook dit weer de nauwkeurigheid van spraakherkenning verhoogt. Nu zul je het in de praktijk nog wel moeten stellen met iets minder geavanceerde hardware en dus wat compromissen moeten sluiten. Een minder nauwkeurige omzetting van spraak-naar-tekst is daarvan het gevolg.

Tekst naar spraak
Overigens is er ook ontwikkeling in de omgekeerde richting, van tekst naar spraak. Dit is minder spectaculair en het resultaat is nog meer ‘computerachtig’ omdat een computerstem nu eenmaal monotoon en dus saai klinkt, ook al probeert men meestal een zwoele vrouwenstem te simuleren. Je zult deze vorm van spraakherkenning (eigenlijk ’tekstherkenning’ in deze context) dan ook voorlopig slechts sporadisch als gadget vinden als onderdeel van een groter geheel, zoals de optie om een artikel voor te lezen in Microsoft/Elsevier Encarta 2000. Wanneer je in Encarta 2000 een artikel hebt gevonden over een onderwerp dat je interesseert, kun je het de pc laten voorlezen. Op zich handig voor slechtzienden en blinden, maar wie helpt hen in de eerste plaats het gewenste artikel zoeken? Tekst-naar-spraak kan dan misschien nog marginaler zijn dan spraak-naar-tekst, dat al een tijdje meer ingeburgerd is geraakt, toekomst is er alleszins.

Voorlezen
Wat dacht je ervan als nieuwe mailtjes netjes worden voorgelezen, eventueel via je GSM? Standaard e-mail clients als Outlook en Eudora hebben dit geintje nog niet, maar met wat extra hulp kan het nu al. FreeSpeech 2000 heeft namelijk een extra te installeren programmaatje waarmee je teksten en e-mail kunt laten voorlezen. Helaas kregen we dit niet aan de praat. De optie bleef bij ons steeds uitgegrijsd, wat we ook deden. De nieuwste versie van VoiceXpress heeft een gelijkaardige functie die toepasselijk ‘Talking Text’ heet. Ook GSM-operatoren zijn hier mee bezig en het zou me niks verbazen als er op het web niet een of andere service dit in de nabije toekomst ook mogelijk maakt.

Anchor-woman Ananova
Moet Martine Tanghe of Astrid Joosten écht vrezen voor hun job? Ananova is de eerste virtuele nieuwslezeres en wordt in Vlaanderen wel eens de virtuele Martine Tanghe genoemd. Daar houdt de gelijkenis ook op. Waar Martine Tanghe voor een groot stuk haar nieuwsteksten waarschijnlijk zelf schrijft, moet Ananova het hebben van real-time spraaktechnologie. Je mag drie keer raden wie daarvoor zorgt: juist, onze vrienden L&H. Dit via hun nieuwste technologie Real-Speak. Het komt er op neer dat tekst van nieuwsberichten in real-time door het systeem naar spraak wordt omgezet. Dat doe je dus even niet met een doordeweeks pc-tje. Hier zit een zeer krachtig werkstation achter. Het Ananova-experiment is ook een vorm van tekst-naar-spraak en laat goed zien wat er in de toekomst op het web allemaal kan. Wanneer iedereen via de kabel of andere breedbandverbindingen suft, is het niet onmogelijk dat Engelstalige websites on-the-fly worden vertaald in het Nederlands en nog voorgelezen worden ook. Dit laatste is vooral belangrijk om slechtzienden ook te laten meegenieten van de mogelijkheden op het web.Ananova is een waanzinnig succes, want wanneer ik op de Ananova-site met deze Virtuele Schone kennis wilde maken, bleek de server overbelast en kon ik geen contact leggen. Geef mij dan maar Martine!

Hellep, mijn Mac is doof!
Tot nu toe heb ik het alleen gehad over Intel pc-gebruikers. Twee belangrijke pc-gebruikers zijn tot nu toe nog niet aan bod gekomen. Verstokte Linux-gebruikers zullen voorlopig niet veel tegen hun pc kunnen zeggen, tenzij ze werken met SuSE 6.3 of hoger. Hierin zit een versie van IBM ViaVoice, maar enkel in het Engels. Ook Mac-gebruikers hebben een probleem. IBM heeft een product op de markt met ViaVoice for the Mac dat eind vorig jaar op de markt kwam. Dragon had plannen voor een Mac-product, maar liet de release-datum ervan afhangen van Mac OS X, dat er nog steeds niet is. Wat de plannen nu zijn, nu Dragon onder de vleugels van L&H verder vliegt, is niet duidelijk. Een klein bedrijfje MacSpeech zou van plan zijn een product te commercialiseren op basis van de Philips (FreeSpeech?) dicteer-engine, maar een concreet resultaat is er nog niet. Feit is dat Mac-gebruikers tot nu toe in de kou zijn blijven staan, want ViaVoice for the Mac verstaat alleen Engels, geen Nederlands. Trouwens, net zoals de pc-systeemvereisten, moet je voor ViaVoice for the Mac niet met een Mac Classic komen aandraven. Een iMac, een PowerMac G3/G4 of PowerBook G3 zijn vereist met minstens 48 MB Ram. Een iBook speelt niet mee bij gebrek aan microfoonaansluiting, iets dat met een USB-microfoon wel verholpen kan worden.

Conclusie
Spraakherkenning wordt langzaamaan volwassen, al kan alles natuurlijk beter. Wanneer de 1 GHz processorbeesten en sneller in de toekomst betaalbaar worden, dan kunnen er natuurlijk weer wat extra functies en tekstcontroles bijkomen die de herkenningsgraad kunnen vergroten. Ik verwacht wel veel van tekst-naar-spraak. Nu is dat nog een bijkomend onderdeel van spraak-naar-tekst pakketten als Voice Xpress en FreeSpeech, maar binnenkort gaat deze technologie zeker een eigen leven leiden met eigen toepassingsgebieden zoals het voorlezen van je e-mail of volledige websites. Ook Ananova en bepaalde (WAP) GSM-diensten maken gebruik van TTS-technologie (Text-to-Speech, oftewel tekst-naar-spraak). De dag dat HAL en niet Marc ’s morgens de dingen groet, komt met kleine stapjes toch steeds dichterbij, al is er wat de mobile-versie van Voice Xpress nog heel veel werk aan de winkel.
Vorig artikelDossier spraakherkenning
Volgend artikelIk oogst met iHarvest One