Met de demonstratie in China toonde Rick Rashid, Chief Research Officer van Microsoft, hoeveel vooruitgang er is geboekt in de spraak-naar-spraak-technologie. Tijdens zijn speech, die hij in het Engels bracht, werden zijn woorden tijdens de laatste minuten weergegeven in het Chinees met dezelfde intonatie en ritme, zodat de vertaalde toespraak klonk alsof Rashid zelf Chinees sprak.
De laatste tien jaar is er veel vooruitgang geboekt in de technologieën voor spraakherkenning en automatische vertaling. De combinatie van betere methoden, snellere computers en de mogelijkheid om aanzienlijk meer data te verwerken heeft geleid tot veel praktische toepassingen.
Iets meer dan twee jaar geleden kenden onderzoekers van Microsoft Research en de Universiteit van Toronto een nieuwe doorbraak. Met een techniek genaamd Deep Neural Networks, die is gemodelleerd naar het gedrag van het menselijke brein, slaagden ze erin een computer geluid te laten herkennen zoals de hersenen dat doen en zo betere spraakherkenners te trainen dan met vorige methoden.
In een blogpost licht Rick Rashid een en ander toe. Hij benadrukt ook dat er nog veel werk dient te gebeuren op dit gebied, maar dat de technologie veelbelovend is en tot een betere wereld kan leiden. In een video geeft hij een overzicht hoe spraakherkenning is geëvolueerd en kan je hem op het einde via spraak-naar-spraak-vertaling in het Chinees horen spreken: