Business intelligence met deep learning

0
215
Met Watson Analytics lanceert IBM een toegankelijk analysetool voor (bedrijfs)gegevens en sociale-mediagegevens, te bevragen in gewone spreektaal. Het is een alternatief voor de grotere BI-tools die vooral door specialisten worden gebruikt. Maar er is ook een gratis versie met iets beperktere mogelijkheden waarmee je als student, docent of zelfs gewone gebruiker aan de slag kunt.

Halverwege de jaren tachtig van de vorige eeuw maakte ik voor de toenmalige Brt radio 3 een lange reportage over artificiële intelligentie (ai). Bij de geïnterviewde specialisten heerste er groot optimisme over hun vakgebied. Dat optimisme bleek onterecht.

Prof. Luc Steels, die in 1983 het Artificial Intelligence Laboratory van de Vrije Universiteit Brussel oprichtte en die ik in 1983 ook interviewde, gaf het onlangs toe in De Tijd (9 januari 2016): “Een 3-jarige is nog altijd slimmer dan een robot.” Hij reageerde daarmee op het voornemen van Facebook-oprichter Mark Zuckerberg om een robot te ontwerpen die als zijn butler werkt.

“De onderliggende intelligentie (van robots) is al decennia dezelfde. Ze is gebaseerd op algoritmen die er dertig jaar geleden ook al waren,” aldus Steels, die de huidige capaciteit van artificiële intelligentie wel eens vergelijkt met een idiot savant: zijn intelligentie is vooral een illusie, dankzij zijn razendsnelle rekenkracht, grote talenkennis en encyclopedische kennis. Maar betekenis, daar worstelt de ai volgens Steels nog altijd enorm mee. Het zou hem verwonderen dat een robot “aan het einde van de eeuw even slim is als een 2-jarige”.

IBM Watson: voorbeeld van een analyse van een wijnkelder

IBM Watson: voorbeeld van een analyse van een wijnkelder (© ; licentie: )

 
Deep learning

Hoezo er is geen echte ai zul je misschien opwerpen? Onlangs nog versloeg Google’s DeepMind-computer Go-wereldkampioen Lee Sedol? En wat dan met IBM’s Deep Blue die eind de jaren negentig Gary Kasparov alle hoeken van het schaakbord liet zien? Of IBM’s Watson die de aartsmoeilijke Amerikaanse quiz-show Jeopardy won?

Met artificiële intelligentie hebben al die voorbeelden echter weinig te maken. Het zijn allemaal voorbeelden van wat tegenwoordig populair “deep learning” wordt genoemd en al lang wetenschappelijk bekend staat als artificiële neurale netwerken.

Door de sterk toegenomen rekenkracht en de beschikbaarheid van enorme, snel toegankelijke dataverzameling zoals Wikipedia (waar Watson mee verbonden was tijdens diens Jeopardy-deelname) kunnen dergelijke systemen de indruk van intelligentie wekken.

Met volledige ai, ofwel artificial general intelligence (agi), heeft dit echter weinig te maken. Als Luc Steels betwijfelt dat een ai-systeem voor het einde van deze eeuw intelligenter zal zijn dan een tweejarige heeft hij het over een agi-systeem.

Maar dat zegt natuurlijk weinig of niets over de capaciteiten en nuttigheid van “deep learning”-systemen zoals DeepMind en Watson. Specifiek gebruikt IBM zijn Watson-technologie meer en meer ook voor commerciële toepassingen die het bedrijf echt geld kunnen opbrengen.

Zo werkt IBM aan de integratie van Watson in zijn zakelijke communicatietool Verse dat we eerder testten. En recent eindigde de eind 2014 gestarte bètaperiode voor IBM Watson Analytics, een gebruiksvriendelijk business intelligence tool dat voortaan in verschillende uitvoeringen voor iedereen commercieel beschikbaar is.

Watson valt trouwens onder een aparte groepsdivisie binnen IBM met tweeduizend medewerkers, waarin het bedrijf ondertussen één miljard dollar investeerde. De IBM Watson Group is naast voor Watson Analytics ook verantwoordelijk voor twee andere cloudgebaseerde diensten, namelijk Watson Discovery Advisor, dat farmaceutische bedrijven assisteert bij het ontdekken van nieuwe formules en medicijnen, en Watson Explorer, een intelligente zoekmachine voor massieve, al dan niet gestructureerde bedrijfsdata. Deze drie producten kunnen via de open Watson API ook geïntegreerd worden in bedrijfssystemen en software van derden.

 
BI voor leken

Watson Analytics is in essentie een business intelligence-tool voor leken, die met behulp van natuurlijk taal analyses kunnen loslaten op willekeurige dataverzamelingen. Het is dus geen vervanging voor grote bi-tools zoals IBM Cognos waarmee specialisten bedrijfsgegevens analyseren. Je moet het eerder zien als een eenvoudiger analysetool voor “ad hoc” gebruik door bijvoorbeeld marketeers die snel een rapport willen over een bepaalde tendens of gebeurtenis zonder dat ze daarvoor de bi-afdeling hoeven lastig te vallen.

Het systeem kan worden gevuld met allerlei bedrijfsgegevens, op voorwaarde dat die aangeleverd worden in spreadsheet-formaat (Excel of .csv) of IBM SPSS Statistics sav-format op een lokale (netwerk)drive of een clouddrive zoals Dropbox, Box of Microsoft OneDrive.

IBM Watson: Importeren en markeren van data

IBM Watson: Importeren en markeren van data (© ; licentie: )

IBM voegt voortdurend nieuwe mogelijkheden toe. Sinds eind vorig jaar kan Watson Analytics ook rechtstreeks werken met sociale media-gegevens (Twitter, forums, review sites), voor zover die in het Engels, Frans, Duits of Spaans zijn. Met die Watson Analytics for Social Media kan men antwoorden vinden op vragen zoals “wat zijn de meest besproken eigenschappen van mijn product of productcategorie”, “wat is de reputatie van de verkopers die ik overweeg”, of “waar maken de kiezers in mijn kiesgebied zich het meest druk over”?

 
Edities

Vóór we het verder hebben over de mogelijkheden en werking van Watson Analytics moeten we het eerst over het verkoopmodel hebben. IBM brengt dit cloudproduct aan de man/vrouw volgens het freemium-model, waarbij de basismogelijkheden gratis zijn en je voor geavanceerde mogelijkheden betaalt.

De gratis versie van Watson Analytics verwerkt spreadsheet-datasets van maximaal 500 MB met 100.000 rijen en 50 kolommen.

De Plus-versie, die wij hebben getest, is geschikt voor datasets van 2 GB met maximaal 1 miljoen rijen en 256 kolommen. Deze versie bevat ook de Social Media-add-on, plus de mogelijkheid om gegevens te importeren uit IBM Cognos Business Intelligence. Extra gegevens kunnen bijgekocht worden in pakketten van 10 GB. Deze versie kost 29,95 euro per gebruiker per maand.

Ten slotte is er de Professional-versie, waarvan wij een demo kregen, waarin meerdere gebruikers samenwerken rond dezelfde datasets, die een maximale omvang van 100 GB hebben met 10 miljoen rijen en 500 kolommen. Extra data kan men tegen betaling toevoegen à rato van 50 GB. Deze versie kost 77,2 euro per gebruiker per maand. De Professional-versie laat ook toe om bestaande dataverzamelingen, voorspellingen, bevragingen en “views” te delen met anderen.

 
Werking

Het systeem bevat voorbeelddata waarmee je Watson Analytics desgewenst eerst kunt verkennen. Dankzij de ondersteuning voor csv en Excel kun je data uit alle denkbare systemen importeren. Wij gebruikten tijdens de test een spreadsheet met tienduizenden sap-meldingen en verschillende xls-bestanden van data.gov.be.

IBM Watson: verfijnen van dataset

IBM Watson: verfijnen van dataset (© ; licentie: )

Zodra de dataset geladen is, vraagt het systeem je om eventuele kolomtitels te markeren. Watson analyseert de data en plakt er dan een kwaliteitscijfer op tussen één en honderd. Je kunt jouw dataset achteraf verfijnen door bijvoorbeeld kolommen en rijen anders te benoemen of sorteren, rijen uit te sluiten, de inhoud van de cellen anders te markeren of de manier waarop gegevens worden verzameld te wijzigen.

Watson Analytics helpt je bij het verfijnen van de dataset door de cijfermatige kolommen te voorzien van een kwaliteitscijfer. Op die manier kun je kolommen met een lage kwaliteit uitsluiten omdat ze bijvoorbeeld te weinig gegevens voor een zinvolle analyse bevatten. Dit kan een flinke verbetering van de datakwaliteit opleveren en het loont de moeite om dit eerst in orde te maken. Bijvoorbeeld de kwaliteit van de dataset “Aandeel huishoudens met een computer” van data.gov.be konden we op die manier verbeteren van 54/100 of “gemiddeld” naar 92/100 of “hoog”.

IBM Watson: datakwaliteitsrapport voor voorspelanalyse

IBM Watson: datakwaliteitsrapport voor voorspelanalyse (© ; licentie: )

Zodra je op jouw dataset klikt, suggereert het systeem een aantal vragen die je kunt stellen: “hoeveel keren komen die en die waardes voor”, “wat is het verband tussen de ene en de andere waarde”, “hoe verhoudt zich waarde x tot waarde y”, “wat is de meest gemeenschappelijke waarde in kolom x”, etc. Je kunt ook zelf vragen stellen en wordt daarbij eventueel geholpen door de “Ask a question”-wizard.

IBM Watson: interface

IBM Watson: interface (© ; licentie: )

Het type vragen dat je kunt stellen, hangt uiteraard grotendeels af van het soort dataset dat je wil analyseren. Het belangrijkste is dat je jouw gegevens in natuurlijke taal kunt analyseren, zonder kennis van booleaanse operatoren, database query’s of Excel-formules.

Naast analyses kun je ook voorspellingen loslaten op een dataset. Je definieert daarbij maximaal vijf “targets” (vijf soorten gegevens uit de dataset). Ook hier helpt een wizard je op weg.

Ten slotte verzamel je in het onderdeel “Assemble” resultaten en inzichten in rapporten met infographics, diavoorstellingen of tijdslijnen die je eenvoudig samenstelt door middel van klikken en slepen van gegevens uit de dataset. De aldus gecreëerde rapporten kunnen steeds hergebruikt worden en gevuld met de nieuwste gegevens, op voorwaarde dat het formaat van de onderliggende dataset dezelfde blijft.

 
Sociale media analyses

Het analyseren van gegevens uit sociale media verloopt iets anders. Eerst creëert je een project met een onderwerp dat je wenst te analyseren, bijvoorbeeld een merknaam. Je bepaalt de zoekperiode, de bronnen en de talen (nog geen Nederlands). Daarna voeg je toe, sluit uit of plaatst in context, bijvoorbeeld “apple”, niet “appel”, wel “iphone”.

IBM Watson: sociale media analyse

IBM Watson: sociale media analyse (© ; licentie: )

Aan de rechterkant van het scherm toont het programma suggesties voor dergelijke termen. Door de irrelevante termen zoveel mogelijk te weren, creëer je een relevantere dataset. Het kan wel enkele minuten duren voor het systeem alle gegevens binnenhaalt.

Daarna kun je jouw sociale media-dataset analyseren volgens onderwerp, auteur, thema, datum, uur, bron, taal, sentiment, geografische gegevens, demografie, site, apparaat, conversatie etc. en dat kan uiteraard ook weer in allerlei rapporten worden gegoten.

Conclusie
Watson Analytics laat toe om via eenvoudige vragen en antwoorden willekeurige dataverzamelingen te analyseren zonder doorgedreven kennis van booleaanse operatoren, Excel-formules of sql-queries. De beste resultaten verkrijgt je als je Watson loslaat op dataverzamelingen waarmee je enigszins vertrouwt bent. Op die manier stel je vooral relevante vragen en voer je met relatief weinig inspanning werkelijk nuttige data-analyses uit.
Vorig artikelCompacte dashcam met ingebouwde WiFi
Volgend artikelEén toetsenbord voor elk apparaat
Jozef Schildermans
Jozef Schildermans is journalist en schrijver. Zijn recentste roman is De reis van de hofarts (samen met Ludo Schildermans) onder de auteursnaam L.J. Schildermans gepubliceerd bij Uitgeverij Houtekiet.

LAAT EEN REACTIE ACHTER

Schrijf je reactie!
Vul hier je naam in

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.