Data Science & AI

Ontstaan van datavisualisaties

Written by

DSL

Published on

januari 6, 2022

Tegenwoordig is iedereen een beetje data-analist. Op de basisschool leer je al hoe je tabellen kan aflezen en zelf kan invullen. Op de middelbare school is het maken van lijndiagrammen vaak een van de eerste lessen tijdens wiskunde. Maar ook buiten school of werk word je dagelijks geconfronteerd met datavisualisatie; op het nieuws zijn bijna elke dag staaf- of lijndiagrammen verwerkt in nieuwsitems en ook veel reclames proberen hun boodschap kracht bij te zetten door het gebruik hiervan.Een goede visualisatie helpt bij het efficiënt overbrengen van informatie. Zo geeft een lijndiagram in een oogopslag weer hoe het er op dit moment voorstaat met de Corona-besmettingen in Nederland, zonder dat je zelf verschillende getallen met elkaar gaat vergelijken of hoeft te rekenen. Stijgt de lijn dan stijgen de besmettingen, daalt de lijn dan daalt de besmettingsgraad. Op deze manier is het mogelijk om op basis van intuïtie en inzicht snel een conclusie te kunnen trekken uit grote hoeveelheid informatie.Zonder voorkennis is het voor bijna iedereen mogelijk verschillende soorten visualisaties snel en nauwkeurig af te lezen. Maar dit is lang niet altijd vanzelfsprekend geweest. Sterker nog, de opkomst van datavisualisaties zoals we ze nu kennen is pas enkele tientallen jaren geleden begonnen. Maar waar is het ooit ontstaan? En waar gaat het in de toekomst heen?

Eerste visualisaties

De allereerste datavisualisatie bevindt zich in een Turkse grot in de vorm van een wandtekening. Deze wandtekening, die naar schatting uit 6200 v.Chr. stamt, is een kaart van het neolithische dorp Çatalhöyük. Naast de gebouwen uit het dorp is ook een nabijgelegen vulkaan afgebeeld, die op het punt van eruptie lijkt te staan. Een kaart is misschien niet het eerste waar je aan denkt bij het woord datavisualisatie, maar het is eigenlijk niets anders dan een grafiek met een x-as en een y-as. In deze grafiek hebben alle gebouwen (van boven gezien) een set coördinaten die aangeven waar het gebouw zich precies bevindt.

De grottekening in Çatalhöyük wordt beschouwd als de oudste kaart ter wereld. Sindsdien zijn kaarten door de jaren heen steeds preciezer en uniformer geworden. De meest voor de hand liggende reden hiervoor is dat meetapparatuur een stuk nauwkeuriger is geworden, maar ook de opmaak van kaarten komt tegenwoordig grotendeels overeen. Zo hebben bijna alle kaarten een schaalverdeling, een windroos die aangeeft waar het noorden ligt en een raster over de kaart met bijpassende coördinaten of markering.

Figuur 1. de grottekening van Çatalhöyük¹

William Playfair – eerste lijndiagram

Naast kaarten zijn de lijndiagrammen de eerste vormen van grafieken zoals we ze nu kennen. De eerste lijndiagrammen stammen uit het einde van de middeleeuwen en de 16^e eeuw, waarin voornamelijk de stand van sterren werd vastgelegd. Toch wordt William Playfair, een Schotse ingenieur en politiek econoom uit de 18^e eeuw, vaak gezien als de grondlegger van de grafische statistiek. In 1786 ontwierp hij het lijndiagram zoals iedereen die kent. Hij is ook de uitvinder van het staafdiagram en het vlakdiagram (area chart) en later het cirkeldiagram.

In het lijndiagram van Playfair worden twee variabelen, de Engelse import en export naar Denemarken en Noorwegen, uitgezet tegenover de tijd. De grafiek bevat alle onderdelen die een modern lijndiagram ook heeft, zoals assen met markering, een titel en een korte beschrijving van wat de assen precies betekenen. Maar er zijn ook enkele stilistische punten die de grafiek minder duidelijk maken en tegenwoordig waarschijnlijk anders zouden worden verwerkt. Zo is de betekenis van beide lijnen direct op de lijn zelf geschreven op een tamelijk onduidelijke manier. Een legenda zou hierbij uitkomst kunnen bieden. Daarnaast is de conclusie die uit de grafiek gehaald kan worden al aangegeven in de grafiek zelf met gekleurde vakken tussen de twee lijnen in. Tegenwoordig wordt een conclusie vaak in de begeleidende tekst of het onderschrift van de figuur verwerkt.

Dat de conclusie niet altijd direct aangegeven wordt in de visualisatie zelf, maar juist hieraan onttrokken kan worden, bewees John Snow in de volgende eeuw.

Figuur 2. Playfair’s trade-balance time-series chart²

John Snow – cholera

In de jaren ’50 van de 19^e eeuw werd de wijk Soho in Londen geteisterd door cholera. In deze tijd wist men nog niets van bacteriën en ziektekiemen af en was de plotselinge opkomst en oorzaak van de ziekte een raadsel. John Snow, een Brits wetenschapper en later grondlegger van de epidemiologie, besloot om alle cholera gevallen in kaart te brengen. Dit deed hij omdat hij veronderstelde dat besmet water door afval wel eens de boosdoener kon zijn.

Op een kaart van de wijk gaf hij met streepjes alle gevallen van cholera aan. Hierdoor ontstond een patroon waarbij de meeste gevallen op Broad Street plaatsvonden, hier zag je een duidelijke cluster. Precies op deze plek stond een waterpomp, waar veel mensen uit de buurt hun water vandaan haalde. Hierdoor werd John Snow’s vermoeden bevestigd en herleidde hij de oorzaak van de cholera uitbraak naar de pomp op Broad Street. Snow nam een monster van het water en onderzocht dit, maar zonder voldoende bewijs te vinden dat het vervuilde water ook daadwerkelijk de boosdoener was. Toch was de tekening voor de gemeente voldoende overtuigend om actie te ondernemen en de pomp buiten werking te stellen. Dit betekende het einde van de cholera uitbraak in Soho.

De reden dat dit voorbeeld vaak genoemd wordt wanneer het over de geschiedenis van de datavisualisatie gaat, is omdat het een van de eerste bekende gevallen is waarbij een conclusie puur op basis van de visualisatie ook daadwerkelijk tot actie heeft geleid. Uiteindelijk is dit waar de datavisualisatie om draait: door data op de juiste manier weer te geven nieuwe inzichten creëren of helpen bij de beeldvorming hiervan. In het geval van John Snow hielp het uittekenen van alle gevallen op een kaart bij het exact plaatsen van de bron van besmetting.

Figuur 3. John Snow’s London Cholera Map³

Opkomst en toekomst van de datavisualisatie

De ontwikkeling van de datavisualisatie zit in een vogelvlucht sinds de jaren ’50 van afgelopen eeuw. Met name sinds de introductie van de computer zijn er heel veel nieuwe visualisatievormen mogelijk. Grotere hoeveelheden data en de voorspellingen van computermodellen kunnen ineens verwerkt worden, wat onder meer leidde tot nieuwe vormen van visualisaties, zoals wordclouds. Zoals eerder genoemd worden vooral ‘ouderwetse’ vormen van visualisaties zoals lijndiagrammen en staafdiagrammen nog dagelijks gebruikt in het nieuws of in de krant, mede doordat praktisch iedereen deze visualisaties kan aflezen zonder al te veel problemen.

Datavisualisatie gaat tegenwoordig verder dan enkel het visualiseren van een hoop data. Met behulp van infographics, vaak een unieke combinatie van meerdere datavisualisaties. Door het combineren van afbeeldingen, datavisualisaties en slechts een kleine hoeveelheid tekst is het vaak mogelijk een complex probleem of onderwerp toe te lichten. Een interessante ontwikkeling is ook dat deze infographics vaak ontworpen worden door visual designers, en niet enkel meer door wetenschappers zoals vroeger.

Voor het maken van datavisualisaties is het wel belangrijk dat je in je achterhoofd houdt dat de lezer de visualisatie waarneemt zoals die is ontworpen. Je bent dus in zekere zin overgelaten aan de interpretatie van de data door de ontwerper, of dat nou een data scientist is of een visual designer. Hoe complexer de data of hoe meer data worden samengebracht in de visualisatie, hoe sneller dit ook tot misvattingen kan leiden, zowel bij de maker als de lezer. Hierom is het van belang om altijd zelf na te gaan of de aangegeven correlatie wel écht duidt op causatie, vooral omdat een goede visualisatie niet per se is gebaseerd op een goede analyse.

Persoonlijk denk ik dat er in de toekomst vooral nog veel te halen valt door het samenbrengen van wetenschappers en visual designers, zodat de wetenschap nog beter kan worden overgebracht. De eerste stappen hiervoor zijn al gezet, doordat veel bedrijven datateams opzetten waarbij data scientists nauw samenwerken met data analisten. De volgende stap is het hierbij betrekken van de creatievelingen.