Al ruim een jaar is Claudia werkzaam als data scientist bij Data Science Lab. Haar hobby’s zijn zaalvoetbal, bodypump en Formule 1. Daarnaast vindt ze het ook heerlijk om lekker uit eten te gaan, Spaanse tapas is haar favoriet!

Wat heb je gedaan voordat je bij Data Science Lab startte?

In 2018 ben ik afgestudeerd van de master Business Analytics aan de VU. Tijdens mijn master heb ik gewerkt als data analytics consultant bij QNH/Ilionx. Daarna heb ik mijn afstudeerscriptie geschreven bij Van Amersfoort Racing, het oude Formule 3 team van Max Verstappen. Het doel was om nieuwe racetalenten te vinden met behulp van data-analyse en machine learning. Met mijn masterdiploma op zak ben ik direct terechtgekomen bij Data Science Lab.

Wat zijn de werkzaamheden als ‘data scientist’ bij Data Science Lab en wat vind jij het meest interessant hiervan?

Het grootste deel van de week werk ik voor Port of Amsterdam. Daar ben ik onderdeel van het Datateam en zijn we verantwoordelijk voor alles wat met data te maken heeft. Denk bijvoorbeeld aan het maken van rapportages of Power BI-dashboards of het analyseren van data en het maken van voorspellingen. Met het laatste houd ik me voornamelijk bezig. Zo heb ik een analyse gemaakt van de drukte op wachtplaatsen en het gebruik van walstroom door binnenvaartschepen. Daarnaast hebben we de afgelopen tijd verschillende machine learning modellen ontwikkeld die ook in productie zijn genomen. Zo kunnen we voorspellen hoeveel goederen een schip zal overslaan in de haven, nog voordat het schip de haven is binnengevaren.  

Wat ik hier het meest interessant aan vind, is om te zien dat uitkomsten van analyses en modellen direct waarde opleveren voor de haven. De uitkomsten worden namelijk gebruikt om beslissingen te nemen zodat de processen in de haven nog efficiënter, veiliger en schoner verlopen. 

Hoe voer je de werkzaamheden in de huidige situatie uit?

Gelukkig kan ik mijn werkzaamheden gewoon vanuit huis voortzetten. Ik woon alleen en ik heb geen kinderen of huisdieren, dus dat scheelt ;). Gedurende de dag heb ik veel contact met mijn directe collega’s via MS Teams. Naast werk-gerelateerde meetings slaan we de (digitale) vrijdagmiddagborrel niet over. Een aantal weken terug hebben we zelfs een digitale pubquiz gedaan met alle DSL-collega’s en ook de maandelijkse TechDays gaan gewoon digitaal door. Natuurlijk mis ik wel het contact met collega’s zoals een gesprekje bij het koffieapparaat. Daarom hoop ik dat ik snel weer fysiek kan bijpraten met iedereen, wanneer de situatie het weer toelaat. 

Wat is binnen jouw huidige project de grootste technische uitdaging?

De grootste uitdaging binnen mijn huidige project is het omgaan met grote hoeveelheden data (Big Data). Sinds kort zijn we bezig om AIS-data (positiesignalen van schepen in de haven) te ontsluiten naar het dataplatform. Dit is streaming data waarbij soms wel 200 berichten per seconde moet worden opgevangen en verwerkt. Daarnaast willen we ook allerlei berekeningen op deze data loslaten, zoals het bepalen of een schip zich op een ligplaats bevindt. Om deze data te ontsluiten moet eerst goed nagedacht worden over de data architectuur. Sommige technologieën vallen bijvoorbeeld al gelijk af omdat deze de grote stroom data niet kunnen verwerken of omdat berekeningen te lang duren. Tijdens dit project heb ik ook veel geleerd over de verschillende diensten die beschikbaar zijn op het Azure platform van Microsoft, welke wel en niet geschikt zijn voor big data en het omgaan met streaming data. 

Wat is volgens jou de grootste misvatting van data science?

De grootste misvatting is volgens mij om te denken dat machine learning een oplossing kan bieden voor alle problemen. Natuurlijk zijn er ontzettend veel use-cases waarbij data science wel uitkomst kan bieden zolang er maar voldoende data beschikbaar is. Maar wanneer de data van onvoldoende kwaliteit is of zelfs ontbreekt dan geldt het ‘garbage in, garbage out’ principe. Juist voor veel gebeurtenissen die we als maatschappij willen voorspellen gaat dit op. Denk bijvoorbeeld aan de uitbraak van het coronavirus of het voorspellen van de volgende financiële crisis. Geen enkel machine learning model had deze pandemie kunnen voorspellen, omdat trainingsdata gewoonweg ontbreekt. Daarnaast is het voorspellen van de verspreiding van het virus lastig omdat de data over besmettingen en sterfgevallen onvolledig is. 

Hoe zie jij data science over 10 jaar?

Over 10 jaar is een data scientist denk ik meer een data science engineer dan een programmeur. Daar bedoel ik mee dat programmeren waarschijnlijk niet meer nadrukkelijk aanwezig zal zijn in de dagelijkse werkzaamheden van een data scientist. In plaats daarvan zal er veel meer gebruik gemaakt gaan worden van ‘off-theshelf’ data science oplossingen, zoals pre-trained modellen. Microsoft en Google bieden die nu al aan. Een data scientist zal zich meer bezighouden met het aan elkaar knopen van de verschillende processen in plaats van het ontwikkelen van het model zelf. 

Welk probleem zou jij ooit nog willen oplossen middels data science?

Data science in de sportwereld, met name de Formule 1, heeft mij als sportliefhebber altijd geïnteresseerd. Het is onvoorstelbaar hoeveel data er per seconde wordt gegenereerd door alle sensoren op een Formule 1 auto. Dat is natuurlijk een paradijs voor een data scientist zoals ik. Het liefst zou ik mijn skills loslaten op deze data om de beste racestrategie te bepalen of misschien wel een auto te ontwikkelen waarmee Max Verstappen eindelijk Mercedes kan verslaan. 

Meer collega's ontdekken