Hi ik ben Fré! Naast werken houd ik ervan om lekker uit eten te gaan, maar ook om zelf uitgebreid te koken. Bij goed eten hoort natuurlijk ook goede wijn, dus ga ik elke maand naar een wijnproeverij om over de verschillende druiven te leren.

Wat heb je gedaan voordat je bij Data Science Lab startte?

Ik ben begonnen met de bachelor Econometrie, maar kwam tijdens mijn studie tot de conclusie dat het niet helemaal de juiste richting voor mij was. Ik vond veel vakken, onder ander de wiskundevakken, erg interessant. Helaas lagen deze interesses niet bij de econometrie vakken. Gelukkig kwam ik er tijdens een bijbaantje achter dat ik programmeren erg leuk vond. Ik ben toen opzoek gegaan naar een studie waarbij ik nog steeds de wiskundevakken kreeg, maar ook kon programmeren.

Ik ben destijds uitgekomen bij de master ‘Artificial Intelligence’ aan de Universiteit van Amsterdam. Deze master leerde mij veel over de werking van verschillende ‘klassieke AI-technieken’ en neurale netwerken, en hoe deze goed toe te passen op verschillende soorten data. Na mijn master ben ik direct bij Data Science Lab gestart.

Wat zijn de werkzaamheden als ‘data scientist’ bij Data Science Lab en wat vind jij het meest interessant hiervan?

Mijn werkzaamheden als data scientist variëren heel erg. Zo heb ik voor de opdrachtgever Kandoor, een platform waar personen financieel gerelateerde vragen kunnen stellen die in eerste instantie door een chatbot beantwoord worden, met behulp van Natural Language Processing een model gemaakt om onderwerpen te herkennen waar de chatbot op dít moment nog geen antwoord op heeft.

Aan de andere kant werk ik op de vrijdagen mee aan het verder ontwikkelen van onze eigen applicatie, die onder andere de urenregistratie voor Data Science Lab makkelijker maakt. Deze werkzaamheden liggen vrij ver uit elkaar als het gaat om project aanpak en gebruikte technieken, maar dat vind ik juist interessant.

Hoe voer je de werkzaamheden in de huidige situatie uit?

Thuis is de eettafel omgedoopt tot bureau waar mijn vriend en ik aan werken. Net als voorheen heb ik elke dag een ‘daily standup’ met mijn collega’s van Kandoor, en ook de andere sprint meetings zijn nauwelijks veranderd (inclusief een digitaal whiteboard met digitale post-its voor de sprint retro). Super fijn om op deze momenten weer even met alle collega’s bij elkaar te zijn en zo in contact te blijven.

Wat is binnen jouw huidige project de grootste technische uitdaging?

Bij mijn huidige opdrachtgever is de grootste uitdaging vooral dat ik werk met data die uit de chatbot komt. Waar mensen niet altijd goed op letten is correcte spelling, grammatica of het gebruik van leestekens. Hierdoor is de data niet altijd ‘schoon’. Er zijn binnen Natural Language Processing meerdere technieken die gebruikt kunnen worden bij het verwerken van tekst voordat deze in het model kan worden gestopt. Door het misspellen van de woorden kunnen deze technieken echter niet gelijk worden toegepast en moeten er meerdere stappen in voorbereiding worden gezet om dit mogelijk te maken.

Wat is volgens jou de grootste misvatting van data science?

Ik vind de grootste misvatting; dat data science vooral draait om het bouwen van machine learning modellen. De data die binnen een bedrijf verzameld wordt is niet altijd voldoende om een goed model op te bouwen en zal (bijna) altijd op een bepaalde manier vervuild zijn. Dit kan zijn doordat metingen onjuist of onvolledig zijn, of doordat in het geval van tekst, woorden niet altijd correct wordt gespeld. Het model dat je maakt is zo goed als de data die je erin stopt. Als deze data niet de juiste waarden bevat, zal het model ook onjuiste waarden voorspellen.

Hoe zie jij data science over 10 jaar?

Aan de ene kant denk ik dat er steeds meer ‘off-the-shelf machine learning modellen’ zullen komen, waardoor het als data scientist minder nodig zal zijn om deze modellen zelf te bouwen. Hierdoor zal de waarde van een data scientist vooral zitten in het interpreteren van de uitkomst van deze modellen, en de ‘feature engineering’ om te zorgen dat er goede data is om het model op te trainen.

Aan de andere kant zijn er ook bedrijven die niet aan de slag willen/kunnen met machine learning doordat deze modellen geen transparantie geven over hoeveel de verschillende variabelen hebben bijgedragen aan een bepaalde uitkomst van het model. De laatste jaren is er steeds meer aandacht gekomen voor ‘Explainable Artificial Intelligence’, waarbij het doel is om deze black-box modellen te ‘openen’ zodat het duidelijk wordt welke invloed de verschillende variabelen hebben gehad op de uitkomst van het model. Als dit onderzoeksveld zich blijft door ontwikkelen hoop ik dat er in de toekomst complexere modellen vaker in praktijk kunnen worden toegepast (off-the-shelf of niet). Als dit niet gebeurt denk ik dat er altijd vraag zal zijn naar simpelere, maar wel interpreteerbare modellen.

Welk probleem zou jij ooit nog willen oplossen middels data science?

Zonder al te zweverig te klinken zou ik graag bijdragen aan problemen oplossen die de wereld een klein beetje beter maken. Denk bijvoorbeeld aan het verminderen van voedselverspilling. Dit kan door de inkoop van ingrediënten en bereiding van maaltijden in restaurants of supermarkten te optimaliseren. Maar ook door een platform of app te maken waarbij mensen een waarschuwing krijgen wanneer groente/fruit (of andere producten zonder zichtbare houdbaarheidsdatum) bijna over tijd gaan en aan de hand hiervan suggesties voor recepten geven.

Meer collega's ontdekken