Erasmus MC

De tijd van arts-onderzoekers in het Erasmus MC is kostbaar: daarom heeft Data Science Lab een slim algoritme ontworpen zodat dit internationale team zo min mogelijk tijd verliest aan administratieve rompslomp. De arts-onderzoekers kunnen dankzij dit algoritme patiënten met een bepaald ziektebeeld sneller classificeren, zonder handmatig dossier door te moeten spitten. Ook kunnen de onderzoekers tijd besparen door middel van een data-managementsysteem dat we hebben geoptimaliseerd. De snelheid en efficiëntie waarmee data wordt bijgewerkt is gemaximaliseerd, in nauwe samenwerking met de onderzoekers om de kwaliteit van de data te kunnen garanderen.

DATA MANAGEMENTSYSTEEM OPTIMALISEREN.

Het GBS-onderzoeksteam van Erasmus MC werkt veel samen met artsen in andere landen. Doordat GBS een zeldzame aandoening is, verzamelen ze ook data van GBS-patiënten van andere ziekenhuizen en landen. Om deze data allemaal op één centrale plek te krijgen, hebben ze een website gemaakt waar andere artsen data van hun GBS-patiënten handmatig kunnen invoeren. Echter is deze data in een vorm van een patiënten formulier en kan de GBS-afdeling in Rotterdam alleen deze data downloaden als Excel om vervolgens deze data te verwerken. Dit is geen handig systeem omdat ze vaak de data in een bepaald format willen hebben zodat er analyses gedaan kunnen worden in SPSS. Hierdoor moest er een SQL-database gebouwd worden waar al deze data op een structurele wijze ingedeeld wordt.

PROBLEEM

RESULTAAT

Data Science Lab heeft het GBS-onderzoeksteam op weg geholpen door een relationele database te ontwikkelen in SQL (Microsoft SQL Server Management Studio) met alle verzamelde ruwe data van hun data invoer website. Deze stap omvat ook bijzonder veel handmatige controles op de data aangaande de structuur en consistentie. Om de data in het juiste format voor de database ‘SQL ready’ te maken, is een script gemaakt in Python met gebruik van Pandas voor data manipulatie. Dit script kan worden gerund door de ‘datamanager’ van de afdeling bij elke database update. Het script zorgt ervoor dat nieuwe ingevoerde patiënten data van de website gehaald wordt om vervolgens deze data om te zetten in een bestand dat gebruikt kan worden om het in de in de SQL-database in te laden.

Om de kwaliteit van de data te behouden worden daarnaast door de onderzoekers van het Erasmus MC handmatige datacontroles uitgevoerd op de data. Om tijd te besparen heeft Data Science Lab bijgedragen om een aantal van deze processen geautomatiseerd door een script te schrijven die de meest gemaakte invoerfouten opvangt. Hiervoor is gebruik gemaakt van R, zodat onderzoekers die met R overweg kunnen zelf dit script later kunnen uitbreiden.

Nadat de data was opgeslagen in een overzichtelijke SQL-database kon er nu een classificatie algoritme (decision tree) ontwikkeld worden in R die op basis van een aantal bestaande criteria die patiënten classificeert in verschillende subgroepen van het ziektebeeld GBS. 

Het algoritme is ook in SPSS nagebootst zodat de onderzoekers die geen R kunnen ook dit algoritme kunnen gebruiken voor hun eigen onderzoek. Dit algoritme helpt onderzoekers om nieuwe GBS-patiënten te classificeren maar ook om de classificatie die uit het algoritme komt, te vergelijken met de classificatie van de artsen die patiënten classificeren op basis van hun ervaring en kennis.

AANPAK

Gerelateerd artikel

Data Science in de gezondheidszorg

| Data for Good | No Comments
Collega Kim heeft als Data Scientist bij Erasmus MC dagelijks te maken met de toepassing van Data Science in de…