Zorginstituut Nederland

Zorginstituut Nederland is een overheidsinstantie die waakt over de kwaliteit, toegankelijkheid en betaalbaarheid van de gezondheidszorg. Een belangrijke taak, waar Data Science Lab een helpende hand bij biedt. We werken aan diverse projecten voor Zorginstituut. Zo hebben we een innovatief dashboard gecreëerd dat real-time data over gezondheidszorg visualiseert. We brachten informatie-elementen, datastromen en (technische)analysemogelijkheden in kaart en onderzochten hoe het instituut narratieve informatie kan gebruiken als kwaliteitsinformatie.

TEKST MINING.

Om te bepalen of de speerpunten van Zorginstituut overeenkomen met wat er in de wereld speelt binnen de zorg, is er een onderzoek gestart om verschillende documenten door te nemen en dit te vergelijken met de speerpunten van Zorginstituut. Het doornemen van de documenten was erg arbeidsintensief en daarom kwam de vraag te liggen of dit werk verlicht kon worden met behulp van data science. 

Het doel van het onderzoek was het verlichten van de arbeidsintensiviteit van de medewerkers die dit onderzoek jaarlijks willen gaan uitvoeren. Om dit doel te bereiken hebben we verschillende tekst clustering algoritmes vergeleken om te bepalen of deze resultaten makkelijk geïnterpreteerd kunnen worden voor degene die dit onderzoek initieel verrichtten. 

PROBLEEM

AANPAK

Het eerste wat we hebben gedaan is kijken of het onderzoek makkelijk na te bootsen was. Hierbij hebben we de tekst uit de PDFs omgezet tot raw tekst formaat en gezocht naar zinnen waarin ‘Nederland’ werd genoemd. Nadat we deze simpele zoek-functie hadden toegepast, zijn we overgestapt naar het bekijken van verschillende tekst clustering algoritmes en wat voor resultaten deze algoritmes leverden. 

Hierbij hebben is gebruik gemaakt van TF-IDF om de paragrafen uit de tekst om te zetten naar numerieke waardes om vervolgens K-Means clustering, Topic Modelling en Doc2Vec toe te passen op de paragrafen, met als doel meer inzicht te krijgen in welke thema’s/onderwerpen er voorkomen in de documenten.

Uit de vergelijking kwam al snel naar voren dat K-Means clustering de duidelijkste resultaten leverden. Hierbij kwamen clusters naar voren die allemaal een duidelijk thema/onderwerp hadden. Dit zorgde ervoor dat het makkelijker werd voor de medewerkers om deze clusters te scannen om vervolgens te kunnen zien wat voor algemene thema’s aand bod kwamen in de documenten. Een ‘wordcloud’ is een manier om de cluster goed te kunnen visualiseren, zoals te zien in de afbeelding. 

RESULTAAT

DATA ANALYSE.

Binnen het Techniek & Data team van het Zorginstituut Nederland werden data analyse vraagstukken vanuit het ministerie Volksgezondheid, Welzijn en Sport (VWS) behandeld, met name voor het programma KIK-V. Dit is een programma dat draait rondom verpleeghuiszorg. Jaarlijks moeten organisaties, die verpleeghuiszorg leveren, gegevens doorgeven aan Zorginstituut Nederland rondom kwaliteit, waarna deze worden gepubliceerd op Zorginstituut Nederland als openbare data (ODB). Het programma is bedoeld om de administratieve lasten van verpleeghuiszorg af te nemen. Ook is het programma bedoeld om meer inzicht te creëren in waar de pijnpunten zitten van het aanleveren van de kwaliteitsgegevens.

Voor het KIK-V programma is geholpen bij de volgende projecten:

Verzamelplaats
De Verzamelplaats is een website waarin gegevens zijn verzameld en gekoppeld van verschillende bronnen. Deze bronnen zijn afkomstig van verschillende zorgpartijen, denk aan de ODB, IGJ rapporten (inspectierapporten), ZorgKaart Nederland (patiënten federatie). De data die beschikbaar wordt gesteld van deze bronnen hebben allemaal te maken met verpleeghuiszorg. Om correcte en volledige data te kunnen bieden aan de gebruikers van de Verzamelplaats moest de kwaliteit van de data binnen de Verzamelplaats gecontroleerd worden.

Wachtlijsten data verpleeghuizen
Vanuit de Tweede Kamer kwam de vraag naar wachtlijsten van verpleeghuizen: hoe zien de cijfers eruit op regionaal niveau voor q1 2020? Om dit antwoord terug te communiceren naar de overheid werd er een rapport opgesteld. Dit rapport zou deze cijfers visueel overzichtelijk moeten bevatten.

Inventarisatie databronnen verpleeghuissector
Terwijl de Corona-crisis zich ontwikkelde ontstond de vraag vanuit zorgaanbieders gesteld aan het ministerie van VWS of een aantal kwaliteitscontroles niet meer uitgevoerd hoefde te worden omwille van de crisis en de daarbij komende tijdsnood en werkdruk. Zo ontstond het idee om vanuit Zorginstituut Nederland een deel van deze kwaliteitscontroles over te kunnen nemen met de data die beschikbaar en (deels) openbaar is.

PROBLEEM

AANPAK

Verzamelplaats
De kwaliteit van de data binnen de Verzamelplaats is gecontroleerd door de AGB codes en KvK nummers van de zorginstellingen te vergelijken met de kruisjeslijsten (lijst vanuit ZiNL met een overzicht van de bekende zorgaanbieders) en met de data van Vektis (beheerder van AGB codes).

Wachtlijsten data verpleeghuizen
Om de wachtlijsten data te visualiseren is gekozen om dit te doen in de vorm van landkaarten van Nederland met verschillende regionale niveaus (zorgkantoorregio-, COROPen gemeentelijkniveau).

Inventarisatie databronnen verpleeghuissector
De eerste stap in dit project was het inventariseren van de (deels) openbare databronnen. Hiervoor is het internet afgezocht naar beschikbare databronnen waar zorgaanbieders hun data aan leveren. Vervolgens werd deze inventarisatie verwerkt in een overzicht en wordt het uiteindelijk overhandigd aan het ministerie van VWS.

Verzamelplaats
Door de kwaliteitscontroles uit te voeren is de data binnen de Verzamelplaats verbeterd en zijn er inzichten verkregen voor bepaalde data acquisitie en data koppeling vraagstukken.

Wachtlijsten data verpleeghuizen
Binnen de data van de wachtlijsten waren voor acht onderwerpen visualisaties nodig. Dit waren o.a. leeftijdsprognoses van het CBS (Centraal Bureau voor de Statistiek), in- en uitstroom van de wachtlijsten, verhoudingen actief en niet-actief wachtenden.

Inventarisatie databronnen verpleeghuissector
Uiteindelijk bevat het overzicht tientallen databronnen. Er is gekeken of de databronnen bruikbaar en openbaar zijn. In de niet- of deels-openbare databronnen werd gekeken in hoeverre deze databronnen gebruikt kunnen worden door Zorginstituut Nederland. Als volgende stap zal er worden gekeken welke kwaliteitscontroles Zorginstituut Nederland kan uitvoeren voor de zorgaanbieders.

RESULTAAT