Zorginstituut Nederland datagedreven inkoop

Zorginstituut Nederland (ZINL) is een overheidsorganisatie met als belangrijkste taak het samenstellen van het basispakket van de zorgverzekering. De Nederlandse gezondheidszorg is één van de beste ter wereld. Iedereen betaalt eraan mee, via belastingen en de verplichte basisverzekering. Zo kunnen we allemaal – jong, oud, gezond of ziek – rekenen op goede zorg wanneer we die nodig hebben. ZINL werkt er aan dat iedereen in Nederland toegang heeft en blijft houden tot goede zorg.

Inkoop expertise project

DOEL

Binnen het ZINL worden er door verschillende afdelingen offerteaanvragen en aanbestedingen gedaan. Er is geen organisatie breed overzicht van welke soorten expertises worden aangevraagd, hoe lang deze expertises worden ingezet en voor welke prijs. Het is voor het ZINL belangrijk om meer inzicht te hebben zodat er strategischer gekeken kan worden naar het aannamebeleid en budgettering voor offerteaanvragen en aanbestedingen.

Dit inkoop expertise project is gericht op het onderzoeken of deze inzichten uit de data te halen zijn en waar mogelijk in kaart te brengen. Hierin staan de kwaliteit van de analyse, de beschrijving van de gebruikte tooling en de reproduceerbaarheid centraal.

RESULTAAT

We hebben een uitgebreide visuele analyse gemaakt op basis van zowel individuele features als een groepering van de documenten via een topic model. De individuele features zijn op basis van alle individuele teksten en geven inzicht in de gehele dataset. Voorbeelden hiervan zijn uurprijs, lengte van de opdracht en/of de desbetreffende afdeling van het ZINL.

De groepering van de topics op basis van een topic model, in dit geval BERTopic, is gericht op het onderzoeken van een onderliggend profiel of expertise. Het meenemen van deze groepering geeft een extra dimensie aan de bestaande analyse en vergroot het inzicht in de data.

ZINL beschikt nu over documentatie en code die reproduceerbaar is. De gehele analyse kan opnieuw worden uitgevoerd met bijvoorbeeld de toevoeging van nieuwe data.

AANPAK

We hebben dit project in drie stappen aangepakt.

  1. Het inlezen van bestanden en verzamelen van de juiste informatie
  2. Het trainen van het topic model met als doel groeperen van onderliggende expertises
  3. Het analyseren van de verzamelde data

Bij het trainen van het topic model is er geëxperimenteerd met verschillende modellen, waarna de resultaten met elkaar zijn vergeleken. Het doel hierbij was het vinden van het model dat het beste een groepering van de documenten kon maken van de onderliggende expertises/profielen. BERTopic is in dit geval het meest geschikt.

Een van de redenen hiervoor is dat BERTopic zelf het optimale aantal topics kiest. Hierdoor is het niet nodig dit aantal van tevoren vast te stellen, wat bijdraagt aan de reproduceerbaarheid van het project. Ook bij nieuwe data, met wellicht nieuwe functieprofielen, werkt het model naar behoren. Een tweede voordeel van BERTopic is dat het model bij het clusteren gebruik maakt van een outlier-topic. Aan dit topic worden documenten toegewezen die niet duidelijk binnen een ander topic vallen, waardoor de kans verkleind wordt dat documenten geforceerd binnen een foutief topic worden geplaatst. 

BERTopic is een neuraal model dat gebaseerd is op embeddings, waarbij tekst wordt omgezet in een lijst van getallen.

Deze getallen zijn niet geheel willekeurig: documenten of woorden met een vergelijkbare betekenis hebben ook vergelijkbare getallen. Omdat het vinden van groepen lastig is als een reeks getallen erg lang is wordt er dimensionaliteitsreductie toegepast met behulp van UMAP. Dit algoritme vermindert het aantal getallen in een reeks waarbij zo veel mogelijk informatie behouden blijft. Deze kortere reeksen, die dus de informatie over de verschillende documenten bevatten, worden vervolgens geclusterd met behulp van een ander algoritme: HDBSCAN. Dit algoritme deelt uiteindelijk de documenten in binnen de verschillende topics. Als laatste stap wordt op basis van class-specifieke woorden een label aan de verschillende topics gehangen.  

 De gehele analyse bestond uit twee onderdelen, waarbij eerst een analyse is gemaakt zonder de groepering van documenten op basis van BERTopic. Daarna is de analyse uitgebreid met de informatie van BERTopic. 

BERT Topic model