Data Engineering

PySpark basics: gegevens 'upserten' op Databricks

Churn reduceren
Written by
DSL
Published on
juni 10, 2025
DSL blog

In deze blog legt Tim (Data Engineer) op toegankelijke wijze uit hoe de overstap van pandas naar PySpark eruitziet voor data engineers en data scientists. Hoewel de twee libraries qua syntax overeenkomsten vertonen, zijn er belangrijke conceptuele verschillen. Vooral wanneer het gaat om het verwerken van grote hoeveelheden data via distributed computing.


De werking van Apache Spark, de motor achter PySpark, wordt beschreven en hoe het gebruikmaakt van een driver en executors om data parallel te verwerken. In PySpark werk je met DataFrames die zijn opgedeeld in partitions, wat essentieel is voor schaalbaarheid. Verder behandelt Tim het verschil tussen transformations en actions, het belang van lazy evaluation en waarom bepaalde bewerkingen, zoals wide transformations, veel zwaarder zijn dan andere. Tot slot geeft hij een praktisch voorbeeld van een veelvoorkomende taak in data pipelines: het upserten van data in een bronzetabel met behulp van PySpark binnen Databricks.


Belangrijkste inzichten:

  • PySpark is de Python-interface voor Apache Spark.
  • Spark is geoptimaliseerd voor big data en maakt gebruik van distributed computing.
  • Door lazy evaluation kan Spark de efficiëntste uitvoeringsstrategie bepalen.
  • PySpark is ideaal wanneer je data niet meer op één machine past.


👉 Lees het volledige artikel op Medium: Van pandas naar PySpark - Tim Winter

Vragen? Neem contact met ons op

Blog

Dit is ook interessant

Lorem ipsum dolor sit amet, consectetur adipiscing elit.

Artificial Intelligence ontwikkelt zich razendsnel. Vrijwel elke week verschijnen er nieuwe modellen en steeds meer organisaties experimenteren met AI. Tegelijkertijd groeit er een belangrijke vraag: hoe zorgen we ervoor…

Data Science Lab (DSL) benoemt dr. ir. Peter Blauwhoff en drs. André Hendriks MBA tot lid  van Raad van Advies. Met hun…

Gebouwen genereren steeds meer data. Energiestromen, klimaatgegevens en installatiestatussen zijn vaak al beschikbaar. Toch zien we in de praktijk dat deze data…

Meld je aan voor onze nieuwsbrief

Wil je als eerste op de hoogte zijn van een nieuwe blog?