{"id":23012,"date":"2026-01-13T13:22:16","date_gmt":"2026-01-13T13:22:16","guid":{"rendered":"https:\/\/datasciencepartners.nl\/?p=23012"},"modified":"2026-01-13T13:26:08","modified_gmt":"2026-01-13T13:26:08","slug":"reinforcement-learning","status":"publish","type":"post","link":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/","title":{"rendered":"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python"},"content":{"rendered":"<div class=\"vgblk-rw-wrapper limit-wrapper\">\n<p>Reinforcement learning klinkt voor veel mensen als iets ingewikkelds of theoretisch. Toch is het onderliggende idee verrassend simpel. Het lijkt sterk op hoe mensen (en dieren) leren: door iets te proberen, feedback te krijgen, en daarmee het gedrag aan te passen.<\/p>\n<p>In deze blog nemen we je stap voor stap mee in wat reinforcement learning is, hoe het verschilt van andere vormen van <a href=\"https:\/\/datasciencepartners.nl\/machine-learning\/\" title=\"machine learning\">machine learning<\/a>, en bouwen we een klein voorbeeld in <a href=\"https:\/\/datasciencepartners.nl\/wat-is-python\/\" title=\"programmeertaal Python\">programmeertaal Python<\/a> dat het principe concreet maakt.<\/p>\n<!-- This site is converting visitors into subscribers and customers with OptinMonster - https:\/\/optinmonster.com :: Campaign Title: Cheatsheet ML -->\n<div id=\"om-dho881rnc64xbadurq63-holder\"><\/div>\n<script>(function(d,u,ac){var s=d.createElement('script');s.type='text\/javascript';s.src='https:\/\/a.omappapi.com\/app\/js\/api.min.js';s.async=true;s.dataset.user=u;s.dataset.campaign=ac;d.getElementsByTagName('head')[0].appendChild(s);})(document,77079,'dho881rnc64xbadurq63');<\/script>\n<!-- \/ OptinMonster -->\n<h2>Wat is reinforcement learning en wanneer gebruik je het?<\/h2>\n<p>Bij veel machine-learning-toepassingen werk je met historische data en vaste antwoorden. Maar niet elk probleem werkt zo.<\/p>\n<p>Denk aan situaties waarin:<\/p>\n<ul>\n<li><strong>er geen vaste juiste keuze is<\/strong>, zoals het dagelijks verdelen van marketingbudget over kanalen;<\/li>\n<li><strong>beslissingen doorwerken op de lange termijn<\/strong>, bijvoorbeeld bij voorraadbeheer;<\/li>\n<li><strong>je pas later ziet of een keuze goed was<\/strong>, zoals bij betalingsherinneringen.<\/li>\n<\/ul>\n<p>In dit soort gevallen schiet klassiek machine learning vaak tekort. Reinforcement learning biedt hier een alternatief.<\/p>\n<p>Reinforcement learning draait om <strong>leren door te doen<\/strong>. Een model neemt beslissingen, krijgt feedback in de vorm van beloning of straf, en past zijn gedrag stap voor stap aan op basis van ervaring, in plaats van alleen historische data.<\/p>\n<div class=\"blogBanner\">Zelf machine learning modellen ontwikkelen? Schrijf je in voor een van onze data science trainingen.<br \/>\n<a href=\"https:\/\/datasciencepartners.nl\/python-cursus\/\"><button>Python training voor data science<\/button><\/a><br \/>\n<a href=\"https:\/\/datasciencepartners.nl\/python-machine-learning-training\/\"><button>Python machine learning training<\/button><\/a><br \/>\n<a href=\"https:\/\/datasciencepartners.nl\/data-science-opleiding\/\"><button>Data Science opleiding (4 dagen)<\/button><\/a><br \/>\n<a href=\"https:\/\/datasciencepartners.nl\/data-science-bootcamp\/\"><button>Data Science bootcamp (6 of 8 dagen)<\/button><\/a><\/div>\n<h2>De vier kernbegrippen<\/h2>\n<p>Hoewel reinforcement learning in de praktijk complex kan worden, bestaat het concept altijd uit 4 vaste onderdelen.<\/p>\n<ol>\n<li>Er is een <strong>agent<\/strong>: het <em>beslissende onderdeel<\/em>: datgene wat elke keer opnieuw een keuze moet maken. In een marketingvoorbeeld is de agent bijvoorbeeld het model dat elke dag bepaalt welke marketingcampagne live gaat.<\/li>\n<li>Er is een <strong>omgeving<\/strong>: de wereld waarin de agent zich bevindt. In een marketingvoorbeeld is de omgeving bijvoorbeeld het advertentieplatform, de doelgroep die reageert op de campagne en externe factoren zoals seizoen of concurrentie.<\/li>\n<li>De agent kan <strong>acties<\/strong> uitvoeren. Zoals een bepaalde marketingcampagne live laten gaan.<\/li>\n<li>En na elke actie krijgt de agent een <strong>beloning<\/strong> (of juist niet). Wat bijvoorbeeld het effect in aantal verkopen is vanuit de marketingcampagne.<\/li>\n<\/ol>\n<p><img decoding=\"async\" src=\"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg-scaled.png\" alt=\"wat-is-reinforcement-learning-uitleg\" \/><\/p>\n<p>Het doel van de agent is niet om \u00e9\u00e9n keer een hoge beloning te krijgen, maar om over tijd zo goed mogelijk te presteren. Dat maakt reinforcement learning fundamenteel anders dan veel andere machine learning technieken.<\/p>\n<h2>Reinforcement learning in de praktijk<\/h2>\n<p>Reinforcement learning kom je vooral tegen in situaties waarin beslissingen herhaaldelijk worden genomen, het effect niet direct zichtbaar is en vaste regels tekortschieten. Het systeem leert niet van eenmalige analyses, maar van ervaring in de praktijk.<\/p>\n<p>Typische toepassingen zijn bijvoorbeeld:<\/p>\n<ul>\n<li><strong>Voorraad &amp; logistiek<\/strong>: bepalen wanneer en hoeveel bepaalde artikelen worden bijbesteld, rekening houdend met servicegraad en kosten.<\/li>\n<li><strong>Planning &amp; capaciteit<\/strong>: beslissen over inzet van mensen of middelen onder wisselende omstandigheden.<\/li>\n<li><strong>Marketing &amp; sales<\/strong>: kiezen welke campagne, aanbieding of bericht wordt ingezet op basis van gerealiseerde leads of omzet.<\/li>\n<li><strong>Pricing<\/strong>: prijzen dynamisch aanpassen op basis van vraag en concurrentie.<\/li>\n<\/ul>\n<p>In al deze gevallen is er geen vast juiste keuze. Wat telt, is het leren van feedback en het gedrag gaandeweg verbeteren. Reinforcement learning wordt daarom vaak klein en gecontroleerd ingezet, met duidelijke grenzen. Zo groeit het uit van een experiment naar een praktisch hulpmiddel voor betere beslissingen over tijd.<\/p>\n<div style=\"background-color: #f5faff; padding: 20px; margin: 10px 0px; border-radius: 25px;\">\nVanuit Data Science Partners hebben we reinforcement learning ingezet voor voorraadoptimalisatie. Het ontwikkelde systeem deed dagelijks voorstelbeslissingen over wel of niet bijbestellen, op basis van actuele voorraad en verwachte vraag. Medewerkers van het inkoopteam bleven altijd in de lead: zij zagen de aanbevelingen, konden deze accepteren of aanpassen, en behielden zo de regie. De feedback op hun uiteindelijke beslissing (servicegraad en voorraadkosten) werd gebruikt om het model verder te verbeteren. Zo fungeerde het systeem als beslisondersteuning, niet als vervanging van expertise. <\/div>\n<h2>De verschillen tussen reinforcement-, supervised-, en unsupervised machine learning<\/h2>\n<p>Het grote verschil zit niet zozeer in de techniek, maar in het leerproces.<\/p>\n<ul>\n<li>Bij <a href=\"https:\/\/datasciencepartners.nl\/supervised-learning\/\"><em>supervised learning<\/em><\/a> leert een model van voorbeelden uit het verleden.  <\/li>\n<li>Bij <a href=\"https:\/\/datasciencepartners.nl\/unsupervised-learning\/\"><em>unsupervised learning<\/em><\/a> leert een model structuur herkennen in data.  <\/li>\n<li>Bij <em>reinforcement learning<\/em> leert een model (agent) door interactie in de praktijk.<\/li>\n<\/ul>\n<p>Dat betekent ook dat de agent soms &quot;domme&quot; dingen moet doen om te ontdekken wat werkt. Dat is geen fout, maar een noodzakelijk onderdeel van het leerproces. Net zoals een bedrijf soms bewust een minder zekere marketingcampagne test, moet een agent af en toe een ogenschijnlijk &quot;domme&quot; keuze maken om te ontdekken of er betere opties bestaan.<\/p>\n<p>Een bekende spanning hierbij is die tussen uitproberen wat nog onbekend is en vasthouden aan wat zich al bewezen heeft:<\/p>\n<ul>\n<li>Moet je iets nieuws proberen?<\/li>\n<li>Of moet je blijven doen wat tot nu toe het beste lijkt te werken?<\/li>\n<\/ul>\n<p>Elke reinforcement learning-oplossing balanceert tussen deze twee.<\/p>\n<h2>Reinforcement learning voorbeeld met programmeertaal Python<\/h2>\n<p>Stel je een marketingagent voor die elke dag moet beslissen welke campagne live gaat. De agent kan steeds kiezen tussen twee opties:<\/p>\n<ol>\n<li>Een bewezen campagne die meestal een paar leads oplevert, maar zelden uitschieters kent.<\/li>\n<li>Een nieuwe, creatieve campagne die soms veel leads oplevert, maar vaak ook niets doet.<\/li>\n<\/ol>\n<p>Welke keuze op de lange termijn het beste is, weet de agent vooraf niet. Het enige wat de agent kan doen, is keuzes maken, het resultaat observeren en daarvan leren. Campagnes die vaker belonen worden geleidelijk aantrekkelijker, campagnes die weinig opleveren worden minder aantrekkelijk.<\/p>\n<p>In de volgende stappen vertalen we dit idee naar een concreet voorbeeld in  <a href=\"https:\/\/datasciencepartners.nl\/wat-is-python\/\">programmeertaal Python<\/a>. Daarbij gebruiken we package <code>PyTorch<\/code>.<\/p>\n<h3>Stap 1: maken van een omgeving voor de agent<\/h3>\n<p>We beginnen met het defini\u00ebren van een omgeving. Dit is het deel van het probleem dat de agent niet kan controleren, maar waar het wel feedback van krijgt. In dit voorbeeld stelt de omgeving het resultaat van een marketingcampagne voor.<\/p>\n<p>Voor leesbaarheid noemen we de omgeving hier <code>daily_leads<\/code>. Onderstaande functie <code>daily_leads()<\/code> krijgt als input de gekozen actie (welke campagne is ingezet) en geeft als output een beloning: het aantal leads dat die dag is gegenereerd. <\/p>\n<pre><code class=\"language-python\">import random\n\ndef daily_leads(action):\n    if action == 0:  # veilige actie\n        return random.choice([1, 1, 1, 1, 0])\n    else:            # risicovolle actie\n        return random.choice([5, 0, 0, 0, 0])<\/code><\/pre>\n<ul>\n<li>Actie <code>0<\/code> staat voor een bewezen campagne die meestal \u00e9\u00e9n lead oplevert, maar soms niets.<\/li>\n<li>Actie <code>1<\/code> staat voor een nieuwe campagne die af en toe veel leads oplevert, maar vaak geen.<\/li>\n<\/ul>\n<p>Door gebruik te maken van <code>random.choice()<\/code> simuleren we onzekerheid: dezelfde actie kan op verschillende dagen een andere uitkomst hebben. Precies dat maakt dit een geschikt voorbeeld voor reinforcement learning.<\/p>\n<h3>Stap 2: wat de agent onthoudt<\/h3>\n<p>De agent begint zonder kennis. Hij houdt slechts \u00e9\u00e9n ding bij: een voorkeur voor de nieuwe campagne.<\/p>\n<p>Die voorkeur modelleren we in dit voorbeeld met \u00e9\u00e9n getal (p). Hoe hoger getal p, hoe groter de kans dat de agent voor de nieuwe campagne kiest. Let op: dit is sterk versimpeld voorbeeld, de praktijk is bijna altijd complexer.<\/p>\n<pre><code class=\"language-python\">import torch\n\n# E\u00e9n parameter die kan leren.\np = torch.tensor(0.0, requires_grad=True)\nlearning_rate = 0.05<\/code><\/pre>\n<p>Dit is bewust extreem simpel gehouden: alleen \u00e9\u00e9n parameter die kan leren.<\/p>\n<h3>Stap 3: een keuze maken (verkennen versus benutten)<\/h3>\n<p>Elke dag kiest de agent welke campagne hij inzet. Die keuze is probabilistisch: soms kiest hij voor zekerheid, soms probeert hij iets nieuws.<\/p>\n<pre><code class=\"language-python\">prob_new_campaign = torch.sigmoid(p)<\/code><\/pre>\n<ul>\n<li>Als <code>prob_new_campaign<\/code> hoog is, kiest de agent vaker voor de nieuwe campagne.<\/li>\n<li>Als <code>prob_new_campaign<\/code> laag is, blijft de agent bij de bewezen campagne.<\/li>\n<\/ul>\n<p>Zo blijft de agent automatisch ruimte houden om te verkennen, zelfs als \u00e9\u00e9n optie beter lijkt.<\/p>\n<h3>Stap 4: leren van de beloning<\/h3>\n<p>Na het inzetten van een campagne ziet de agent hoeveel leads dat opleverde. Die beloning gebruikt hij om zijn voorkeur aan te passen.<\/p>\n<pre><code class=\"language-python\">if random.random() &lt; prob_new_campaign.item():\n    action = 1\n    log_prob = torch.log(prob_new_campaign)\nelse:\n    action = 0\n    log_prob = torch.log(1 - prob_new_campaign)\n\nreward = daily_leads(action)\n\nloss = -log_prob * reward\nloss.backward()\n\nwith torch.no_grad():\n    p -= learning_rate * p.grad\n    p.grad.zero_()<\/code><\/pre>\n<h4>Wat gebeurt hier conceptueel?<\/h4>\n<ul>\n<li>Keuzes voor campagnes die veel leads opleveren, worden waarschijnlijker.<\/li>\n<li>Keuzes die weinig opleveren, worden minder aantrekkelijk.<\/li>\n<li>Dit gebeurt automatisch, zonder dat het met expliciete regels is vastgelegd.<\/li>\n<\/ul>\n<p>De agent leert dus door herhaling welk gedrag gemiddeld het beste werkt.<\/p>\n<h4>Wat gebeurt hier technisch?<\/h4>\n<ul>\n<li>De agent kiest een campagne op basis van een kans (<code>prob_new_campaign<\/code>). We onthouden daarbij de log-kans (<code>log_prob<\/code>) van de gemaakte keuze. Die log-kans gebruiken we om te bepalen hoe sterk de voorkeur voor die keuze moet worden aangepast.<\/li>\n<li>Na het uitvoeren van de actie zien we de beloning (<code>reward<\/code>), bijvoorbeeld het aantal leads. Die beloning bepaalt of de gemaakte keuze moet worden aangemoedigd of juist afgeremd.<\/li>\n<li>De <code>loss<\/code> combineert beide: keuzes die veel beloning opleveren, worden waarschijnlijker; keuzes die weinig opleveren, minder.<\/li>\n<li>Met <code>backward()<\/code> berekenen we hoe de parameter <code>p<\/code> aangepast moet worden, en met een eenvoudige update-stap passen we die parameter daadwerkelijk aan.<\/li>\n<\/ul>\n<h3>Stap 5: alles samen, leren over meerdere dagen<\/h3>\n<p>Zetten we alle eerdere code in een loop, dan ontstaat een agent met een leerproces over tijd.<\/p>\n<pre><code class=\"language-python\">def daily_leads(campaign):\n    if campaign == 0:  # bewezen campagne\n        return random.choice([1, 1, 1, 1, 0])\n    else:              # nieuwe campagne\n        return random.choice([5, 0, 0, 0, 0])\n\n# E\u00e9n parameter die kan leren.\np = torch.tensor(0.0, requires_grad=True)\nlearning_rate = 0.05\n\n# Loop voor simulatie van 2000 dagen\nfor day in range(2000):\n    # Kans om vandaag de nieuwe campagne te draaien\n    prob_new = torch.sigmoid(p)\n\n    # Kies (sample) op basis van die kans\n    if random.random() &lt; prob_new.item():\n        campaign = 1\n        log_prob = torch.log(prob_new)\n    else:\n        campaign = 0\n        log_prob = torch.log(1 - prob_new)\n\n    # Beloning: aantal leads vandaag\n    reward = daily_leads(campaign)\n\n    # Verhoog de kans op keuzes die beloning geven\n    loss = -log_prob * reward\n\n    loss.backward()\n    with torch.no_grad():\n        p -= learning_rate * p.grad\n        p.grad.zero_()\n\n    # Toon tussentijds resultaat\n    if (day + 1) % 200 == 0:\n        print(f&quot;dag {day+1:4d} | P(nieuwe campagne)={prob_new.item():.3f}&quot;)\n\nprint(&quot;\\nEindkans om nieuwe campagne te kiezen:&quot;, torch.sigmoid(p).item())<\/code><\/pre>\n<p>Na voldoende iteraties zie je dat de kans verschuift richting de campagne die gemiddeld de meeste waarde oplevert.<\/p>\n<pre><code>Output:\ndag 200 | P(nieuwe campagne)=0.4695\ndag 400 | P(nieuwe campagne)=0.5979\ndag 600 | P(nieuwe campagne)=0.7483\ndag 800 | P(nieuwe campagne)=0.8193\ndag 1000 | P(nieuwe campagne)=0.8875\ndag 1200 | P(nieuwe campagne)=0.9235\ndag 1400 | P(nieuwe campagne)=0.9301\ndag 1600 | P(nieuwe campagne)=0.9219\ndag 1800 | P(nieuwe campagne)=0.9415\ndag 2000 | P(nieuwe campagne)=0.9528\n\nEindkans om de nieuwe campagne te kiezen: 0.9528<\/code><\/pre>\n<p>Dit laat zien dat het model leert op basis van gemiddelde opbrengst, niet op basis van incidentele pieken. De uitkomst kan per run verschillen, omdat er willekeurigheid in de beloningen zit.<\/p>\n<h3>Toelichting op dit voorbeeld<\/h3>\n<p>Dit voorbeeld is bewust relatief simpel. In echte reinforcement learning-toepassingen heb je vaak:<\/p>\n<ul>\n<li>Meerdere states (toestanden)<\/li>\n<li>(Variabele) lange termijn beloningen<\/li>\n<li>Complexere modelleringen met bijvoorbeeld neurale netwerken<\/li>\n<li>Uitgebreide simulaties of implementatie in echte systemen<\/li>\n<\/ul>\n<p>Maar het kernidee (een agent die leert in een omgeving op basis van acties en beloningen) blijft hetzelfde.<\/p>\n<h2>Tot slot<\/h2>\n<p>Reinforcement learning is een methode om een computer te laten leren door te doen. Bij reinforcement learning leert een agent die acties onderneemt in een omgeving op basis van beloningen. In de praktijk kun je het vooral gebruiken wanneer beslissingen zich blijven herhalen, vaste regels niet goed werken en je bereid bent het systeem gecontroleerd te laten leren van feedback in de praktijk. Met een programmeertaal zoals Python kun je relatief eenvoudig aan de slag met machine learning en reinforcement learning.<\/p>\n<h2><strong>Machine learning specialist worden?<\/strong><\/h2>\n<p><strong>Wil jij snel op stoom zijn met machine learning? Volg dan onze\u00a0<a href=\"https:\/\/datasciencepartners.nl\/data-science-opleiding\/\">Data Science opleiding<\/a>. In vier dagen nemen we je mee in de basis van Python en statistiek. Er is geen voorkennis vereist. Je leert zelfstandig machine learning modellen ontwikkelen en toepassen. Voor wie al ervaring heeft met programmeren in Python is het ook mogelijk om alleen de laatste twee dagen mee te doen; dit is onze\u00a0<a href=\"https:\/\/datasciencepartners.nl\/python-machine-learning-training\/\">machine learning training<\/a>.<\/strong><\/p>\n<p><a href=\"https:\/\/datasciencepartners.nl\/opleidingsbrochures\/\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-18455\" src=\"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen.png\" sizes=\"auto, (max-width: 410px) 100vw, 410px\" srcset=\"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen.png 1000w, https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen-300x246.png 300w, https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen-768x629.png 768w, https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen-630x516.png 630w, https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen-420x344.png 420w, https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen-840x688.png 840w, https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2020\/07\/opleidingsbrochures-data-science-en-python-trainingen-315x258.png 315w\" alt=\"\" width=\"410\" height=\"336\" \/><\/a><\/p>\n<p style=\"text-align: center;\"><strong><a href=\"https:\/\/datasciencepartners.nl\/opleidingsbrochures\/\">Download \u00e9\u00e9n van onze opleidingsbrochures voor meer informatie<\/a><\/strong><\/p>\n<\/div>\n<p><!-- .vgblk-rw-wrapper --><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Reinforcement learning klinkt voor veel mensen als iets ingewikkelds of theoretisch. Toch is het onderliggende idee verrassend simpel. Het lijkt sterk op hoe mensen (en dieren) leren: door iets te proberen, feedback te krijgen, en daarmee het gedrag aan te passen. In deze blog nemen we je stap voor stap mee in wat reinforcement learning&#8230;<\/p>\n","protected":false},"author":5,"featured_media":23015,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"footnotes":""},"categories":[111,115,110,112],"tags":[],"class_list":["post-23012","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-science-blogs","category-machine-learning-blogs","category-python","category-tutorial"],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v26.7 (Yoast SEO v27.5) - https:\/\/yoast.com\/product\/yoast-seo-premium-wordpress\/ -->\n<title>Wat is Reinforcement Learning? Uitleg met voorbeeld in Python<\/title>\n<meta name=\"description\" content=\"Wat is reinforcement learning? Hoe gebruik je reinforcement learning in de praktijk? Duidelijke uitleg met voorbeeld tutorial in Python.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/datasciencepartners.nl\/reinforcement-learning\/\" \/>\n<meta property=\"og:locale\" content=\"nl_NL\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python\" \/>\n<meta property=\"og:description\" content=\"Wat is reinforcement learning? Hoe gebruik je reinforcement learning in de praktijk? Duidelijke uitleg met voorbeeld tutorial in Python.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/datasciencepartners.nl\/reinforcement-learning\/\" \/>\n<meta property=\"og:site_name\" content=\"Data Science Partners | Trainingen Data Science in Python, SQL &amp; R\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Data-Science-Partners-102566501086560\" \/>\n<meta property=\"article:published_time\" content=\"2026-01-13T13:22:16+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-01-13T13:26:08+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1584\" \/>\n\t<meta property=\"og:image:height\" content=\"672\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Peter Tieleman\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Geschreven door\" \/>\n\t<meta name=\"twitter:data1\" content=\"Peter Tieleman\" \/>\n\t<meta name=\"twitter:label2\" content=\"Geschatte leestijd\" \/>\n\t<meta name=\"twitter:data2\" content=\"8 minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/\"},\"author\":{\"name\":\"Peter Tieleman\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#\\\/schema\\\/person\\\/2446edb5fdc88e86d93d270c736a8803\"},\"headline\":\"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python\",\"datePublished\":\"2026-01-13T13:22:16+00:00\",\"dateModified\":\"2026-01-13T13:26:08+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/\"},\"wordCount\":1665,\"publisher\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/datasciencepartners.nl\\\/wp-content\\\/uploads\\\/2026\\\/01\\\/wat-is-reinforcement-learning-uitleg.jpg\",\"articleSection\":[\"Data Science\",\"Machine Learning\",\"Python\",\"Tutorial\"],\"inLanguage\":\"nl-NL\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/\",\"url\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/\",\"name\":\"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/datasciencepartners.nl\\\/wp-content\\\/uploads\\\/2026\\\/01\\\/wat-is-reinforcement-learning-uitleg.jpg\",\"datePublished\":\"2026-01-13T13:22:16+00:00\",\"dateModified\":\"2026-01-13T13:26:08+00:00\",\"description\":\"Wat is reinforcement learning? Hoe gebruik je reinforcement learning in de praktijk? Duidelijke uitleg met voorbeeld tutorial in Python.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#breadcrumb\"},\"inLanguage\":\"nl-NL\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"nl-NL\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#primaryimage\",\"url\":\"https:\\\/\\\/datasciencepartners.nl\\\/wp-content\\\/uploads\\\/2026\\\/01\\\/wat-is-reinforcement-learning-uitleg.jpg\",\"contentUrl\":\"https:\\\/\\\/datasciencepartners.nl\\\/wp-content\\\/uploads\\\/2026\\\/01\\\/wat-is-reinforcement-learning-uitleg.jpg\",\"width\":1584,\"height\":672,\"caption\":\"wat is reinforcement learning uitleg\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/reinforcement-learning\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/datasciencepartners.nl\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#website\",\"url\":\"https:\\\/\\\/datasciencepartners.nl\\\/\",\"name\":\"Data Science Partners | Trainingen Data Science & AI in Python, SQL & R\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/datasciencepartners.nl\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"nl-NL\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#organization\",\"name\":\"Data Science Partners\",\"url\":\"https:\\\/\\\/datasciencepartners.nl\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"nl-NL\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/datasciencepartners.nl\\\/wp-content\\\/uploads\\\/2021\\\/02\\\/data-science-partners.png\",\"contentUrl\":\"https:\\\/\\\/datasciencepartners.nl\\\/wp-content\\\/uploads\\\/2021\\\/02\\\/data-science-partners.png\",\"width\":655,\"height\":329,\"caption\":\"Data Science Partners\"},\"image\":{\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/Data-Science-Partners-102566501086560\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/23709861\\\/\"],\"description\":\"Data Science Partners helpt organisaties met Data Science & AI. We werken voornamelijk met Python, SQL & R. We geven trainingen en doen consultancy opdrachten.\",\"email\":\"info@datasciencepartners.nl\",\"telephone\":\"0202443146\",\"legalName\":\"Data Science Partners B.V.\",\"foundingDate\":\"2019-10-01\",\"vatID\":\"NL863566261B01\",\"numberOfEmployees\":{\"@type\":\"QuantitativeValue\",\"minValue\":\"11\",\"maxValue\":\"50\"}},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/datasciencepartners.nl\\\/#\\\/schema\\\/person\\\/2446edb5fdc88e86d93d270c736a8803\",\"name\":\"Peter Tieleman\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"nl-NL\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/bb4d292d1a92cd51cab3aa9697a6ed2fd45c819952fb923a01231e1282f5a0df?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/bb4d292d1a92cd51cab3aa9697a6ed2fd45c819952fb923a01231e1282f5a0df?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/bb4d292d1a92cd51cab3aa9697a6ed2fd45c819952fb923a01231e1282f5a0df?s=96&d=mm&r=g\",\"caption\":\"Peter Tieleman\"},\"description\":\"Peter is een ervaren data scientist, AI engineer en python trainer. Na zijn studie aan de Technische Universiteit Delft heeft hij zich altijd bezig gehouden met data en diverse programmeertalen. Peter heeft veel data analyses uitgevoerd en processen geautomatiseerd met Python in productieomgevingen.\",\"sameAs\":[\"https:\\\/\\\/www.linkedin.com\\\/in\\\/petertieleman\\\/\"],\"honorificPrefix\":\"Heer\",\"honorificSuffix\":\"Ir.\",\"birthDate\":\"1988-05-26\",\"gender\":\"mannelijk\",\"knowsAbout\":[\"Python\",\"R\",\"Data Science\",\"AI\",\"SQL\",\"Data Engineering\"],\"knowsLanguage\":[\"Nederlands\",\"Engels\"],\"jobTitle\":\"Data Scientist & AI Engineer\",\"worksFor\":\"Data Science Partners\",\"url\":\"https:\\\/\\\/datasciencepartners.nl\\\/author\\\/peter-tieleman\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python","description":"Wat is reinforcement learning? Hoe gebruik je reinforcement learning in de praktijk? Duidelijke uitleg met voorbeeld tutorial in Python.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/","og_locale":"nl_NL","og_type":"article","og_title":"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python","og_description":"Wat is reinforcement learning? Hoe gebruik je reinforcement learning in de praktijk? Duidelijke uitleg met voorbeeld tutorial in Python.","og_url":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/","og_site_name":"Data Science Partners | Trainingen Data Science in Python, SQL &amp; R","article_publisher":"https:\/\/www.facebook.com\/Data-Science-Partners-102566501086560","article_published_time":"2026-01-13T13:22:16+00:00","article_modified_time":"2026-01-13T13:26:08+00:00","og_image":[{"width":1584,"height":672,"url":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg.jpg","type":"image\/jpeg"}],"author":"Peter Tieleman","twitter_card":"summary_large_image","twitter_misc":{"Geschreven door":"Peter Tieleman","Geschatte leestijd":"8 minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#article","isPartOf":{"@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/"},"author":{"name":"Peter Tieleman","@id":"https:\/\/datasciencepartners.nl\/#\/schema\/person\/2446edb5fdc88e86d93d270c736a8803"},"headline":"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python","datePublished":"2026-01-13T13:22:16+00:00","dateModified":"2026-01-13T13:26:08+00:00","mainEntityOfPage":{"@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/"},"wordCount":1665,"publisher":{"@id":"https:\/\/datasciencepartners.nl\/#organization"},"image":{"@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#primaryimage"},"thumbnailUrl":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg.jpg","articleSection":["Data Science","Machine Learning","Python","Tutorial"],"inLanguage":"nl-NL"},{"@type":"WebPage","@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/","url":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/","name":"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python","isPartOf":{"@id":"https:\/\/datasciencepartners.nl\/#website"},"primaryImageOfPage":{"@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#primaryimage"},"image":{"@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#primaryimage"},"thumbnailUrl":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg.jpg","datePublished":"2026-01-13T13:22:16+00:00","dateModified":"2026-01-13T13:26:08+00:00","description":"Wat is reinforcement learning? Hoe gebruik je reinforcement learning in de praktijk? Duidelijke uitleg met voorbeeld tutorial in Python.","breadcrumb":{"@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#breadcrumb"},"inLanguage":"nl-NL","potentialAction":[{"@type":"ReadAction","target":["https:\/\/datasciencepartners.nl\/reinforcement-learning\/"]}]},{"@type":"ImageObject","inLanguage":"nl-NL","@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#primaryimage","url":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg.jpg","contentUrl":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2026\/01\/wat-is-reinforcement-learning-uitleg.jpg","width":1584,"height":672,"caption":"wat is reinforcement learning uitleg"},{"@type":"BreadcrumbList","@id":"https:\/\/datasciencepartners.nl\/reinforcement-learning\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/datasciencepartners.nl\/"},{"@type":"ListItem","position":2,"name":"Wat is Reinforcement Learning? Uitleg met voorbeeld in Python"}]},{"@type":"WebSite","@id":"https:\/\/datasciencepartners.nl\/#website","url":"https:\/\/datasciencepartners.nl\/","name":"Data Science Partners | Trainingen Data Science & AI in Python, SQL & R","description":"","publisher":{"@id":"https:\/\/datasciencepartners.nl\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/datasciencepartners.nl\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"nl-NL"},{"@type":"Organization","@id":"https:\/\/datasciencepartners.nl\/#organization","name":"Data Science Partners","url":"https:\/\/datasciencepartners.nl\/","logo":{"@type":"ImageObject","inLanguage":"nl-NL","@id":"https:\/\/datasciencepartners.nl\/#\/schema\/logo\/image\/","url":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2021\/02\/data-science-partners.png","contentUrl":"https:\/\/datasciencepartners.nl\/wp-content\/uploads\/2021\/02\/data-science-partners.png","width":655,"height":329,"caption":"Data Science Partners"},"image":{"@id":"https:\/\/datasciencepartners.nl\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/Data-Science-Partners-102566501086560","https:\/\/www.linkedin.com\/company\/23709861\/"],"description":"Data Science Partners helpt organisaties met Data Science & AI. We werken voornamelijk met Python, SQL & R. We geven trainingen en doen consultancy opdrachten.","email":"info@datasciencepartners.nl","telephone":"0202443146","legalName":"Data Science Partners B.V.","foundingDate":"2019-10-01","vatID":"NL863566261B01","numberOfEmployees":{"@type":"QuantitativeValue","minValue":"11","maxValue":"50"}},{"@type":"Person","@id":"https:\/\/datasciencepartners.nl\/#\/schema\/person\/2446edb5fdc88e86d93d270c736a8803","name":"Peter Tieleman","image":{"@type":"ImageObject","inLanguage":"nl-NL","@id":"https:\/\/secure.gravatar.com\/avatar\/bb4d292d1a92cd51cab3aa9697a6ed2fd45c819952fb923a01231e1282f5a0df?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/bb4d292d1a92cd51cab3aa9697a6ed2fd45c819952fb923a01231e1282f5a0df?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/bb4d292d1a92cd51cab3aa9697a6ed2fd45c819952fb923a01231e1282f5a0df?s=96&d=mm&r=g","caption":"Peter Tieleman"},"description":"Peter is een ervaren data scientist, AI engineer en python trainer. Na zijn studie aan de Technische Universiteit Delft heeft hij zich altijd bezig gehouden met data en diverse programmeertalen. Peter heeft veel data analyses uitgevoerd en processen geautomatiseerd met Python in productieomgevingen.","sameAs":["https:\/\/www.linkedin.com\/in\/petertieleman\/"],"honorificPrefix":"Heer","honorificSuffix":"Ir.","birthDate":"1988-05-26","gender":"mannelijk","knowsAbout":["Python","R","Data Science","AI","SQL","Data Engineering"],"knowsLanguage":["Nederlands","Engels"],"jobTitle":"Data Scientist & AI Engineer","worksFor":"Data Science Partners","url":"https:\/\/datasciencepartners.nl\/author\/peter-tieleman\/"}]}},"_links":{"self":[{"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/posts\/23012","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/comments?post=23012"}],"version-history":[{"count":1,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/posts\/23012\/revisions"}],"predecessor-version":[{"id":23014,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/posts\/23012\/revisions\/23014"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/media\/23015"}],"wp:attachment":[{"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/media?parent=23012"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/categories?post=23012"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/datasciencepartners.nl\/wp-json\/wp\/v2\/tags?post=23012"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}