Van uurtje-factuurtje naar de token-economie: de nieuwe kostprijs van werk

We doen steeds meer met AI en we delen graag succesverhalen. Maar de fundamentele economische verschuiving erachter blijft vaak onderbelicht. Terwijl juist die verschuiving voor ondernemers het verschil kan maken tussen winst en verlies.

We bewegen van een economie waarin je vooral betaalt voor tijd en beschikbaarheid, naar een economie waarin je steeds vaker betaalt voor rekenwerk en output.

Van betalen per uur naar betalen per output

Eeuwenlang rekenden we arbeid af in tijd. Je betaalt een medewerker per uur. Of iemand nu geconcentreerd werkt of even stilvalt, de kosten lopen door. Je betaalt voor aanwezigheid, capaciteit en continuïteit.

Met AI verandert het kostenmodel. Niet omdat tijd verdwijnt, maar omdat een deel van het werk opeens variabel te maken is. Geen AI-activiteit betekent vrijwel geen kosten. Een grote analyse betekent wél verbruik en dus directe kosten. Daardoor kun je bepaalde soorten “denkwerk” veel flexibeler opschalen dan voorheen.

De praktische vraag wordt dan: welke taken wil je als vaste capaciteit blijven organiseren en welke taken kun je als variabele nutsvoorziening inkopen.

De token als de nieuwe kilowattuur

In de AI-economie is de meest gebruikte meeteenheid de token. Een token is geen “woord”, maar een stukje tekst dat het model intern gebruikt. Dat kan een deel van een woord zijn, een heel woord, leestekens en soms ook spaties. Hoeveel tokens je verbruikt, hangt af van de taal, de gebruikte woorden en de manier waarop tekst wordt opgesplitst.

Zie tokens als de meterstand van digitale arbeid.

  • Geen klantvraag en geen workflow. Dan draait er niets en betaal je vrijwel niets.
  • Grote samenvatting, uitgebreide analyse of lange conversatie. Dan gaat de teller omhoog en stijgen de kosten.

Dit maakt bepaalde vormen van intelligente arbeid veel variabeler en beter schaalbaar. Daar zit ook meteen een valkuil.

De valkuil: de Jevons-paradox van intelligentie

In 1865 beschreef econoom William Jevons iets dat raar voelt. Toen stoommachines efficiënter werden, verwachtte men dat het kolenverbruik zou dalen. In de praktijk steeg het gebruik juist, omdat kolen goedkoper werden en mensen het overal voor gingen inzetten.

Met AI kan iets vergelijkbaars gebeuren. Als “denkwerk” goedkoop wordt, gaan we het massaal consumeren. Niet alleen voor complexe taken, maar ook voor alles daaromheen:

  • Elke e-mail wordt gecontroleerd.
  • Elk datapunt wordt nog eens geanalyseerd.
  • Elke meeting wordt getranscribeerd en samengevat.
  • Elke klantvraag krijgt meerdere varianten als antwoord.

De kosten per taak dalen, maar het totale volume kan zo hard stijgen dat de totale kosten alsnog oplopen.

Van salaris naar inferencebudget

Tot nu toe denk je bij begroten vaak in FTE’s en salariskosten. In een AI-gedreven organisatie komt daar een tweede budgetlaag bij: het inferencebudget.

“Inference” is de vakterm voor het daadwerkelijk laten draaien van een model om output te leveren. Elke keer dat een model een tekst leest, een antwoord genereert, een classificatie doet of een agent een stap laat uitvoeren, draai je rekenwerk op infrastructuur die je in tokens afrekent.

Het is dus verstandig om naast personeelskosten ook een structureel budget te reserveren voor AI-verbruik. Zeker als je AI in dagelijkse processen integreert.

Tokens

Onder de motorkap: een rekenvoorbeeld

Stel: je hebt een beleidsstuk van 40 pagina’s (ongeveer 15.000 woorden) en je wilt een scherpe samenvatting van één A4. Je gebruikt hiervoor een API om de AI aan te roepen.

Je betaalt meestal voor:

  • inputtokens (de tekst die je instuurt),
  • outputtokens (de tekst die je terugkrijgt).

Bij sommige redeneermodellen komt daar nog iets bij: interne redeneertokens. Die zie je niet, maar ze kunnen wél onderdeel zijn van wat er wordt afgerekend, afhankelijk van de aanbieder en het modeltype.

Kosten tokens GPT-5
Kosten input- en outputtokens OpenAI GPT-5 (februari 2026)

Hieronder een voorbeeld van prijsverschillen per miljoen tokens (indicatief. Controleer altijd de actuele prijslijst van de aanbieder).

Model Rol Kosten input Kosten output Totaalprijs (voorbeeld)
Gemini 3 Flash De snelle stagiair $0.50 / 1M $3.00 / 1M $0,01
GPT-5.2 De senior $1.75 / 1M $14.00 / 1M $0,05
GPT-5.2 Pro De strateeg $21.00 / 1M $168.00 / 1M $0,54

Voor één rapport zijn dat kleine bedragen. Maar als je dit soort taken 10.000 keer per maand automatiseert, wordt modelkeuze ineens een directe margekwestie.

Kosten sturen door modelkeuze

Niet elke taak vraagt om maximale intelligentie. Slimme ondernemers sturen daarom op “intelligentie per euro”. Je kunt dat zien als arbitrage: je zet het juiste model in voor het juiste werk.

1. De stagiair (goedkope tokens)

Geschikt voor routinetaken zoals:

  • sorteren van bonnetjes,
  • standaardmails opstellen,
  • samenvattingen op hoofdlijnen,
  • classificeren en taggen.

Hier wil je snelheid en lage kosten. De kwaliteitslat is “goed genoeg”.

2. De senior (gebalanceerde keuze)

Geschikt voor taken waar nuance telt, zoals:

  • klantcommunicatie met context,
  • analyses met meerdere bronnen,
  • beleidsnotities en interne memo’s.

Hier draait het om betrouwbare output met beperkte risico’s.

3. De strateeg (dure tokens)

Geschikt voor complexe problemen zoals:

  • scenario’s en trade-offs uitwerken,
  • juridische of contractuele analyse (met menselijke controle),
  • strategische keuzes met meerdere belangen.

Bij redeneermodellen betaal je vaker voor extra rekenstappen. Dat kan waardevol zijn, maar alleen als de taak die verdieping ook echt nodig heeft.

De praktische toets is simpel: zet je een dure consultant in om koffie te halen, of is een stagiair voldoende?

Pas op voor de onzichtbare teller

Naast input en output zijn er drie veelvoorkomende plekken waar kosten ongemerkt oplopen.

1. Redeneerwerk dat je niet ziet

Sommige modellen maken extra interne stappen voordat ze antwoorden. Dat kan kwaliteit verbeteren, maar het kan ook de rekening verhogen. Gebruik dit dus gericht, niet standaard.

2. Agentic loops en slecht begrensde workflows

Als je een AI-agent de opdracht geeft om zelfstandig stappen te doorlopen, kan die veel meer interacties doen dan je verwacht. Zeker als je bij elke stap het hele dossier opnieuw meestuurt.

Een onhandig ingerichte agent kan in korte tijd een flink wat tokens verbruiken.

3. Context die blijft groeien

Veel workflows sturen steeds meer tekst mee: e-mails, notities, bijlagen, eerdere antwoorden. Elke extra regel vergroot het aantal inputtokens. Als je dat niet begrenst, stijgen je kosten vanzelf.

Praktische maatregelen die bijna altijd helpen:

  • werk met korte dossiers en samenvattingen in plaats van volledige logs,
  • beperk context tot wat nodig is voor de taak,
  • stel harde limieten in op aantal stappen en maximale tokens per run,
  • log verbruik per workflow zodat je kunt bijsturen.

Cruciale vraag: betaal je dubbel

AI levert pas echte winst op als je de totale kosten goed in kaart brengt.

Als je personeel AI inzet, krijg je idealiter:

  • dezelfde output in minder tijd, of
  • hogere output met dezelfde bezetting, of
  • betere kwaliteit met beheersbare extra kosten.

Maar als je processen niet herontwerpt, kan het ook anders lopen:

  • je houdt dezelfde personeelskosten,
  • je voegt tokenkosten toe,
  • en je krijgt extra correctierondes omdat niemand eigenaarschap pakt.

Breng daarom per proces in kaart wat er echt verandert in doorlooptijd, foutmarge en personeelsbelasting.

Leveranciersafhankelijkheid in tokens

Op dit moment zijn tokens vaak relatief goedkoop. Grote aanbieders vechten om marktaandeel. Dat kan in jouw voordeel werken.

Maar er zit een risico in. Als jouw klantenservice, administratie en marketing volledig draaien op één aanbieder, dan heb je een afhankelijkheidspositie. Als prijzen stijgen of voorwaarden veranderen, kan je marge snel verdampen.

Een praktische vuistregel: bouw je processen zo dat je van model kunt wisselen zonder alles opnieuw te moeten ontwikkelen.

Ga rekenen in plaats van gokken

Kijk voorbij de chatbot en zie AI als een kostenpost die je kunt sturen. Begin eenvoudig, met drie getallen per proces: volume, gemiddelde tokens per run en modelkeuze.

Een korte checklist om mee te starten:

  1. Welke AI-kwaliteitsklasse (model) is nodig: stagiair, senior of strateeg.
  2. Hoe beperk je context, stappen en tokens per run.
  3. Wat zijn de vergeten kosten: integratie, logging, opslag, toezicht, beveiliging.
  4. Wat is je budgetplafond per workflow en wat doe je bij overschrijding.
  5. Hoe houd je de optie open om van aanbieder of model te wisselen.
  6. Controleer peridoek of je niet niet dubbele kosten hebt: weeg de tokenkosten + salaris af tegen de daadwerkelijke productiviteitswinst.

De ondernemer die deze som het scherpst maakt, stuurt niet alleen op mogelijkheden, maar ook op marge en voorspelbaarheid.

0 antwoorden

Plaats een Reactie

Meepraten?
Draag gerust bij!

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *