Token per woord uitgelegd: zo schat je tokens in Nederlandse teksten
Hoe schat je tokens in Nederlandse tekst zonder giswerk? Praktische vuistregels, voorbeelden en tips om AI-kosten beter te plannen.
Als je met AI werkt, heb je dit vast al meegemaakt: je plakt een tekst in ChatGPT, krijgt output terug, en denkt pas daarna: hoeveel tokens was dit eigenlijk?
Dat lijkt een detail, maar het is vaak precies waar budgetten ontsporen.
Waarom “token per woord” handig is (ook al is het niet exact)
Niemand zit te wachten op een theoretisch verhaal over tokenization. Je wilt gewoon snel kunnen inschatten wat iets kost.
En daarvoor is een simpele vuistregel goud waard.
De vuistregel die ik zelf gebruik
Voor Nederlandse teksten zit je meestal rond:
- 1,2 tot 1,8 token per woord
Voor snelle planning gebruik ik meestal:
tokens ≈ aantal woorden × 1,5
conservatief: woorden × 1,8Wanneer zit je hoger?
- veel cijfers, tabellen en symbolen
- technische taal of codeblokken
- lange samengestelde zinnen
- input + output beide lang
Wanneer zit je lager?
- korte, duidelijke zinnen
- simpele taal zonder veel jargon
- beperkte outputlengte
Snelle praktijkvoorbeelden
Even grof gerekend:
- 120 woorden (korte e-mail) → ±180 tokens
- 250 woorden (blogintro) → ±375 tokens
- 700 woorden (A4) → ±1.050 tokens
- 1.500 woorden (lange analyse) → ±2.250 tokens
Met een conservatieve factor (1,8) kom je hoger uit — handig voor budgetbuffer.
De fout die teams vaak maken
Ze rekenen alleen de input mee. Maar bij veel workflows is de output minstens zo bepalend voor je kosten.
Dus: altijd beide kanten meenemen, en outputlengte begrenzen in je prompt.
Wat dit je oplevert
- betere maandbudgetten per workflow
- minder verrassingen bij opschaling
- strakkere keuzes tussen model/tier/gebruiksscenario
Verder lezen:
Conclusie
Token per woord is geen perfecte wetenschap. Maar met een goede bandbreedte maak je al veel betere keuzes dan op gevoel.
En dat is uiteindelijk waar het om draait: niet gokken, maar sturen.