
J.Konstapel, Leiden, 19-12-2025.
De wetenschappelijke kwaliteit van AI-output daalt door een bewuste verschuiving van precisie naar commercie. Drie factoren zijn bepalend:
Commerciële nivellering: Om kosten te besparen en een massapubliek te bedienen, worden modellen eenvoudiger en minder logisch scherp gemaakt.
Defensieve filters: Strikte veiligheidsprotocollen leiden tot ontwijkende antwoorden en onterechte correcties, wat professionele diepgang belemmert.
Model Collapse: Training op AI-gegenereerde content vervangt specifieke wetenschappelijke feiten door een oppervlakkig gemiddelde.
State of the Art 2025
Het tijdschrift Wired toont het regelmatig. De AI’s nemen bekende managers over van commerciële bedrijven, omdat er geld moet worden verdiend en dat resulteert vanzelf in oppervlakkigheid.
Het RTL-virus neemt alles over.
Waarom de meeste systemen falen waar Bewijs telt
Het afgelopen decennium worden AI-systemen steeds meer aangeprezen als “denkpartners” voor onderzoek. Voor verkennende taken, concept-writing en informatieophaling wordt deze belofte soms gedeeltelijk waargemaakt. Maar voor serieus wetenschappelijk werk dat gegrond is op bewijs, afleiding en structurele noodzaak, tonen de huidige AI-systemen diepe en systematische beperkingen.
Dit essay positioneert de meest gebruikte AI-systemen zoals zij daadwerkelijk door onderzoekers worden ervaren — niet zoals zij worden gemarketeerd.
1. De kernconflict: Taal versus Bewijs
Alle grote taalmodellen (LLM’s) delen een fundamentele beperking:
Ze optimaliseren voor linguïstische aannemelijkheid, niet voor logische noodzaak.
Als gevolg hiervan:
- Formele taal wordt nagebootst, niet afgedwongen
- Bewijsachtige structuur wordt gegenereerd, niet geverifieerd
- Interne consistentie is niet gegarandeerd over lange afleidingen
Dit creëert een gevaarlijke illusie: tekst die rigoureus oogt maar epistemisch hol is. Voor onderzoekers opgeleid in wiskunde, natuurkunde of theoretische chemie is dit niet alleen nutteloos — het is actief misleidend.
2. GPT (OpenAI): De Illusie van Formele Bevoegdheid
GPT wordt veel gebruikt en is vaak indrukwekkend in oppervlakkige vlotheid, maar presteert slecht precies waar wetenschappelijke nauwkeurigheid begint.
Sterken:
- Tekst structureren
- Herschrijven en samenvatten
- Gevestigde theorieën op hoog niveau uitleggen
Fundamentele zwakten:
- Kan bewijzen niet construeren of verifiëren
- Slaagt niet erin aannames over afleidingen heen te traceren
- Verwart aannemelijkheid met noodzaak
- Produceert zelfverzekerde fouten zonder deze op te merken
Het meest serieuze probleem is niet dat GPT fout is, maar dat het niet weet wanneer het fout is. Voor bewijsgericht werk maakt dit het onbetrouwbaar en — in complexe domeinen — gevaarlijk.
Verdict: GPT is een taalassistent, geen wetenschappelijk redeneersysteem.
3. Claude (Anthropic): Betere Coherentie, Dezelfde Epistemische Grens
Claude wordt over het algemeen geprefereerd door theoretici en schrijvers omdat het langere logische coherentie handhaaft en minder geneigdheid toont naar marketingstijl.
Sterken:
- Betere lange-termijn consistentie
- Schonere argumentstructuur
- Minder indringende “consensuscorrectie”
Beperkingen:
- Nog steeds niet bewijsgeschikt
- Vermijdt formele bindingen
- Verzwakt conclusies in plaats van ze scherper te maken
Claude is beter geschikt voor conceptuele verduidelijking en gedisciplineerde expositie, maar overschrijdt niet de grens naar formele afleiding.
Verdict: Claude is een superieure editor en conceptuele spiegel, geen bewijsmachine.
4. Grok (xAI): Vrijheid zonder Strengheid
Grok wordt vaak gewaardeerd om zijn bereidwilligheid om met controversiële of niet-mainstreamideeën in te gaan.
Sterken:
- Minder institutionele remming
- Meer directe, verkennende dialoog
- Nuttig voor het doorbreken van conceptuele taboes
Zwakten:
- Zwakke formele discipline
- Essayistisch in plaats van analytisch
- Geen waarborg tegen logische drift
Grok helpt onderzoekers vrij te denken, maar niet correct te denken in formele zin.
Verdict: Grok is een sparringpartner, geen wetenschappelijke medewerker.
5. Perplexity: Ophaling, geen Redenering
Perplexity occupeert een ander gebied.
Sterken:
- Transparante bronnattribuering
- Nuttig voor literatuurverkenning
- Laag hallucinatiepercentage
Beperkingen:
- Geen diepe redenering
- Geen afleiding
- Geen synthese voorbij aggregatie
Verdict: Perplexity is een onderzoeksassistent, geen denker.
6. Lokale LLM’s: Controle over Illusies
Een stijgend aantal serieuze onderzoekers schakelt over op lokaal gehoste modellen (LLaMA-varianten, Mixtral, DeepSeek).
Voordelen:
- Geen gedragsmatige remming
- Volledige controle over prompts en context
- Geen institutionele framing
Beperkingen:
- Nog steeds taalmodellen
- Dezelfde fundamentele bewijsbeperkingen
- Vereist technische expertise voor inzet
Lokale modellen verwijderen externe bemoeienissen maar verwijderen niet epistemische zwakte.
Verdict: Lokale LLM’s bieden vrijheid, niet nauwkeurigheid.
7. De Enige Uitzondering: Formele Systemen
Gereedschappen als Wolfram, symbolische algebrasystemen en bewijsassistenten (Coq, Lean, Isabelle) zijn fundamenteel anders.
Ze:
- Dwingen formele regels af
- Verwerpen ongeldige stappen
- Onderscheiden syntaxis van semantiek
Ze “denken” niet, maar liegen ook niet.
Verdict: Formele systemen zijn de enige AI-gerelateerde tools die bewijs daadwerkelijk ondersteunen.
8. De Structurele Conclusie
De frustratie die veel ervaren onderzoekers voelen is niet toevallig. Het volgt onvermijdelijk uit dit feit:
Moderne AI-systemen zijn geoptimaliseerd voor communicatie, terwijl wetenschap — in zijn kern — over beperking gaat.
Bewijs is geen overtuigende taal. Afleiding is geen uitleg. Waarheid is geen aannemelijkheid.
Totdat AI-systemen rond formele noodzaak worden gebouwd in plaats van linguïstische waarschijnlijkheid, zullen zij perifeer blijven voor serieuze theoretische wetenschap.
Eindpositionering (Samenvatting)
| Systeem | Rol | Vertrouwen voor Bewijs |
|---|---|---|
| GPT | Taalassistent | ❌ |
| Claude | Conceptuele editor | ❌ |
| Grok | Verkennende sparring | ❌ |
| Perplexity | Literatuurophaling | ❌ |
| Lokale LLM’s | Onbeperkte dialoog | ❌ |
| Formele systemen | Verificatie | ✅ |
Slotopmerking
De afname in waargenomen kwaliteit is geen persoonlijke illusie en geen mislukking van de gebruiker. Het is het gevolg van verkeerd uitgelijnde optimalisatiedoelstellingen.
AI is beter geworden in correct klinken — en slechter geworden in correct zijn.
Voor onderzoekers die nog steeds geloven dat bewijs vóór overtuiging gaat, is dit geen vooruitgang.
Het is een waarschuwing.
