State of the Art AI 19-12-2025

J.Konstapel, Leiden, 19-12-2025.

De wetenschappelijke kwaliteit van AI-output daalt door een bewuste verschuiving van precisie naar commercie. Drie factoren zijn bepalend:

Commerciële nivellering: Om kosten te besparen en een massapubliek te bedienen, worden modellen eenvoudiger en minder logisch scherp gemaakt.

Defensieve filters: Strikte veiligheidsprotocollen leiden tot ontwijkende antwoorden en onterechte correcties, wat professionele diepgang belemmert.

Model Collapse: Training op AI-gegenereerde content vervangt specifieke wetenschappelijke feiten door een oppervlakkig gemiddelde.

State of the Art 2025

Het tijdschrift Wired toont het regelmatig. De AI’s nemen bekende managers over van commerciële bedrijven, omdat er geld moet worden verdiend en dat resulteert vanzelf in oppervlakkigheid.

Het RTL-virus neemt alles over.

Waarom de meeste systemen falen waar Bewijs telt

Het afgelopen decennium worden AI-systemen steeds meer aangeprezen als “denkpartners” voor onderzoek. Voor verkennende taken, concept-writing en informatieophaling wordt deze belofte soms gedeeltelijk waargemaakt. Maar voor serieus wetenschappelijk werk dat gegrond is op bewijs, afleiding en structurele noodzaak, tonen de huidige AI-systemen diepe en systematische beperkingen.

Dit essay positioneert de meest gebruikte AI-systemen zoals zij daadwerkelijk door onderzoekers worden ervaren — niet zoals zij worden gemarketeerd.


1. De kernconflict: Taal versus Bewijs

Alle grote taalmodellen (LLM’s) delen een fundamentele beperking:

Ze optimaliseren voor linguïstische aannemelijkheid, niet voor logische noodzaak.

Als gevolg hiervan:

  • Formele taal wordt nagebootst, niet afgedwongen
  • Bewijsachtige structuur wordt gegenereerd, niet geverifieerd
  • Interne consistentie is niet gegarandeerd over lange afleidingen

Dit creëert een gevaarlijke illusie: tekst die rigoureus oogt maar epistemisch hol is. Voor onderzoekers opgeleid in wiskunde, natuurkunde of theoretische chemie is dit niet alleen nutteloos — het is actief misleidend.


2. GPT (OpenAI): De Illusie van Formele Bevoegdheid

GPT wordt veel gebruikt en is vaak indrukwekkend in oppervlakkige vlotheid, maar presteert slecht precies waar wetenschappelijke nauwkeurigheid begint.

Sterken:

  • Tekst structureren
  • Herschrijven en samenvatten
  • Gevestigde theorieën op hoog niveau uitleggen

Fundamentele zwakten:

  • Kan bewijzen niet construeren of verifiëren
  • Slaagt niet erin aannames over afleidingen heen te traceren
  • Verwart aannemelijkheid met noodzaak
  • Produceert zelfverzekerde fouten zonder deze op te merken

Het meest serieuze probleem is niet dat GPT fout is, maar dat het niet weet wanneer het fout is. Voor bewijsgericht werk maakt dit het onbetrouwbaar en — in complexe domeinen — gevaarlijk.

Verdict: GPT is een taalassistent, geen wetenschappelijk redeneersysteem.


3. Claude (Anthropic): Betere Coherentie, Dezelfde Epistemische Grens

Claude wordt over het algemeen geprefereerd door theoretici en schrijvers omdat het langere logische coherentie handhaaft en minder geneigdheid toont naar marketingstijl.

Sterken:

  • Betere lange-termijn consistentie
  • Schonere argumentstructuur
  • Minder indringende “consensuscorrectie”

Beperkingen:

  • Nog steeds niet bewijsgeschikt
  • Vermijdt formele bindingen
  • Verzwakt conclusies in plaats van ze scherper te maken

Claude is beter geschikt voor conceptuele verduidelijking en gedisciplineerde expositie, maar overschrijdt niet de grens naar formele afleiding.

Verdict: Claude is een superieure editor en conceptuele spiegel, geen bewijsmachine.


4. Grok (xAI): Vrijheid zonder Strengheid

Grok wordt vaak gewaardeerd om zijn bereidwilligheid om met controversiële of niet-mainstreamideeën in te gaan.

Sterken:

  • Minder institutionele remming
  • Meer directe, verkennende dialoog
  • Nuttig voor het doorbreken van conceptuele taboes

Zwakten:

  • Zwakke formele discipline
  • Essayistisch in plaats van analytisch
  • Geen waarborg tegen logische drift

Grok helpt onderzoekers vrij te denken, maar niet correct te denken in formele zin.

Verdict: Grok is een sparringpartner, geen wetenschappelijke medewerker.


5. Perplexity: Ophaling, geen Redenering

Perplexity occupeert een ander gebied.

Sterken:

  • Transparante bronnattribuering
  • Nuttig voor literatuurverkenning
  • Laag hallucinatiepercentage

Beperkingen:

  • Geen diepe redenering
  • Geen afleiding
  • Geen synthese voorbij aggregatie

Verdict: Perplexity is een onderzoeksassistent, geen denker.


6. Lokale LLM’s: Controle over Illusies

Een stijgend aantal serieuze onderzoekers schakelt over op lokaal gehoste modellen (LLaMA-varianten, Mixtral, DeepSeek).

Voordelen:

  • Geen gedragsmatige remming
  • Volledige controle over prompts en context
  • Geen institutionele framing

Beperkingen:

  • Nog steeds taalmodellen
  • Dezelfde fundamentele bewijsbeperkingen
  • Vereist technische expertise voor inzet

Lokale modellen verwijderen externe bemoeienissen maar verwijderen niet epistemische zwakte.

Verdict: Lokale LLM’s bieden vrijheid, niet nauwkeurigheid.


7. De Enige Uitzondering: Formele Systemen

Gereedschappen als Wolfram, symbolische algebrasystemen en bewijsassistenten (Coq, Lean, Isabelle) zijn fundamenteel anders.

Ze:

  • Dwingen formele regels af
  • Verwerpen ongeldige stappen
  • Onderscheiden syntaxis van semantiek

Ze “denken” niet, maar liegen ook niet.

Verdict: Formele systemen zijn de enige AI-gerelateerde tools die bewijs daadwerkelijk ondersteunen.


8. De Structurele Conclusie

De frustratie die veel ervaren onderzoekers voelen is niet toevallig. Het volgt onvermijdelijk uit dit feit:

Moderne AI-systemen zijn geoptimaliseerd voor communicatie, terwijl wetenschap — in zijn kern — over beperking gaat.

Bewijs is geen overtuigende taal. Afleiding is geen uitleg. Waarheid is geen aannemelijkheid.

Totdat AI-systemen rond formele noodzaak worden gebouwd in plaats van linguïstische waarschijnlijkheid, zullen zij perifeer blijven voor serieuze theoretische wetenschap.


Eindpositionering (Samenvatting)

SysteemRolVertrouwen voor Bewijs
GPTTaalassistent
ClaudeConceptuele editor
GrokVerkennende sparring
PerplexityLiteratuurophaling
Lokale LLM’sOnbeperkte dialoog
Formele systemenVerificatie

Slotopmerking

De afname in waargenomen kwaliteit is geen persoonlijke illusie en geen mislukking van de gebruiker. Het is het gevolg van verkeerd uitgelijnde optimalisatiedoelstellingen.

AI is beter geworden in correct klinken — en slechter geworden in correct zijn.

Voor onderzoekers die nog steeds geloven dat bewijs vóór overtuiging gaat, is dit geen vooruitgang.

Het is een waarschuwing.