State of the Art AI 19-12-2025

J.Konstapel, Leiden, 19-12-2025.

De wetenschappelijke kwaliteit van AI-output daalt door een bewuste verschuiving van precisie naar commercie. Drie factoren zijn bepalend:

Commerciële nivellering: Om kosten te besparen en een massapubliek te bedienen, worden modellen eenvoudiger en minder logisch scherp gemaakt.

Defensieve filters: Strikte veiligheidsprotocollen leiden tot ontwijkende antwoorden en onterechte correcties, wat professionele diepgang belemmert.

Model Collapse: Training op AI-gegenereerde content vervangt specifieke wetenschappelijke feiten door een oppervlakkig gemiddelde.

State of the Art 2025

Het tijdschrift Wired toont het regelmatig. De AI’s nemen bekende managers over van commerciële bedrijven, omdat er geld moet worden verdiend en dat resulteert vanzelf in oppervlakkigheid.

Het RTL-virus neemt alles over.

Waarom de meeste systemen falen waar Bewijs telt

Het afgelopen decennium worden AI-systemen steeds meer aangeprezen als “denkpartners” voor onderzoek. Voor verkennende taken, concept-writing en informatieophaling wordt deze belofte soms gedeeltelijk waargemaakt. Maar voor serieus wetenschappelijk werk dat gegrond is op bewijs, afleiding en structurele noodzaak, tonen de huidige AI-systemen diepe en systematische beperkingen.

Dit essay positioneert de meest gebruikte AI-systemen zoals zij daadwerkelijk door onderzoekers worden ervaren — niet zoals zij worden gemarketeerd.

1. De kernconflict: Taal versus Bewijs

Alle grote taalmodellen (LLM’s) delen een fundamentele beperking:

Ze optimaliseren voor linguïstische aannemelijkheid, niet voor logische noodzaak.

Als gevolg hiervan:

Formele taal wordt nagebootst, niet afgedwongen
Bewijsachtige structuur wordt gegenereerd, niet geverifieerd
Interne consistentie is niet gegarandeerd over lange afleidingen

Dit creëert een gevaarlijke illusie: tekst die rigoureus oogt maar epistemisch hol is. Voor onderzoekers opgeleid in wiskunde, natuurkunde of theoretische chemie is dit niet alleen nutteloos — het is actief misleidend.

2. GPT (OpenAI): De Illusie van Formele Bevoegdheid

GPT wordt veel gebruikt en is vaak indrukwekkend in oppervlakkige vlotheid, maar presteert slecht precies waar wetenschappelijke nauwkeurigheid begint.

Sterken:

Tekst structureren
Herschrijven en samenvatten
Gevestigde theorieën op hoog niveau uitleggen

Fundamentele zwakten:

Kan bewijzen niet construeren of verifiëren
Slaagt niet erin aannames over afleidingen heen te traceren
Verwart aannemelijkheid met noodzaak
Produceert zelfverzekerde fouten zonder deze op te merken

Het meest serieuze probleem is niet dat GPT fout is, maar dat het niet weet wanneer het fout is. Voor bewijsgericht werk maakt dit het onbetrouwbaar en — in complexe domeinen — gevaarlijk.

Verdict: GPT is een taalassistent, geen wetenschappelijk redeneersysteem.

3. Claude (Anthropic): Betere Coherentie, Dezelfde Epistemische Grens

Claude wordt over het algemeen geprefereerd door theoretici en schrijvers omdat het langere logische coherentie handhaaft en minder geneigdheid toont naar marketingstijl.

Sterken:

Betere lange-termijn consistentie
Schonere argumentstructuur
Minder indringende “consensuscorrectie”

Beperkingen:

Nog steeds niet bewijsgeschikt
Vermijdt formele bindingen
Verzwakt conclusies in plaats van ze scherper te maken

Claude is beter geschikt voor conceptuele verduidelijking en gedisciplineerde expositie, maar overschrijdt niet de grens naar formele afleiding.

Verdict: Claude is een superieure editor en conceptuele spiegel, geen bewijsmachine.

4. Grok (xAI): Vrijheid zonder Strengheid

Grok wordt vaak gewaardeerd om zijn bereidwilligheid om met controversiële of niet-mainstreamideeën in te gaan.

Sterken:

Minder institutionele remming
Meer directe, verkennende dialoog
Nuttig voor het doorbreken van conceptuele taboes

Zwakten:

Zwakke formele discipline
Essayistisch in plaats van analytisch
Geen waarborg tegen logische drift

Grok helpt onderzoekers vrij te denken, maar niet correct te denken in formele zin.

Verdict: Grok is een sparringpartner, geen wetenschappelijke medewerker.

5. Perplexity: Ophaling, geen Redenering

Perplexity occupeert een ander gebied.

Sterken:

Transparante bronnattribuering
Nuttig voor literatuurverkenning
Laag hallucinatiepercentage

Beperkingen:

Geen diepe redenering
Geen afleiding
Geen synthese voorbij aggregatie

Verdict: Perplexity is een onderzoeksassistent, geen denker.

6. Lokale LLM’s: Controle over Illusies

Een stijgend aantal serieuze onderzoekers schakelt over op lokaal gehoste modellen (LLaMA-varianten, Mixtral, DeepSeek).

Voordelen:

Geen gedragsmatige remming
Volledige controle over prompts en context
Geen institutionele framing

Beperkingen:

Nog steeds taalmodellen
Dezelfde fundamentele bewijsbeperkingen
Vereist technische expertise voor inzet

Lokale modellen verwijderen externe bemoeienissen maar verwijderen niet epistemische zwakte.

Verdict: Lokale LLM’s bieden vrijheid, niet nauwkeurigheid.

7. De Enige Uitzondering: Formele Systemen

Gereedschappen als Wolfram, symbolische algebrasystemen en bewijsassistenten (Coq, Lean, Isabelle) zijn fundamenteel anders.

Ze:

Dwingen formele regels af
Verwerpen ongeldige stappen
Onderscheiden syntaxis van semantiek

Ze “denken” niet, maar liegen ook niet.

Verdict: Formele systemen zijn de enige AI-gerelateerde tools die bewijs daadwerkelijk ondersteunen.

8. De Structurele Conclusie

De frustratie die veel ervaren onderzoekers voelen is niet toevallig. Het volgt onvermijdelijk uit dit feit:

Moderne AI-systemen zijn geoptimaliseerd voor communicatie, terwijl wetenschap — in zijn kern — over beperking gaat.

Bewijs is geen overtuigende taal. Afleiding is geen uitleg. Waarheid is geen aannemelijkheid.

Totdat AI-systemen rond formele noodzaak worden gebouwd in plaats van linguïstische waarschijnlijkheid, zullen zij perifeer blijven voor serieuze theoretische wetenschap.

Eindpositionering (Samenvatting)

Systeem	Rol	Vertrouwen voor Bewijs
GPT	Taalassistent	❌
Claude	Conceptuele editor	❌
Grok	Verkennende sparring	❌
Perplexity	Literatuurophaling	❌
Lokale LLM’s	Onbeperkte dialoog	❌
Formele systemen	Verificatie	✅

Slotopmerking

De afname in waargenomen kwaliteit is geen persoonlijke illusie en geen mislukking van de gebruiker. Het is het gevolg van verkeerd uitgelijnde optimalisatiedoelstellingen.

AI is beter geworden in correct klinken — en slechter geworden in correct zijn.

Voor onderzoekers die nog steeds geloven dat bewijs vóór overtuiging gaat, is dit geen vooruitgang.

Het is een waarschuwing.

Hans Konstapel Blogs

State of the Art AI 19-12-2025

State of the Art 2025

Waarom de meeste systemen falen waar Bewijs telt

1. De kernconflict: Taal versus Bewijs

2. GPT (OpenAI): De Illusie van Formele Bevoegdheid

3. Claude (Anthropic): Betere Coherentie, Dezelfde Epistemische Grens

4. Grok (xAI): Vrijheid zonder Strengheid

5. Perplexity: Ophaling, geen Redenering

6. Lokale LLM’s: Controle over Illusies

7. De Enige Uitzondering: Formele Systemen

8. De Structurele Conclusie

Eindpositionering (Samenvatting)

Slotopmerking

Like this:

State of the Art 2025

Waarom de meeste systemen falen waar Bewijs telt

1. De kernconflict: Taal versus Bewijs

2. GPT (OpenAI): De Illusie van Formele Bevoegdheid

3. Claude (Anthropic): Betere Coherentie, Dezelfde Epistemische Grens

4. Grok (xAI): Vrijheid zonder Strengheid

5. Perplexity: Ophaling, geen Redenering

6. Lokale LLM’s: Controle over Illusies

7. De Enige Uitzondering: Formele Systemen

8. De Structurele Conclusie

Eindpositionering (Samenvatting)

Slotopmerking

Share this:

Like this:

Discover more from Hans Konstapel Blogs