Grok 4 heeft zojuist het AI-plafond verbrijzeld - dit is waarom dat alles verandert

1 aug

Maak kennis met Grok 4, 's werelds krachtigste AI-model. Bekijk nu de livestream: https://t.co/59iDX5s2ck
- xAI (@xai) 10 juli 2025

Nou, dat escaleerde snel. Drie weken geleden dropten Elon Musk en xAI Grok 4 op een nietsvermoedende wereld en de benchmarks zorgen ervoor dat doorgewinterde AI-onderzoekers hun ogen uitkijken. Stel je een AI voor die door problemen heen redeneert als een cafeïnehoudend team van PhD's die om 3 uur 's nachts aan het brainstormen zijn. Nu de eerste hype is weggeëbd en ontwikkelaars Grok 4 aan de tand hebben gevoeld, zal ik met je doornemen waarom dit model meer is dan de zoveelste release - het is een blik in een toekomst waarin AI een echte intellectuele partner wordt.

https://x.com/xai/status/1943158495588815072

De lancering die het internet brak (en een aantal records)

xAI onthulde Grok 4 op 9 juli 2025 via een livestream die 1,5 miljoen kijkers trok - niet slecht voor een technische presentatie 's nachts.¹ De timing was... interessant, slechts één dag nadat Grok 3 om de verkeerde redenen het nieuws haalde met een aantal controversiële resultaten.² Maar xAI besloot dat de beste verdediging een overweldigende aanval was.

Musk introduceerde twee varianten: de standaard Grok 4 en Grok 4 Heavy, waarbij de laatste meerdere AI-agenten inzet die elkaars werk controleren, zoals een studiegroep waarin iedereen leest.³ Toegang loopt via de Grok-app, website of API, waarbij Heavy exclusief is voor SuperGrok Heavy-abonnees voor $300/maand-een prijspunt dat zegt "we zijn hier serieus mee bezig."⁴ Voor de nieuwsgierigen: https://x.ai/grok voor algemene toegang, https://x.ai/api voor ontwikkelaars.

Functies waardoor andere AI's op rekenmachines lijken

Grok 4 heeft een contextvenster met 256.000 tokens (dat is ruwweg de waarde van een roman aan tekst die het in één keer kan verwerken), beeldanalyse, functie-aanroepen en spraakmodi die zo natuurlijk zijn dat je zou vergeten dat je tegen silicium praat. Maar hier wordt het pas echt pittig: het gebruik van native tools. xAI trainde dit beest met behulp van versterking leren om een code-interpreter en webbrowser-achtige extensies van zijn geest te hanteren.

Real-time zoeken in X, het web en het nieuws houdt de antwoorden fris - geen smoesjes meer als "mijn kennis is op". De multimodale mogelijkheden zorgen voor een naadloze combinatie van tekst- en beeldanalyse, terwijl de Voice Mode scèneanalyse via je camera toevoegt: SOC 2 Type 2, GDPR en CCPA zijn allemaal afgevinkt. Het is alsof je een geestige onderzoeksassistent hebt die nooit slaapt, nooit klaagt over overwerk en je vreselijke handschrift begrijpt.

De geheime saus: Wanneer brute kracht en finesse elkaar ontmoeten

Achter de magie van Grok 4 schuilt xAI's Colossus supercomputer - een monster met 200.000 GPU's dat de meeste datacenters doet lijken op een zakrekenmachine.⁷ Maar brute kracht vertelt niet het hele verhaal. xAI revolutioneerde hun aanpak door het leren van versterking te schalen naar computertraining, door zich te richten op verifieerbare gegevens uit wiskunde, codering en wetenschappelijke domeinen, waardoor de efficiëntie 6x zo hoog werd en rekenkracht werd omgezet in verfijnde intelligentie.⁸

De echte innovatie? Ze spendeerden evenveel aan het leren van versterking na de training als aan de pre-training zelf.⁹ Grok 4 Heavy gaat nog een stap verder met parallelle testtijdcomputers - meerdere AI-agenten die gelijktijdig problemen aanpakken en hun aantekeningen vergelijken. Stel je een upgrade voor van een solo-uitvinder in een garage naar een gesynchroniseerd orkest van Nobelprijswinnaars, die allemaal het werk van de anderen controleren.

De Infrastructuur Realiteitscontrole

De Colossus supercomputer heeft 200.000 GPU's, dat is gewoon... Ik kan dat getal niet eens bevatten. De meeste bedrijven zijn al blij als ze een cluster met een paar honderd GPU's goed laten werken. Maar 200.000? De warmteafgifte alleen al zou zijn alsof er een kleine energiecentrale draait.

En dan heb ik het nog niet eens gehad over hoe je ze allemaal op de juiste manier aansluit, hoe je ze gevoed houdt met gegevens, of hoe je ervoor zorgt dat je elektriciteitsnet het niet laat afweten.... Elk detail is belangrijk: hoe je de racks indeelt, wat voor soort koeling je gebruikt (en ja, je hebt serieuze koeling nodig want deze dingen worden HEET), plus alle netwerk- en stroomdistributienachtmerries die erbij komen kijken. Als je ook maar iets van die puzzel in de war schopt, verbrand je geld aan slecht presterende hardware. Bedrijven die hun eigen AI-infrastructuur willen bouwen, of het nu 10 GPU's zijn of 10.000.000, hebben expertise nodig in alles van stroomdistributie tot de ingewikkelde glasvezelverbindingen die ervoor zorgen dat gegevens met lichtsnelheid blijven stromen. Dit is het punt waar professionele inzet van infrastructuur het verschil maakt tussen theoretische specificaties en prestaties in de praktijk. Zoals het team van Introl weet uit de inzet van talloze AI-clusters, zit het venijn echt in de details - een goede infrastructuur kan het verschil betekenen tussen GPU's die met 95% efficiëntie draaien en GPU's die 30% van hun prestaties op tafel leggen.

Getallen die statistici doen huilen van vreugde

Laten we eens duiken in de benchmarks die de AI-gemeenschap zoemen. Op de berucht brute ARC-AGI-2 test - waar modellen abstract redeneren moeten laten zien met minimale voorbeelden - eist Grok 4 (denkmodus) de troon op met 15,9% tegen ongeveer $4 per taak.¹⁰ Dat is bijna het dubbele van de 8,6% van Claude Opus 4, en voordat je spot met "slechts 15,9%", bedenk dan dat de meeste modellen moeite hebben om 5% te halen op deze test.¹¹ Het is alsof je iemand geblinddoekt Rubiks kubussen ziet oplossen terwijl de rest nog steeds aan het uitzoeken is welke kant rood is.

De schaalexperimenten onthullen iets fascinerends. Met alleen computer training haalt Grok 4 ongeveer 50% van Humanity's Last Exam (alleen tekst subset). Voeg tools toe en het springt naar 50,7%.¹² Testtijd schaling plateaus in de buurt van 50%, wat bewijst dat meer innovatieve inferentiestrategieën-niet alleen maar meer rekenkracht naar problemen gooien doorbraken veroorzaakt.

Op AIME25 (American Invitational Mathematics Examination) haalt Grok 4 Heavy een perfecte 100% en laat daarmee Claude 4 Opus (75,5%) en Gemini 2.5 Pro (88,0%) in het stof achter.¹³ Zelfs zonder hulpmiddelen scoort standaard Grok 4 91,7%, dat is beter dan de meeste menselijke deelnemers aan wiskundewedstrijden.

Maar hier is de showstopper: Humanity's Last Exam (complete set). De meer dan 2500 vragen over bètawetenschappen en menswetenschappen scheiden memoriseren van echt redeneren.¹⁴ Grok 4 Heavy scoort 44,4%, bijna een verdubbeling van Gemini 2.5 Pro's 25,4% en meer dan een verdubbeling van o3's 21,0%.¹⁵ Als je AI anderen met zulke marges overtreft, ben je niet aan het itereren, maar aan het revolutioneren.

Prestaties die er echt toe doen

Naast academische benchmarks domineert Grok 4 praktische tests. In de Vending-Bench (ja, dat is een echte benchmark over het optimaliseren van de werking van verkoopautomaten) bereikt het een netto waarde van $4.694 met 4.569 verkochte eenheden - meer dan het dubbele van de $2.077 van Claude Opus 4 en een vervijfvoudiging van de menselijke prestaties van $844.¹⁶

Extra overwinningen: USAMO'25 (61,9%), GPQA Diamond (88%), LiveCodeBench (79,4%) en MMLU-Pro (87%).¹⁷ Onafhankelijke beoordelaars van Artificial Analysis bekroonden Grok 4 met een 73 op hun Intelligence Index, waarmee ze OpenAI's o3 en Google's Gemini 2.5 Pro (beide op 70) voor laten gaan.¹⁸ Niet slecht voor een model dat slechts drie weken geleden verscheen.

Het oordeel van de gemeenschap: opgewonden, sceptisch en alles daartussenin

Sinds de lancering is X (voorheen Twitter) een proeftuin geworden voor de mogelijkheden van Grok 4. Ontwikkelaars melden dat ze hele codebestanden plakken om te debuggen. Ontwikkelaars melden dat ze hele codebases plakken om te debuggen, met resultaten die beter zijn dan gespecialiseerde tools zoals Cursor.¹⁹ Een gebruiker noemde het "het dichtste bij AGI tot nu toe", terwijl wetenschappers onopgeloste materiaalproblemen bevragen en nieuwe inzichten krijgen die kloppen.²⁰ Na drie weken gebruik in de echte wereld zijn er patronen ontstaan: het model blinkt uit in complexe redeneertaken, maar vertoont interessante eigenaardigheden in creatieve toepassingen.

Maar het is niet allemaal staande ovaties. Gebruikers merken op dat de snelheid beperkt is tot 75 tokens/seconde (respectabel maar niet razendsnel), en de moderatie van de inhoud blijft minimaal-Grok 4 wordt minder gefilterd dan concurrenten, wat discussies oproept over AI-neutraliteit versus veiligheid.²¹ Sommigen waarderen de rauwe, onverbloemde reacties; anderen maken zich zorgen over mogelijk misbruik. Democratie in actie, mensen.

Wat dit betekent voor morgen (Spoiler: alles verandert)

Hier komt mijn optimisme in een stroomversnelling. Grok 4 overstijgt de categorie chatbot, het is een voorproefje van AI als intellectuele partner. Wanneer een AI op doctoraalniveau scoort in wiskundewedstrijden en wetenschappers helpt bij het onderzoeken van onopgeloste problemen, zijn we getuige van het begin van augmented discovery.

Voor de wetenschap: Stelt u zich eens voor dat onderzoekers wereldwijd toegang hebben tot een AI die echt complexe wiskunde begrijpt en nieuwe hypotheses kan voorstellen. Ontdekking van medicijnen, klimaatmodellering en materiaalkunde - alles in een stroomversnelling.

Voor engineering: Naast debuggen hebben we het over AI die systeemarchitecturen begrijpt en optimalisaties kan voorstellen die mensen misschien nooit zouden overwegen. Het is alsof je Dijkstra en Turing onder een sneltoets hebt.

Voor het onderwijs: Persoonlijke begeleiding die zich niet alleen aanpast aan wat leerlingen fout hebben, maar ook aan hoe ze denken. Elke leerling krijgt een geduldige, briljante mentor die is afgestemd op zijn cognitieve stijl.

Voor bedrijven: Van strategische planning tot marktanalyse, de redeneercapaciteiten van Grok 4 kunnen besluitvorming transformeren van onderbuikgevoelens naar gegevensgestuurde inzichten met een genuanceerd begrip.

De kanttekeningen (want eerlijkheid is beter dan een hype)

Laten we reëel blijven: geen enkele AI is perfect en Grok 4 heeft ruimte om te groeien. De snelheid van 75 tokens/seconde zal geen wedstrijden winnen tegen gespecialiseerde inferentieservers. Hallucinaties zijn weliswaar verminderd, maar niet helemaal verdwenen (een uitdaging voor de hele industrie). De minimale inhoudsfiltering geeft reden tot bezorgdheid over misbruikpotentieel.

Kijk, xAI heeft ons niets verteld over hun trainingsgegevens en dat is... niet geweldig. We weten allemaal hoe dit gaat - de vooroordelen van gegevens worden versterkt als je zo groot gaat schalen. Iedereen op het gebied van AI houdt xAI nu als een havik in de gaten. Hoe gaan ze om met de ethiek als Grok 4 zich verspreidt? Dat gaat veel uitmaken.

De weg vooruit: Dingen staan op het punt raar te worden

xAI liet tijdens de presentatie een aantal van hun plannen zien en één ding verbaasde me volledig. Ze hadden het over het verbinden van Grok met Tesla's computational fluid dynamics software - dezelfde CFD die Tesla-ingenieurs gebruiken voor aerodynamica en thermisch beheer op echte voertuigen.²²

Daar moest ik even mee zitten. We zijn gewend geraakt aan AI die feiten kent, vragen beantwoordt en code schrijft. Maar de CFD-integratie vertegenwoordigt iets anders. Het is één ding om een AI te hebben die kan uitleggen hoe vloeistofdynamica werkt. Het is iets heel anders als die AI CFD-software kan gebruiken om dingen te ontwerpen die door lucht bewegen en warmte afvoeren. Dat is geen incrementele vooruitgang, dat is een compleet nieuwe mogelijkheid.

OpenAI, Anthropic en Google zullen niet vanaf de zijlijn toekijken. Maar Grok 4 heeft het spel veranderd - we zijn van "behulpzame assistent" rechtstreeks naar "redenerende partner" gegaan. De verschuiving doet me denken aan waar Ray Kurzweil het over heeft met de intelligentie-explosie - elke doorbraak zorgt ervoor dat de volgende steeds sneller gaat. We zien het in real time gebeuren.

Jouw beurt: Wat ga jij bouwen?

Dus ik heb nagedacht - wat gebeurt er als AI over de hele linie kan redeneren op PhD-niveau? Welke problemen die onmogelijk leken, liggen dan ineens wijd open? Wat ontdekken we als onze hulpmiddelen met ons mee kunnen denken? En eerlijk gezegd, wat voor veiligheidsmaatregelen moeten we nemen als AI zo slim wordt?

Als ontwikkelaar ben je al aan het plannen wat je met die API's kunt bouwen. Onderzoekers zijn waarschijnlijk aan het bedenken wat er nu ineens allemaal mogelijk is. En als je hier zit en denkt: "Wat betekent de mogelijkheid van Grok 4 eigenlijk?", dan snap ik dat. Het concept kost tijd om te verwerken.

Maar het zit zo: Grok 4 landde in onze schoot, of we er nu klaar voor waren of niet. AI zei gewoon: "Dit is wat er nu mogelijk is, zoek uit wat je ermee kunt doen."

Dus... wat ga je ermee doen? De Grok API is te vinden op https://x.ai/apien er is een hele gemeenschap op X waar ontwikkelaars en onderzoekers al de grenzen opzoeken. Na drie weken zien we toepassingen die niemand had voorspeld bij de lancering. De mogelijkheden zijn enorm - laten we ze niet verspillen.

Referenties

Scott Rosenberg, "Elon Musks xAI debuteert Grok 4, 'slimste AI ter wereld'", Axios, 10 juli 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Musk onthult Grok 4 update een dag nadat xAI chatbot antisemitische opmerkingen maakte," CBS News, 10 juli 2025, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musks xAI lanceert Grok 4 naast een maandabonnement van $300," TechCrunch, 9 juli 2025, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"Elon Musks xAI lanceert Grok 4 naast een maandabonnement van $300," TechCrunch.
xAI, "Grok 4 Release Announcement", livestreampresentatie, 9 juli 2025.
xAI, "Aankondiging release Grok 4."
"Grok 4 Release: xAI claimt #1 AI Model Crown in onafhankelijke tests," Gear Musk, 10 juli 2025, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Aankondiging release Grok 4."
"Musk's Grok-4 verplettert benchmarks, verslaat OpenAI & Google in RL," Analytics India Magazine, 10 juli 2025, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"ARC-prijs," X (voorheen Twitter), 10 juli 2025, https://twitter.com/arcprize/status/[specifiek-id].
François Chollet, "ARC-AGI: Een nieuwe grens in AI-redeneren," ARC-prijsorganisatie, 2025.
xAI, "Aankondiging release Grok 4."
"Elon Musk's Grok 4 AI-modellen vestigen nieuwe benchmarkrecords", Beebom, 10 juli 2025, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI vestigt AI-benchmarkrecords met nieuw, voor redeneren geoptimaliseerd Grok 4-model," SiliconANGLE, 10 juli 2025, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Aankondiging release Grok 4."
xAI, "Aankondiging release Grok 4."
xAI, "Aankondiging release Grok 4."
"Vergelijking van AI-modellen op basis van intelligentie, prestaties en prijs", Artificial Analysis, geraadpleegd op 11 juli 2025, https://artificialanalysis.ai/models.
Getuigenissen van gebruikers, X (voorheen Twitter), 10-11 juli 2025.
Getuigenissen van gebruikers, X (voorheen Twitter), 10-11 juli 2025.
"Wat is er nieuw in Grok 4? Release feiten, benchmarks en waarde," SmythOS, 10 juli 2025, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Aankondiging release Grok 4."

Blake Crosley