Hoe Isambard-AI 5.448 GPU's inzette in 4 maanden: De nieuwe blauwdruk voor AI-infrastructuur

2 aug

Loop een omgebouwd pakhuis in Bristols National Composites Centre binnen en je vindt 150 ton geavanceerde computerhardware zoemend achter vloeistofgekoelde kasten: Isambard-AI, de krachtigste supercomputer voor kunstmatige intelligentie in het Verenigd Koninkrijk. Natuurlijk zijn de krantenkoppen vol lof over de 21 exaflops aan AI-prestaties, maar dit is wat ze missen: de buitengewone infrastructurele uitdagingen die het team heeft overwonnen om dit project van 225 miljoen pond in slechts 24 maanden online te krijgen. Vijf jaar geleden? Onmogelijke tijdlijn.

De inzet van Isambard-AI's 5.448 NVIDIA Grace Hopper Superchips laat een belangrijke ontwikkeling zien. Succes in AI computing hangt nu af van meer dan alleen het kopen van GPU's. Je moet het complexe ecosysteem van stroom, koeling, netwerken en logistiek beheersen. Je moet het complexe ecosysteem van stroom, koeling, netwerken en logistiek beheersen dat moderne AI-infrastructuur vereist. Organisaties die grootschalige GPU-implementaties plannen, moeten deze uitdagingen en de gespecialiseerde expertise die nodig is om ze te overwinnen, beter begrijpen.

Wanneer 5 megawatt samenkomt met 150 ton silicium

De schaal van Isambard-AI doorbreekt het traditionele denken over datacenters. Elk van de 12 HPE Cray EX4000 kasten herbergt 440 GPU's en genereert een warmtedichtheid die conventionele systemen zou doen smelten. Traditionele luchtkoeling heeft moeite met meer dan 20kW per rack. Isambard-AI? Meer dan 400kW per kast. De oplossing was 100% directe vloeistofkoeling, maar de implementatie ervan vereiste geheel nieuwe vaardigheden.

"Wat we zien bij implementaties zoals Isambard-AI is een fundamentele verschuiving in wat datacenterexpertise is," onthult het infrastructuurimplementatielandschap. Bedrijven die zich vroeger richtten op traditionele rack-and-stack-operaties hebben nu technici nodig die verstand hebben van vloeistofkoeling, beheer van high-density bekabeling en hoe ze duizenden GPU's tegelijk in gebruik kunnen nemen. Het team van de Universiteit van Bristol werkte samen met gespecialiseerde implementatiepartners om meer dan 40.000 glasvezelverbindingen te installeren. Dat is genoeg bekabeling om een kleine stad te omcirkelen. En ze moesten de precisie handhaven die nodig was voor de 5e generatie NVLink interconnecties van het systeem die met 1,8 TB/s werken.

Hier is de kick: het project ging van contractondertekening naar operationele status in minder dan vier maanden. Hoe? Gespecialiseerde bedrijven die GPU-infrastructuur inzetten kunnen nu binnen 72 uur honderden bekwame technici mobiliseren. Dit zijn geen traditionele IT-aannemers. Het zijn gespecialiseerde teams die de specifieke koppelspecificaties kennen voor vloeistofkoelingverbindingen en de optimale volgorde om duizenden GPU's online te brengen zonder de stroomsystemen te overweldigen.

De verborgen complexiteit van AI-first infrastructuur

Traditionele supercomputers worden omgebouwd voor AI-toepassingen. Isambard-AI is van de grond af ontworpen voor toepassingen op het gebied van kunstmatige intelligentie. Hun AI-first benadering beïnvloedde elke beslissing over de infrastructuur. Het team koos voor het modulaire datacenterontwerp van HPE en monteerde het ter plekke in slechts 48 uur. Ze kozen voor een koolstofvrije stroomvoorziening die in lijn is met de 4e plaats die het systeem wereldwijd inneemt op het gebied van energie-efficiëntie.

Alleen al de netwerkinfrastructuur is een enorme technische coördinatie. Het HPE Slingshot 11 netwerk van het systeem biedt 25,6 Tb/s bidirectionele bandbreedte over 64 poorten, waarbij elk knooppunt 800 Gbps aan netwerkinjectiebandbreedte ontvangt. Het installeren en valideren van dit complexe web van verbindingen vereiste gespecialiseerde expertise in high-performance netwerken die veel verder gaat dan typische bedrijfsimplementaties. Moderne GPU-infrastructuurspecialisten moeten de fysieke laag begrijpen EN weten hoe verschillende interconnectietopologieën de prestaties van AI-workloads beïnvloeden.

De stroomvoorziening creëerde unieke uitdagingen. Het totale vermogen van 5MW van Isambard-AI lijkt misschien bescheiden vergeleken met datacenters op grote schaal, maar de dichtheid en het kritieke karakter van deze stroomvoorziening creëerde unieke vereisten. Elke Grace Hopper Superchip vereist een nauwkeurige stroomtoevoer. Aangezien er 5.448 tegelijk werken, kunnen zelfs kleine fluctuaties instabiliteit van het systeem veroorzaken. Het implementatieteam implementeerde geavanceerde energiebeheersystemen met realtime bewakingsmogelijkheden die afwijkingen binnen milliseconden konden detecteren en erop reageren.

Leren van Europa's AI-infrastructuurwedloop

De inzet van Isambard-AI vond plaats terwijl Europese landen hevig wedijverden om de suprematie van AI. Het Finse LUMI-systeem biedt 380 petaflops aan traditionele rekenkracht. Duitslands aankomende Jupiter supercomputer belooft Europa's eerste exascale systeem te worden. Maar Isambard-AI bereikte de operationele status sneller dan al zijn Europese concurrenten. Het ging in minder dan twee jaar van het eerste voorstel naar een volledig operationeel systeem. Vergelijk dat eens met de typische tijdlijn van 4-5 jaar voor vergelijkbare systemen.

Dit snelheidsvoordeel is deels te danken aan de gestroomlijnde inkoopprocessen in het Verenigd Koninkrijk na de Brexit. Maar belangrijker is dat het voortkomt uit de evolutie van GPU-implementatiemethoden. Traditionele supercomputerinstallaties volgden opeenvolgende fasen: infrastructuur, dan hardware, dan netwerken, dan software. Moderne GPU-installaties maken gebruik van parallelle workflows. Gespecialiseerde teams werken tegelijkertijd aan de installatie van vloeistofkoeling, de inbedrijfstelling van GPU's en de netwerkconfiguratie, waardoor de tijdlijnen drastisch worden verkort.

Het contrast met andere Europese installaties leert ons waardevolle lessen. De MareNostrum 5 van Spanje vereiste, ondanks de indrukwekkende specificaties, uitgebreide aanpassingen van bestaande faciliteiten. Het Italiaanse Leonardo-systeem had te kampen met vertragingen bij de integratie van de AI-versnellingsmogelijkheden. Het succes van Isambard-AI toont aan dat speciaal gebouwde AI-infrastructuur, ingezet door teams met specifieke GPU-expertise, een snellere time-to-science kan opleveren dan achteraf ingebouwde HPC-systemen.

De kenniskloof bedreigt AI-ambities

Organisaties over de hele wereld racen om AI-infrastructuur te implementeren, maar er is een kritieke vaardigheidskloof ontstaan. Traditionele datacentertechnici, hoe ervaren ook, missen vaak de gespecialiseerde kennis die nodig is voor moderne GPU-implementaties. Vloeistofkoelsystemen vereisen inzicht in vloeistofdynamica en thermisch beheer. Hoge dichtheid GPU-configuraties vereisen expertise in stroomtoevoer en luchtstroomoptimalisatie die verder gaat dan conventionele serverimplementaties.

Deze expertisekloof is het grootst op verschillende gebieden. Kabelbeheer voor GPU-clusters is een gespecialiseerde discipline geworden. De duizenden hogesnelheidsverbindingen van Isambard-AI vereisten een nauwkeurige routering om de signaalintegriteit te behouden en tegelijkertijd toegang voor onderhoud mogelijk te maken. Technici op het gebied van stroomvoorziening en koeling moeten niet alleen de stationaire vereisten begrijpen, maar ook het dynamische gedrag van AI-workloads die in milliseconden van inactief naar vol vermogen kunnen schakelen.

Bedrijven zoals introl.com zijn opgestaan om deze leemte op te vullen en hebben gespecialiseerde teams ontwikkeld die traditionele vaardigheden in datacenters combineren met GPU-specifieke expertise. Hun implementaties van systemen met meer dan 1.000 GPU nodes laten zien op welke schaal deze nieuwe infrastructuurspecialist opereert. De mogelijkheid om 40 technici binnen een week te mobiliseren, zoals te zien is bij recente grote implementaties van GPU-cloudproviders, vertegenwoordigt een nieuwe operationele capaciteit die niet bestond in de traditionele datacenterindustrie.

Verder dan uitrollen: de uitmuntendheid van de AI-infrastructuur behouden

De uitdagingen houden niet op wanneer de laatste GPU wordt ingeschakeld. Het onderhouden van een systeem als Isambard-AI vereist voortdurende optimalisatie en proactief beheer. Het team van de Universiteit van Bristol implementeerde geavanceerde monitoringsystemen die alles bijhouden, van GPU-gebruikspatronen tot koelvloeistofdebieten. Met de 850 GB unified memory address space per node van het systeem kunnen zelfs kleine inefficiënties de onderzoeksproductiviteit aanzienlijk beïnvloeden.

Moderne GPU-infrastructuur vereist een DevOps-benadering van fysieke systemen. Firmware-updates moeten zorgvuldig worden georkestreerd over duizenden apparaten door engineeringteams. Koelsystemen vereisen voorspellend onderhoud op basis van gebruikspatronen en omgevingscondities. Netwerkconfiguraties moeten voortdurend worden afgestemd om te optimaliseren voor veranderende werklastpatronen. Deze operationele complexiteit drijft de ontwikkeling van gespecialiseerde servicemodellen waarbij infrastructuurpartners zorgen voor voortdurende optimalisatie in plaats van een eenmalige implementatie.

De economische gevolgen komen hard aan. Elke Grace Hopper Superchip vertegenwoordigt een aanzienlijke kapitaalinvestering. Inactieve tijd heeft een directe impact op het rendement van de investering. Organisaties die grote GPU-clusters inzetten, vertrouwen steeds vaker op partners die niet alleen de installatie, maar ook doorlopende optimalisatieservices kunnen leveren. Het vermogen om 95%+ bezettingsgraden te handhaven, zoals beoogd door toonaangevende AI-infrastructuur implementaties, vereist constante aandacht voor werklastplanning, resourcetoewijzing en systeemgezondheid.

De toekomst van AI-infrastructuur in kaart brengen

De succesvolle inzet van Isambard-AI biedt cruciale lessen voor organisaties die hun eigen AI-infrastructuurinitiatieven plannen. Ten eerste is het tijdperk waarin GPU's werden behandeld als eenvoudige servercomponenten voorbij. Moderne AI-systemen vereisen holistisch denken over stroom, koeling, netwerken en operaties vanaf de eerste planningsfasen. Ten tweede worden de verkorte tijdschema's die Isambard-AI heeft gerealiseerd (van concept tot ingebruikname in minder dan twee jaar) de nieuwe standaard, maar alleen voor organisaties die samenwerken met gespecialiseerde implementatieteams.

In de toekomst zullen de infrastructuuruitdagingen alleen maar groter worden. NVIDIA's Blackwell-architectuur belooft nog hogere vermogensdichtheden, met sommige configuraties van meer dan 1.000 W per GPU. Vloeistofkoeling verandert van een geavanceerde optie in een absolute noodzaak. De eisen voor netwerkbandbreedte zullen exponentieel blijven groeien naarmate de modelgroottes richting de 10 biljoen parameters gaan. Organisaties die geen toegang hebben tot gespecialiseerde GPU-infrastructuurexpertise zullen steeds minder in staat zijn om te concurreren in de AI-revolutie.

De Britse investering in Isambard-AI is meer dan alleen een technische prestatie. Het is een blauwdruk voor hoe landen en organisaties snel AI-infrastructuur van wereldklasse kunnen implementeren. Door de combinatie van speciaal gebouwde faciliteiten, gestroomlijnde inkoopprocessen en partnerschappen met gespecialiseerde implementatieteams laat het project zien dat de infrastructurele uitdagingen van het AI-tijdperk, hoewel formidabel, verre van onoverkomelijk zijn. Voor degenen die bereid zijn te investeren in de juiste expertise en partnerschappen is de weg van ambitie naar operationele AI-supercomputers nog nooit zo eenvoudig geweest.

Wereldwijd overwegen universiteiten, bedrijven en overheden hun eigen AI-infrastructuurinvesteringen. Isambard-AI bewijst dat met de juiste aanpak en de juiste partners zelfs de meest ambitieuze GPU-implementaties met de snelheid van innovatie van voorstel naar productie kunnen gaan. De vraag is niet langer of je een AI-infrastructuur moet bouwen, maar of je toegang hebt tot de gespecialiseerde expertise die nodig is om het goed te doen.

Referenties

Alliance Chemical. "AI GPU-koelrevolutie: Gedeïoniseerd water, ethyleenglycol en propyleen." Alliance Chemical. Geraadpleegd op 1 augustus 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol gaat live met Britse AI-supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "Britse overheid belooft 225 miljoen pond om AI-supercomputer van Universiteit van Bristol te financieren, gebouwd met HPE." Computer Weekly, november 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Kennis over datacenters. "Directe vloeistofkoeling van chip tot chip: De efficiëntie van datacenters optimaliseren." Kennis over datacenters. Geraadpleegd op 1 augustus 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

Gemeenschappelijke onderneming EuroHPC. "Inauguratie van MareNostrum 5: Europa verwelkomt een nieuwe supercomputer van wereldklasse." 21 december 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

Gemeenschappelijke onderneming EuroHPC. "MareNostrum5: een nieuwe EuroHPC supercomputer van wereldklasse in Spanje." 16 juni 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "Technisch overzicht van JUPITER." Geraadpleegd op 1 augustus 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Sovereign AI AIRR launch opportunity: oproep voor onderzoekers." Geraadpleegd op 1 augustus 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "Britse overheid investeert £225m om krachtigste AI-supercomputer van het VK te maken met University of Bristol en Hewlett Packard Enterprise." Persbericht, november 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "Universiteit van Bristol host Isambard-AI Supercomputer, markeert een nieuw tijdperk in AI en HPC." HPCwire. Geraadpleegd op 1 augustus 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "Alles over de NVIDIA Blackwell GPU's: Architectuur, functies, chipspecificaties." Geraadpleegd op 1 augustus 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Geraadpleegd op 1 augustus 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Introl. "GPU Infrastructuur Implementaties | Optimaliseer uw GPU implementaties." Geraadpleegd op 1 augustus 2025. https://introl.com/gpu-infrastructure-deployments.

Introl. "Introl - GPU Infrastructuur & Datacenter Deployment Experts." Geraadpleegd op 1 augustus 2025. https://introl.com.

Introl. "Introl | GPU-infrastructuur, datacenteroplossingen & HPC-implementatie." Geraadpleegd op 1 augustus 2025. https://introl.com/blog.

IT Pro. "Een kijkje in Isambard-AI: de krachtigste supercomputer van het Verenigd Koninkrijk." IT Pro. Geraadpleegd op 1 augustus 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Geraadpleegd op 1 augustus 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "Wat is directe vloeistofkoeling voor AI-datacenters?" Geraadpleegd op 1 augustus 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch voor geavanceerde multi-GPU-communicatie." Geraadpleegd op 1 augustus 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "De motor achter AI-fabrieken | NVIDIA Blackwell Architecture." Geraadpleegd op 1 augustus 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

NVIDIA Blog. "NVIDIA Blackwell Platform verhoogt waterefficiëntie met meer dan 300x." Geraadpleegd op 1 augustus 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: een supercomputer van topklasse, speciaal geoptimaliseerd voor kunstmatige intelligentie." Oktober 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "Britse Isambard-AI-supercomputer van 300 miljoen dollar officieel van start." SDxCentral. Geraadpleegd op 1 augustus 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Het moment van vloeistofkoeling komt met dank aan AI." TechTarget. Geraadpleegd op 1 augustus 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

De Ingenieur. "Isambard AI-supercomputer lanceert in Bristol." The Engineer. Geraadpleegd op 1 augustus 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

Onderzoek en innovatie Verenigd Koninkrijk. "300 miljoen pond om eerste fase van nieuwe AI Research Resource te lanceren." Geraadpleegd op 1 augustus 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

Universiteit van Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Geraadpleegd op 1 augustus 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

Universiteit van Bristol. "Juli: Krachtigste Britse supercomputer lanceert in Bristol." Nieuws en kenmerken, juli 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

Universiteit van Bristol. "November: Ongekende investering van 225 miljoen pond om de krachtigste supercomputer van het VK te maken." Nieuws en kenmerken, november 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (microarchitectuur)." Geraadpleegd op 1 augustus 2025. https://en.wikipedia.org/wiki/Blackwell_ (microarchitectuur).

Wikipedia. "LUMI." Geraadpleegd op 1 augustus 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: een supercomputer van leiderschapsklasse, specifiek geoptimaliseerd voor kunstmatige intelligentie." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.