40-250kW per rack: Datacenteroplossingen met extreme dichtheid

Datacenters van vijf jaar geleden hebben moeite om 10kW per rack te koelen. De huidige AI-workloads vereisen minimaal 40kW en de volgende generatie implementaties mikt op 250kW. De kloof tussen de bestaande infrastructuur en de moderne eisen creëert een probleem van 100 miljard dollar dat slim kan worden opgelost.

NVIDIA's GB200 NVL72 systemen verbruiken 140kW in een enkele rackconfiguratie.¹ Microsofts nieuwste Azure implementaties halen routinematig 50kW per rack.² Google pusht 60kW dichtheden in hun TPU pods.³ De infrastructuur die de cloud van gisteren voedde, kan de AI van morgen niet aan en organisaties staan voor een grimmige keuze: helemaal opnieuw opbouwen of creatieve oplossingen ontwikkelen die de kloof overbruggen.

De fysica van extreme dichtheidskoeling

Traditionele luchtkoeling met verhoogde vloer faalt catastrofaal boven de 15kW per rack. Hete luchtrecirculatie kan leiden tot thermische runaway-condities, waarbij temperaturen uit de hand lopen. Eén rek van 40kW genereert dezelfde warmte als 14 verwarmingselementen die continu in werking zijn. Zet acht van deze racks op een rij en u beheert de thermische output van een klein kantoorgebouw samengeperst in 200 vierkante meter.

Ingenieurs lossen uitdagingen op het gebied van extreme dichtheid op met drie fundamentele benaderingen. Directe vloeistofkoeling brengt de koelvloeistof rechtstreeks naar de warmtebron, waarbij 30-40kW per rack wordt verwijderd met warmtewisselaars achter de deur of koude platen. Dompelkoeling dompelt hele systemen onder in diëlektrische vloeistof, waarbij dichtheden van 50-100kW worden verwerkt terwijl er geen ventilatoren nodig zijn. Hybride benaderingen combineren meerdere technologieën, waarbij vloeistofkoeling wordt gebruikt voor GPU's terwijl luchtkoeling wordt gehandhaafd voor componenten met een lagere dichtheid.

De wiskunde is doorslaggevend voor vloeistofkoeling. De warmteoverdrachtscoëfficiënt van water is 3500 keer hoger dan die van lucht. Een enkele liter water kan dezelfde warmte afvoeren als 3000 kubieke meter lucht. Vloeistofgekoelde systemen bereiken PUE-ratings (Power Usage Effectiveness) van 1,02-1,10, vergeleken met 1,4-1,8 voor traditionele luchtkoeling.⁵ Elke 0,1 verbetering in PUE bespaart ruwweg $1 miljoen per jaar in een 10MW-installatie.⁶

De uitdagingen op het gebied van energiedistributie vermenigvuldigen zich op schaal.

Voor het voeden van 250kW in een enkel rack is een fundamenteel herontwerp van de stroominfrastructuur nodig. Traditionele 208V-circuits vereisen aansluitingen van 1.200 ampère-kabels die dikker zijn dan een mensenarm. Moderne faciliteiten maken gebruik van 415V of 480V distributie om de stroomvereisten te verlagen, maar zelfs deze systemen vereisen enorme investeringen in koper. Voor één enkel rek van 250kW is een stroominfrastructuur nodig die gelijk is aan die van 50 doorsnee huizen.

De buitendienstingenieurs van Introl komen regelmatig installaties tegen die proberen 5kW-ontwerpen te retrofitten voor 40kW-belastingen. Stroomonderbrekers springen constant uit. Transformatoren raken oververhit. Stroomverdelers begeven het onder belastingen waarvoor ze nooit ontworpen zijn. Organisaties ontdekken vaak dat de totale stroomcapaciteit van hun gebouw niet meer dan een handvol high-density racks kan ondersteunen, waardoor dure upgrades van het elektriciteitsnet nodig zijn die 18-24 maanden in beslag nemen.

Een slim stroomontwerp begint waar mogelijk met gelijkstroomdistributie. Gelijkstroom elimineert conversieverliezen die 10-15% van het vermogen verspillen in traditionele wisselstroomsystemen.⁷ Het Open Compute Project van Facebook toonde aan dat gelijkstroomdistributie het totale stroomverbruik met 20% verlaagt en tegelijkertijd de betrouwbaarheid verbetert.⁸ Moderne GPU-systemen ondersteunen steeds vaker directe gelijkstroomingang, waardoor meerdere conversiefasen die warmte genereren en de efficiëntie verlagen, worden geëlimineerd.

De mechanische infrastructuur moet volledig opnieuw worden ontworpen.

Standaard datacentervloeren ondersteunen 150-250 kilo per vierkante meter. Een volledig beladen rack van 250kW weegt meer dan 8000 kilo, geconcentreerd op slechts 10 vierkante meter.⁹ Versterking van de vloer wordt verplicht, wat 50.000-100.000 dollar per rack toevoegt aan structurele upgrades. Seismische zones worden met nog meer uitdagingen geconfronteerd en vereisen speciale isolatiesystemen die schade aan apparatuur tijdens aardbevingen voorkomen.

Vloeistofkoeling introduceert nieuwe mechanische complexiteiten. Voor koelmiddeldistributie zijn pompen, warmtewisselaars en filtratiesystemen nodig die traditionele faciliteiten niet hebben. Voor een installatie met vloeistofkoeling van 1MW is 400-500 gallon koelvloeistof per minuut nodig.¹⁰ Lekdetectie wordt cruciaal: één lek in de koelvloeistof kan binnen enkele seconden miljoenen dollars aan apparatuur vernietigen. Introl maakt gebruik van drievoudige redundantie lekdetectie met automatische afsluitkleppen die binnen 100 milliseconden na het detecteren van vocht worden geactiveerd.

Alleen al de infrastructuur van de leidingen vertegenwoordigt een enorme investering. Koperen leidingen kosten $30 tot $50 per geïnstalleerde strekkende meter.¹¹ Eén enkele rij vloeistofgekoelde racks vereist 500 tot 1000 voet leidingwerk voor aanvoer- en retourleidingen. Manifolds, kleppen en aansluitpunten voegen $20.000-$ 30.000 per rack toe. De mechanische infrastructuur kost vaak meer dan de ondersteunde computerapparatuur.

Netwerkarchitectuur past zich aan dichtheidseisen aan.

Extreme density computing vraagt om ongekende netwerkbandbreedte. Elke NVIDIA H100 GPU heeft 400Gbps aan netwerkconnectiviteit nodig voor optimale prestaties.¹² Een 8-GPU server heeft 3,2Tbps aan bandbreedte nodig - meer dan veel complete datacenters vijf jaar geleden verbruikten. Traditionele top-of-rack switching architecturen hebben moeite om aan deze eisen te voldoen.

Dichte implementaties stimuleren de toepassing van gedesaggregeerde netwerkarchitecturen. Spine-leaf topologieën bieden consistente latentie en bandbreedte ongeacht de verkeerspatronen. Silicium fotonica maakt verbindingen van 800 Gbps en 1,6 Tbps mogelijk die met koper niet haalbaar zijn.¹³ In de implementaties van Introl wordt steeds meer gebruik gemaakt van direct-attach koper (DAC) kabels voor verbindingen van minder dan 3 meter en actieve optische kabels (AOC) voor langere runs, waardoor zowel de kosten als het stroomverbruik worden geoptimaliseerd.

Kabelbeheer wordt verrassend complex bij extreme dichtheden. Een rack met 40 GPU's heeft meer dan 200 kabels nodig voor voeding, netwerken en beheer. Elke kabel genereert warmte door elektrische weerstand. Slecht kabelbeheer beperkt de luchtstroom, waardoor hot spots ontstaan die thermische throttling veroorzaken. De technici van Introl besteden 20-30% van de installatietijd aan kabelbeheer, waarbij ze gebruikmaken van gespecialiseerde routingsystemen die de juiste buigradius handhaven en tegelijkertijd de koelefficiëntie maximaliseren.

Geografische beperkingen bepalen de inzetstrategieën.

Singapore is wereldwijd koploper op het gebied van dichtheid met nieuwe faciliteiten die vanaf de eerste dag ontworpen zijn voor 50-100kW per rack.¹⁴ De schaarste aan land stimuleert verticale uitbreiding en maximale computing per vierkante voet. Stimuleringsmaatregelen van de overheid ondersteunen de invoering van vloeistofkoeling door lagere belastingen en snellere vergunningen. Introl's APAC-aanwezigheid plaatst ons in het centrum van de transformatie, met lokale ingenieurs die de regionale vereisten en regelgeving begrijpen.

Noord-Europese markten maken gebruik van koude klimaten voor gratis koelvoordelen. De datacenters in Stockholm maken gebruik van koud water uit de Baltische Zee voor warmteafvoer, waardoor ze het hele jaar door een PUE van minder dan 1,10 bereiken.¹⁵ Noorse faciliteiten combineren waterkracht met natuurlijke koeling om de meest efficiënte AI-infrastructuur ter wereld te creëren. Introl beheert implementaties die deze geografische voordelen benutten met behoud van wereldwijde connectiviteitsnormen.

De beschikbaarheid van water bepaalt in toenemende mate de locatie van de installatie. Vloeistofkoelsystemen verbruiken 0,1-0,2 liter per minuut per kW koelcapaciteit.¹⁶ Een installatie van 10MW heeft 1.000-2.000 liter per minuut nodig - genoeg om elke vijf uur een olympisch zwembad te vullen. Woestijnachtige locaties staan voor onmogelijke keuzes tussen inefficiëntie van luchtkoeling en waterschaarste. Vooruitstrevende organisaties evalueren nu waterrechten naast de beschikbaarheid van stroom bij het selecteren van datacenterlocaties.

Economische modellen sturen adoptiebeslissingen.

De business case voor infrastructuur met extreme dichtheid hangt af van de kenmerken van de werklast. AI-trainingsbelasting die wekenlang continu draait, rechtvaardigt elke investering die de efficiëntie verbetert. Een prestatieverbetering van 1% op een trainingsrun die een maand duurt, bespaart 7,2 uur rekentijd. Voor $40 per GPU-uur voor H100-instanties genereren ogenschijnlijk kleine optimalisaties een enorm rendement.¹⁷

Vergelijkingen van kapitaaluitgaven (CapEx) zijn in het voordeel van traditionele infrastructuur, maar operationele uitgaven (OpEx) vertellen een ander verhaal. Vloeistofkoeling verlaagt het stroomverbruik met 30-40% vergeleken met luchtkoeling.¹⁸ Een inzet van 1MW bespaart alleen al aan elektriciteitskosten jaarlijks 400.000-500.000 dollar.¹⁹ Verminderde mechanische slijtage verlengt de levensduur van apparatuur met 20-30%, waardoor vervangingskosten worden uitgesteld.²⁰ Hogere dichtheid maakt meer computing in bestaande faciliteiten mogelijk, waardoor nieuwbouwkosten van gemiddeld 10-15 miljoen dollar per megawatt worden vermeden.²¹

Total Cost of Ownership (TCO) modellen moeten rekening houden met opportuniteitskosten. Organisaties die geen infrastructuur met hoge dichtheid kunnen implementeren, verliezen een concurrentievoordeel ten opzichte van organisaties die dat wel kunnen. OpenAI's GPT trainingen zouden 10 keer langer duren zonder geoptimaliseerde infrastructuur.²² Het verschil tussen 40kW en 100kW per rack bepaalt of modellen in weken of maanden trainen. Marktleiderschap hangt steeds meer af van infrastructuurmogelijkheden die traditionele meetmethoden niet vastleggen.

Operationele complexiteit vereist nieuwe expertise.

Het beheren van infrastructuur met extreme dichtheid vereist vaardigheden die traditionele datacenter-teams missen. Vloeistofkoelsystemen vereisen loodgietersexpertise die zelden op IT-afdelingen te vinden is. Technici moeten vloeistofdynamica, drukverschillen en de chemie van koelvloeistoffen begrijpen. Eén verkeerde configuratie van een parameter kan een catastrofale storing veroorzaken: te veel druk kan verbindingen doen barsten, terwijl te weinig druk cavitatie in de pomp kan veroorzaken.

Introl vult de leemte in expertise aan door middel van gespecialiseerde trainingsprogramma's voor onze 550 buitendienstmonteurs. Teams leren koelvloeistofstromingsproblemen te diagnosticeren, preventief onderhoud uit te voeren op koeldistributie-units en te reageren op lekkage-incidenten. Certificeringsprogramma's behandelen fabrikant-specifieke vereisten voor verschillende koeltechnologieën. Regionale teams wisselen best practices uit via onze wereldwijde kennisbank, waardoor een consistente servicekwaliteit wordt gegarandeerd op alle 257 locaties.

Monitoringsystemen genereren 10 tot 100 keer meer gegevens dan traditionele infrastructuur. Elk rack produceert duizenden telemetriegegevens over temperatuur, druk, stroomsnelheid, stroomverbruik en de gezondheid van componenten. Machine learning-algoritmen identificeren patronen die storingen voorspellen voordat ze optreden. De operationele teams van Introl gebruiken voorspellende analyses om onderhoud in te plannen tijdens geplande uitvalvensters, waardoor 99,999% beschikbaarheid wordt bereikt voor kritieke AI-workloads.

Toekomstige technologieën verleggen de grenzen nog verder.

GPU's van de volgende generatie zullen nog extremere infrastructuur vereisen. NVIDIA's roadmap suggereert 1500-2.000W per GPU tegen 2027.²³ AMD's MI400 serie mikt op een vergelijkbaar stroomverbruik.²⁴ Cerebras wafer-scale engines verbruiken nu al 23kW in een enkele unit.²⁵ De infrastructuur van morgen moet dichtheden aankunnen die vandaag onmogelijk lijken.

Dompelkoeling in twee fasen komt naar voren als de ultieme oplossing voor extreme dichtheid. Diëlektrische vloeistoffen koken op precies gecontroleerde temperaturen, waardoor isothermische koeling ontstaat die de componenten op optimale werkingspunten houdt. De faseverandering van vloeistof naar damp absorbeert enorme hoeveelheden warmte, tot wel 250kW per rack.²⁶ Het Amerikaanse Ministerie van Energie financiert onderzoek naar tweefasige koeling voor exascale computersystemen.²⁷

Kleine modulaire reactoren (SMR's) zouden de beperkingen van het elektriciteitsnet kunnen opheffen. Hyperscalers onderzoeken of ze kernenergie bij datacenters kunnen plaatsen, zodat ze koolstofvrije elektriciteit kunnen leveren tegen voorspelbare kosten. Een enkele 300MW SMR zou 3.000 racks van 100kW van stroom kunnen voorzien - genoeg voor 24.000 GPU's.²⁸ Goedkeuring door de regelgevende instanties blijft een uitdaging, maar op voldoende grote schaal worden de economische voordelen aantrekkelijk.

De weg voorwaarts vereist onmiddellijke actie.

Organisaties die AI-infrastructuur bouwen, worden vandaag geconfronteerd met kritieke beslissingen die de concurrentiepositie voor het komende decennium bepalen. Het retrofitten van bestaande faciliteiten voor een 40kW dichtheid kost $50.000-$ 100.000 per rack.²⁹ Het bouwen van nieuwe 100kW-capabele infrastructuur kost $200.000-300.000 per rack, maar biedt ruimte voor toekomstige groei.³⁰ De verkeerde keuze vergrendelt organisaties in verouderde infrastructuur net op het moment dat AI workloads exploderen.

Succesvolle overgangen beginnen met een uitgebreide beoordeling. De technische teams van Introl evalueren de bestaande stroomcapaciteit, koelinfrastructuur, structurele ondersteuning en netwerkarchitectuur om optimale prestaties te garanderen. We identificeren knelpunten die de toename van dichtheid beperken en ontwikkelen gefaseerde upgradeplannen die verstoringen tot een minimum beperken. Onze wereldwijde aanwezigheid maakt een snelle inzet van gespecialiseerde apparatuur en expertise mogelijk overal waar klanten oplossingen voor extreme dichtheid nodig hebben.

De winnaars in AI-infrastructuur zijn degenen die extreme dichtheid omarmen in plaats van bestrijden. Elke maand uitstel betekent dat concurrenten modellen sneller trainen, functies sneller inzetten en markten als eerste veroveren. De vraag is niet of je een infrastructuur met hoge dichtheid moet implementeren, maar hoe snel organisaties hun faciliteiten kunnen transformeren om de rekenvereisten te ondersteunen die het concurrentievoordeel in het AI-tijdperk bepalen.

Referenties

  1. NVIDIA. "NVIDIA DGX GB200 NVL72 vloeistofgekoeld reksysteem." NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/

  2. Microsoft Azure. "Infrastructuurinnovaties voor AI-werklasten." Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/

  3. Google Cloud. "TPU v5p: Cloud TPU Pods voor grote taalmodellen." Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p

  4. ASHRAE. "Thermische eigenschappen van water versus lucht in datacentertoepassingen. ASHRAE Technisch Comité 9.9, 2024.

  5. Uptime Institute. "Global Data Center Survey 2024: PUE Trends." Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024

  6. Lawrence Berkeley National Laboratory. "Kosten-batenanalyse energie-efficiëntie datacenters." LBNL, 2023. https://datacenters.lbl.gov/resources

  7. Open Compute Project. "Analyse van de voordelen van DC stroomdistributie. OCP Foundation, 2023. https://www.opencompute.org/projects/dc-power

  8. ---. "Facebook Prineville Data Center Efficiency Report." Stichting OCP, 2023. https://www.opencompute.org/datacenter/prineville

  9. Schneider Electric. "Gids voor het gewicht en de vloerbelasting van rekken met hoge dichtheid. Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/

  10. Vertiv. "Richtlijnen voor het ontwerp van vloeistofkoeling voor AI-infrastructuur. Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/

  11. RSMeans. "Mechanische kostengegevens voor 2024: Piping Systems." Gordian RSMeans-gegevens, 2024.

  12. NVIDIA. "NVIDIA H100 Tensor Core GPU Architecture Whitepaper." NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet

  13. Intel. "Silicium fotonica: Doorbraak in datacenterconnectiviteit." Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html

  14. Infocomm Media Development Authority. "Singapore Data Center Roadmap 2024." IMDA Singapore, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap

  15. DigiPlex. "Datacenter Stockholm: Innovatie duurzame koeling." DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter

  16. ASHRAE. "Richtlijnen voor vloeistofkoeling in datacenters, 2e editie. ASHRAE Technisch Comité 9.9, 2024.

  17. Amazon Web Services. "EC2 P5 Instance Pricing." AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/

  18. Dell Technologies. "ROI-analyse directe vloeistofkoeling." Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm

  19. U.S. Energy Information Administration. "Commerciële elektriciteitstarieven per staat." EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php

  20. Submer. "Onderzoek naar de invloed van onderkoeling op de levensduur van hardware." Submer, 2023. https://submer.com/resources/hardware-longevity-study/

  21. JLL. "Data Center Construction Cost Guide 2024." Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs

  22. OpenAI. "GPT-4 Vereisten voor trainingsinfrastructuur." OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure

  23. NVIDIA. "Meerjarige GPU Roadmap Update." NVIDIA GTC 2024 Keynote, maart 2024.

  24. AMD. "Instinct MI400 Series vooraankondiging." AMD Investor Day, juni 2024.

  25. Cerebras. "CS-3 Wafer Scale Engine Specificaties." Cerebras Systems, 2024. https://www.cerebras.net/product-chip/

  26. 3M. "Novec Tweefasige dompelkoeling voor datacenters. 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/

  27. Amerikaans Ministerie van Energie. "Exascale Computing Project: Innovaties op het gebied van koeling." DOE Office of Science, 2024. https://www.exascaleproject.org/cooling-research/

  28. NuScale Power. "SMR-toepassingen voor datacenterstroom. NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers

  29. Gartner. "Kostenanalyse modernisering datacenters 2024." Gartner, Inc., 2024.

  30. ---. "Greenfield AI Datacenter Construction Economics." Gartner, Inc., 2024.

Vorige
Vorige

Google TPU v6e vs GPU: 4x betere AI-prestaties per dollar Gids

Volgende
Volgende

OpenAI-NVIDIA $100B Deal: 10 Gigawatt AI-infrastructuur