Lokale LLM Hardware Handleiding 2025: Prijzen en specificaties
Het landschap voor lokale LLM-implementatie in augustus 2025 biedt meerdere hardwarepaden, van consumenten-GPU's tot enterprise datacenteroplossingen, met dramatische prijsverschillen en prestatieafwegingen die een cruciale invloed hebben op beslissingen over de implementatie. De belangrijkste bevinding is dat dubbele RTX 5090-configuraties nu H100-prestaties evenaren voor 70B-modellen tegen 25% van de kosten, waardoor de rendabiliteit van lokale inzet fundamenteel verandert.
Consumentenhardware heeft een prestatiedrempel bereikt waarop serieuze productie-implementaties haalbaar zijn. Met 32 GB VRAM van de RTX 5090 kunnen gekwantiseerde 70B-modellen op één GPU worden uitgevoerd, terwijl de M3 Ultra van Apple met 512 GB verenigd geheugen zelfs 671B parametermodellen met kwantisatie aankan. Enterprise-opties zoals de B200 bieden superieure prestaties, maar hebben te maken met ernstige leveringsbeperkingen en een hoge prijs die de investering voor veel toepassingen mogelijk niet rechtvaardigt.
Apple Silicon specificaties transformeren grote model toegankelijkheid.
Prijzen en geheugenconfiguraties Mac Studio M3 Ultra
De Mac Studio M3 Ultra begint bij € 3.999 voor de basisconfiguratie met 28-core CPU en 96 GB unified geheugen. De cruciale 192-GB optie is niet direct beschikbaar. Gebruikers moeten de 256-GB configuratie kiezen voor 1.500 euro extra, wat het totaal op 5.499 euro brengt. De maximale 512 GB configuratie voegt 2.400 dollar toe aan de 256 GB optie, wat resulteert in een prijs van 9.499 dollar voor de configuratie met het meeste geheugen en 1 TB opslag. Een maximaal systeem met 512 GB RAM en 16 TB opslagruimte kost 14.099 dollar.
De 819 GB/s geheugenbandbreedte van de M3 Ultra blijkt cruciaal te zijn voor LLM-inferentie en presteert beter dan traditionele CPU+GPU-architecturen waarbij gegevens door PCIe-bussen moeten. De 32-core Neural Engine levert 38 biljoen bewerkingen per seconde, terwijl Thunderbolt 5 ondersteuning 120GB/s gegevensoverdracht mogelijk maakt voor mogelijke clusteringconfiguraties.
Mac Mini M4 clustering biedt budgetvriendelijke schaalbaarheid.
De Mac Mini M4 begint bij slechts € 599 voor de basisconfiguratie met 10 cores en 16 GB geheugen (uitbreidbaar tot 32 GB). De M4 Pro-variant van € 1.399 biedt 24 GB basisgeheugen, uitbreidbaar tot 64 GB, met 273 GB/s geheugenbandbreedte die de LLM-prestaties aanzienlijk verbetert. Tests in de echte wereld tonen aan dat een enkele M4 Pro met 64GB RAM Qwen 2.5 32B draait op 11-12 tokens/seconde, voldoende voor veel productiegebruiksgevallen.
Exo Labs demonstreerde effectieve clustering met 4 Mac Mini M4's ($599 per stuk) plus een MacBook Pro M4 Max, waarmee in totaal 496 GB unified memory werd bereikt voor minder dan $5.000. Deze opstelling draait Qwen 2.5 Coder-32B met 18 tokens/seconde en Nemotron-70B met acht tokens/seconde. Deze opstelling draait Qwen 2.5 Coder-32B met 18 tokens/seconde en Nemotron-70B met acht tokens/seconde. Enkele high-end Mac Studio's presteren echter meestal beter dan Mac Mini-clusters vanwege de superieure geheugenbandbreedte en de lagere communicatie-overhead tussen apparaten.
NVIDIA GPU prijzen weerspiegelen ernstige marktverstoringen
RTX 5090 vraagt enorme premies ondanks MSRP van $1.999
De RTX 5090 kost officieel $1.999 voor de Founders Edition, maar straatprijzen variëren van $2.500 tot $3.800 voor AIB-modellen. De ASUS ROG Astral wordt verkocht voor $2.799,99 wanneer beschikbaar, met aangepaste modellen die routinematig de $3.000 overschrijden. Het 32GB GDDR7 VRAM van de kaart met 1.792 GB/s bandbreedte maakt het mogelijk om 70B parametermodellen met kwantisatie uit te voeren op een enkele GPU.
Prestatiebenchmarks tonen aan dat de RTX 5090 5.841 tokens/seconde haalt op Qwen2.5-Coder-7B (batchgrootte 8), wat 2,6x de prestaties van een A100 80GB vertegenwoordigt. Voor 70B-modellen bereiken dubbele RTX 5090-configuraties een evaluatiesnelheid van 27 tokens/seconde, waarmee de H100-prestaties worden geëvenaard tegen een fractie van de kosten. De 575W TDP vereist 1200W+ voedingen en robuuste koeloplossingen.
GPU-prijzen voor bedrijven blijven stratosferisch.
De H200 GPU kost $40.000-$55.000 per eenheid via channelpartners, met cloudtarieven van $3,72-$10,60 per uur. Het 141 GB HBM3e geheugen en de 4,8 TB/s bandbreedte vertegenwoordigen 76% meer geheugen en 43% meer bandbreedte dan de H100. De nieuwere B200 kost 30.000 tot 35.000 dollar ondanks het feit dat deze 192 GB HBM3e en 8 TB/s bandbreedte biedt, hoewel de beschikbaarheid ernstig beperkt blijft met levertijden van 3 tot 6 maanden.
De B100, gepositioneerd als een drop-in H100-vervanger met 192 GB geheugen bij 700 W TDP, heeft een vergelijkbare prijs van $30.000-$35.000. Naar verluidt is alle Blackwell-productie tot 2025 uitverkocht en heeft TSMC de orders verhoogd van 40.000 naar 60.000 eenheden om aan de vraag te voldoen.
DGX-systemen bereiken prijsniveau van half miljoen dollar
Het DGX H200 systeem met 8 GPU's en 1.128 GB totaal geheugen kost $400.000-$500.000, terwijl de nieuwere DGX B200 $515.410 kost bij Broadberry. Het B200 systeem levert 72 PFLOPS FP8 training en 144 PFLOPS FP4 inferentie, wat neerkomt op 3x training en 15x inferentie verbetering ten opzichte van de DGX H100.
De GB200 Superchip, die twee B200 GPU's combineert met een Grace CPU, kost 60.000 tot 70.000 dollar per eenheid. Rek-schaal systemen zoals de GB200 NVL72 met 72 GPU's bereiken $3 miljoen, gericht op hyperscale implementaties.
De geheugenvereisten bepalen de strategieën voor hardwareselectie.
Ongequantiseerd modelgeheugen vraagt meer dan de meeste enkelvoudige systemen.
Voor het uitvoeren van 70B parametermodellen in FP16-precisie is ongeveer 148 GB VRAM nodig plus 20% overhead voor activeringen, in totaal 178 GB. Met 128K context voegt KV-cache nog eens 39 GB toe, waardoor de vereisten boven de 200 GB uitkomen. Hiervoor zijn meerdere GPU's (2× H100 80 GB of 4× A100 40 GB) of agressieve kwantisatie nodig.
405B parametermodellen vragen 810 GB voor het basismodel in FP16, met totale vereisten die in de buurt komen van 1 TB, inclusief overhead en KV cache. Deze modellen vereisen multi-node implementaties of FP8 kwantisatie op 8× H100 systemen. De 671B Nemotron en DeepSeek-R1 modellen hebben 1,3-1,4 TB nodig in FP16, waarvoor infrastructuur op datacenterschaal nodig is of agressieve kwantisatie tot 700 GB in FP8.
Kwantisering transformeert inzet economie.
GGUF-quantisering vermindert het geheugen met 4x met Q4_K_M met behoud van aanvaardbare kwaliteit voor de meeste use cases. Q5_K_M biedt een reductie van 3,2x met minimale degradatie. Deze indeling blinkt uit op CPU en Apple Silicon, waardoor het ideaal is voor edge-implementaties.
AWQ (Activation-aware Weight Quantization) levert 4x geheugenbesparing met beter kwaliteitsbehoud dan GPTQ en werkt vaak 2x sneller op GPU's. Het is met name effectief voor instructie-afgestemde modellen waarbij behoud van responskwaliteit van cruciaal belang is.
FP8-kwantisering op H100/H200/B200-hardware zorgt voor 2x geheugenreductie met minimaal kwaliteitsverlies, omdat veel nieuwere modellen van nature in FP8 worden getraind. Hierdoor kunnen 405B-modellen worden uitgevoerd op enkele 8-GPU nodes met behoud van bijna volledige precisieprestaties.
Deployment architecturen verschillen enorm per use case.
De klantenservice geeft prioriteit aan reactietijd boven modelgrootte.
Voor klantenservicetoepassingen die reacties van minder dan 2 seconden vereisen, biedt Llama 3.1 8B in FP16 op een enkele A10G of L4 GPU (16GB VRAM) optimale prijs-prestaties. Voor reacties van hogere kwaliteit levert Llama 3.1 70B met AWQ 4-bits kwantisatie op dubbele A100 80GB GPU's enterprise-grade prestaties bij 35GB per GPU-gebruik.
vLLM met tensorparallellisme en continue batching maximaliseert de verwerkingscapaciteit, terwijl pre-warming en agressief KV cachebeheer de first-token latency minimaliseren. De meeste succesvolle implementaties implementeren hybride routering, waarbij 70% van de query's naar kleinere modellen wordt gestuurd en grotere modellen worden gereserveerd voor complexe verzoeken.
Voor het genereren van code zijn uitgebreide contextvensters nodig.
Werklasten voor codegeneratie vereisen 32K-128K contextlengtes, waardoor de geheugenvereisten aanzienlijk hoger worden. Llama 3.1 70B in FP16 op 4× A100 80GB GPU's verwerkt volledige context met 40GB+ gereserveerd voor KV-cache. DeepSeek-Coder-modellen, expliciet getraind voor codetaken, presteren vaak beter dan grotere algemene modellen.
Single-node tensorparallellisme met snelle NVMe-opslag voor het laden van modellen blijkt het meest effectief. Veel teams melden succes met Mac Studio M3 Ultra-systemen voor ontwikkeling, waarbij 512 GB verenigd geheugen wordt gebruikt om te experimenteren met grotere modellen voordat ze in productie gaan.
Onderzoekstoepassingen vereisen maximale precisie.
Onderzoeksimplementaties geven prioriteit aan nauwkeurigheid boven kosten en draaien Llama 3.1 405B in FP8 op 8× H100-systemen of DeepSeek-R1 671B voor geavanceerde redeneertaken. In deze configuraties wordt agressieve kwantisatie vermeden om de reproduceerbaarheid en maximale modelcapaciteit te behouden.
Infrastructuurvereisten zijn onder andere multi-node setups met InfiniBand interconnecties en enterprise-grade koeling. Veel onderzoeksinstellingen vinden Apple M3 Ultra-systemen waardevol voor experimenten, omdat het 512 GB unified memory het mogelijk maakt om modellen te laden waarvoor elders meerdere GPU's nodig zouden zijn.
Het creëren van inhoud brengt creativiteit in evenwicht met consistentie.
Het genereren van inhoud maakt meestal gebruik van Llama 3.1 70B in FP16 voor evenwichtige creativiteit en consistentie, of Mixtral 8x7B met GPTQ 4-bit kwantisatie voor kosteneffectieve batchverwerking. Sampling bij hogere temperaturen en diverse prompt-engineering stimuleren creatieve outputs met behoud van de consistentie van de merkstem.
Planning van burst-capaciteit is essentieel omdat creatieve workflows vaak extreme gebruikspieken vertonen. Veel implementaties implementeren wachtrij-gebaseerde architecturen die kunnen schalen van 1 tot 10+ GPU's op basis van de vraag.
Total cost of ownership onthult verrassende break-even punten.
De aanschafkosten van hardware variëren enorm per klasse.
GPU's voor consumenten variëren van $1.600-$2.000 voor een RTX 4090 tot $2.000-$3.800 voor een RTX 5090, hoewel de verkrijgbaarheid problematisch blijft. GPU's voor grote ondernemingen kosten 25.000 tot 30.000 euro voor H100's en 30.000 tot 40.000 euro voor B200's. Apple M3 Ultra systemen met zinvolle geheugenconfiguraties kosten tussen de 7.000 en 10.000 dollar.
Cloud instances bieden onmiddellijke beschikbaarheid voor $0,89/uur voor RTX 5090, $1,90-$3,50/uur voor H100 en $4,00-$6,00/uur voor B200 systemen. De drastische prijsverlaging voor H100 van $8+/uur begin 2025 weerspiegelt de verbeterde beschikbaarheid en concurrentie.
De bedrijfskosten gaan verder dan alleen de hardware.
Het stroomverbruik varieert van 215 W voor Apple M3 Ultra systemen tot 1000 W voor B200 GPU's, met elektriciteitskosten van $0,10-$0,30/kWh. Koeling voegt 15-30% overhead toe, terwijl de netwerkinfrastructuur voor multi-GPU opstellingen 10Gbps+ connectiviteit vereist. De personeelskosten bedragen gemiddeld 135.000 dollar per jaar voor MLOps-engineers, waarbij compliance 5-15% extra kosten met zich meebrengt voor gereguleerde sectoren.
Het break-even punt voor self-hosting versus API-gebruik ligt meestal rond de 2 miljoen tokens per dag, waarbij een goed hardwaregebruik van meer dan 70% essentieel is voor kosteneffectiviteit. Een fintechbedrijf verlaagde de kosten met 83% door over te stappen van $47k/maand op GPT-4o Mini naar $8k/maand met een hybride Claude Haiku plus self-hosted 7B model aanpak.
Prestatiebenchmarks onthullen de sterke punten van het platform.
De nieuwste inferentiesnelheden zijn in het voordeel van nieuwere architecturen.
De RTX 5090 bereikt 5.841 tokens/seconde op Qwen2.5-Coder-7B, wat 72% verbetering ten opzichte van de RTX 4090 in NLP taken laat zien. Kleine modellen zoals Qwen2-0.5B bereiken een verbazingwekkende 65.000+ tokens/seconde, wat een enorme verwerkingscapaciteit mogelijk maakt voor eenvoudige taken.
B200 systemen leveren 15x inferentieverbetering ten opzichte van H100, terwijl H200 2x sneller is dankzij de grotere geheugenbandbreedte. Apple M3 Ultra haalt 76 tokens/seconde op LLaMA-3 8B Q4_K_M en de aankomende M4 Max zal naar verwachting 96-100 tokens/seconde halen.
De keuze van het raamwerk heeft een grote invloed op de prestaties.
vLLM 0.6.0 levert een 2,7x betere doorvoer en een 5x lagere latentie in vergelijking met eerdere versies en bereikt 2.300-2.500 tokens/seconde voor Llama 8B op H100. De PagedAttention vermindert geheugenfragmentatie met 60-80%, wat cruciaal is voor productie-implementaties.
Llama.cpp levert 93,6-100,2% van de vLLM prestaties voor enkelvoudige verzoeken en biedt superieure CPU en Apple Silicon optimalisatie. De uitgebreide kwantiseringsopties en lagere geheugenoverhead maken het ideaal voor randimplementaties.
De energie-efficiëntie verbetert dramatisch.
Moderne H100-systemen met vLLM bereiken 0,39 joule per token voor Llama-3.3-70B FP8, wat 120x betere efficiëntie is dan de ChatGPT-schattingen die vaak worden genoemd. De RTX 5090 verbruikt 28% meer stroom dan de RTX 4090, maar levert 72% betere prestaties, waardoor de algehele efficiëntie aanzienlijk is verbeterd.
FP8- en FP4-kwantisering verminderen het energieverbruik met 30-50% met behoud van een aanvaardbare kwaliteit. Softwareoptimalisaties via vLLM en TensorRT-LLM zorgen voor extra efficiëntiewinst, waarbij sommige implementaties een verbetering van 10x ten opzichte van 2023 basislijnen rapporteren.
Inzet van meerdere knooppunten maakt uitvoering van frontiermodellen mogelijk.
Hardwarevereisten schalen exponentieel met de grootte van het model.
Enkele GPU's kunnen modellen met minder dan 80 GB VRAM effectief aan. Single-node multi-GPU configuraties met 2-8 GPU's verbonden via NVLink werken goed tot 640GB totaal VRAM (8× H100 limiet). Boven deze drempel worden multi-node implementaties noodzakelijk, wat aanzienlijke complexiteit en communicatieoverhead met zich meebrengt.
Voor 70B-modellen kunnen 4 Mac Mini's M4 via clustering voldoende geheugen bieden, hoewel een enkele Mac Studio M3 Ultra doorgaans betere prestaties levert. De 405B-modellen vereisen altijd gedistribueerde inzet in FP16, terwijl de 671B-modellen een infrastructuur op datacenterschaal vereisen, tenzij ze agressief worden gekwantiseerd.
Parallellisatiestrategieën optimaliseren verschillende scenario's.
Tensorparallellisme verdeelt elke laag over meerdere GPU's, wat zorgt voor een lage latentie door parallelle berekeningen. Deze aanpak blinkt uit op enkele knooppunten waar interconnecties met hoge bandbreedte zoals NVLink de communicatie-overhead minimaliseren. Configureer met tensor_parallel_size gelijk aan GPU's per node voor optimale prestaties.
Pijplijnparallellisme verdeelt aaneengesloten lagen over knooppunten, waardoor er minder communicatie tussen knooppunten nodig is. Hoewel dit pipeline bubbles introduceert die de efficiëntie in autoregressieve inferentie verminderen, maakt het schalen over langzamere interconnecties mogelijk en ondersteunt het ongelijke GPU-geheugenconfiguraties.
De hybride aanpak van vLLM maakt gebruik van tensorparallellisme binnen knooppunten en pijplijnparallellisme tussen knooppunten, waardoor zowel de lokale bandbreedte als de efficiëntie tussen knooppunten wordt gemaximaliseerd.
Praktische aanbevelingen voor onmiddellijke toepassing
Voor organisaties die dagelijks minder dan 1 miljoen tokens verwerken, raad ik aan om bij API-providers te blijven en de groei van het gebruik in de gaten te houden. De complexiteit en kapitaalvereisten van zelf hosten rechtvaardigen de bescheiden besparingen op deze schaal niet.
Teams die dagelijks 1-10 miljoen tokens verwerken, zouden een enkele RTX 4090 of RTX 5090 met gekwantiseerde modellen moeten overwegen. Deze sweet spot balanceert kapitaalinvestering met operationele besparingen, waarbij de ROI meestal binnen 6-12 maanden wordt gerealiseerd.
Ondernemingen die dagelijks meer dan 10 miljoen tokens verwerken, profiteren van dubbele RTX 5090-opstellingen of H100 cloud-instanties met gereserveerde capaciteit. Implementeer hybride routeringsstrategieën waarbij eenvoudige query's naar kleinere modellen worden gestuurd terwijl grotere modellen worden gereserveerd voor complexe verzoeken, waardoor de kosten met 10-30% worden verlaagd.
Organisaties met compliance-eisen zouden de voorkeur moeten geven aan on-premises H100/H200 implementaties ondanks de premie, omdat de controle- en auditmogelijkheden de extra kostenfactor van 15% overhead voor compliance-gerelateerde infrastructuur en processen rechtvaardigen.
Onderzoeksteams en ontwikkelaars profiteren het meest van Apple M3 Ultra-systemen met 512 GB RAM, zodat ze kunnen experimenteren met modellen waarvoor anders dure multi-GPU-opstellingen nodig zouden zijn. Hoewel de inferentiesnelheden achterblijven bij die van NVIDIA, biedt de uniforme geheugenarchitectuur unieke voordelen voor het ontwikkelen en testen van modellen.
Referenties
Documentatie kernmodel
DeepSeek AI. "Technisch rapport DeepSeek-V3." arXiv preprint, december 2024. https://arxiv.org/html/2412.19437v1.
Meta. "De Llama 4-kudde: Het begin van een nieuw tijdperk van native multimodale AI-innovatie." Meta AI Blog, april 2025. https://ai.meta.com/blog/llama-4-multimodal-intelligence/.
Google-ontwikkelaars. "Introductie van Gemma 3: de gids voor ontwikkelaars." Google Developers Blog, 2025. https://developers.googleblog.com/en/introducing-gemma3/.
Alibaba Cloud. "Qwen3: Denk dieper, handel sneller." Qwen (blog). Geraadpleegd op 13 augustus 2025. https://qwenlm.github.io/blog/qwen3/.
Hardware en infrastructuur
NVIDIA. "DGX H200." NVIDIA Data Center. Geraadpleegd op 13 augustus 2025. https://www.nvidia.com/en-us/data-center/dgx-h200/.
NVIDIA-ontwikkelaar. "NVIDIA Blackwell Platform vestigt nieuwe records voor LLM-inferentie in MLPerf-inferentie v4.1." NVIDIA Technisch Blog, 2025. https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/.
Creatieve strategieën. "Apple Mac Studio met M3 Ultra Review: Het ultieme werkstation voor AI-ontwikkelaars." Creative Strategies, 2025. https://creativestrategies.com/mac-studio-m3-ultra-ai-workstation-review/.
Kaders bedienen
vLLM. "vLLM V1: Een belangrijke upgrade van de kernarchitectuur van vLLM." vLLM Blog, 27 januari 2025. https://blog.vllm.ai/2025/01/27/v1-alpha-release.html.
NVIDIA. "TensorRT-LLM." GitHub-repository. GitHub, 2025. https://github.com/NVIDIA/TensorRT-LLM.
Knuffelgezicht. "Introductie van Multi-Backends (TRT-LLM, vLLM) Ondersteuning voor Tekstgeneratie-inferentie." Hugging Face Blog, 2025. https://huggingface.co/blog/tgi-multi-backend.
Marktanalyse en casestudies
Menlo Ventures. "2025 Mid-Year LLM Market Update: Stichting Model Landschap + Economie." Menlo Ventures, 2025. https://menlovc.com/perspective/2025-mid-year-llm-market-update/.
ZenML. "LLMOps in productie: 457 Case Studies van wat echt werkt." ZenML Blog, 2025. https://www.zenml.io/blog/llmops-in-production-457-case-studies-of-what-actually-works.
Implementatie Gidsen
Red Hat. "Deployment-Ready Reasoning met gekwantiseerde DeepSeek-R1-modellen." Red Hat Developer, maart 2025. https://developers.redhat.com/articles/2025/03/03/deployment-ready-reasoning-quantized-deepseek-r1-models.
Yermagambet, Rasul. "Het monitoren van Multi-Node Clusters voor LLM Training met Prometheus en Grafana." Medium, 2025. https://medium.com/@rasul.yermagambet/monitoring-multi-node-clusters-for-llm-training-with-prometheus-and-grafana-bea82da7f1db.
De nieuwe stapel. "Inleiding tot vLLM: een LLM Serving Engine met hoge prestaties." The New Stack, 2025. https://thenewstack.io/introduction-to-vllm-a-high-performance-llm-serving-engine/.