Eigener GPU Server statt Cloud: Wann lohnt sich Colocation?

Cloud-GPUs fressen Budgets. Wer regelmäßig KI-Modelle trainiert oder betreibt, zahlt schnell vierstellige Monatsbeträge an Hyperscaler wie AWS oder Azure. Die Alternative: ein eigener GPU Server im Colocation-Rechenzentrum. Doch lohnt sich die Investition? 86 Prozent der Mittelständler erkennen die strategische Bedeutung von KI, aber nur 23 Prozent haben konkrete Projekte umgesetzt. Ein Hauptgrund für diese Lücke sind die explodierenden Cloud-Kosten für GPU-Rechenleistung.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

Ab 3.000 Euro monatlichen Cloud-GPU-Kosten rechnet sich eigene Hardware, der Break-Even liegt bei etwa 15 Monaten
Der deutsche Colocation-Markt wächst bis 2030 auf 5,36 Milliarden Dollar, Frankfurt kontrolliert knapp 60 Prozent
Neue Rechenzentren müssen ab Juli 2026 einen PUE-Wert von maximal 1,2 erreichen, was Flüssigkeitskühlung quasi verpflichtend macht
GPU-Rack-Dichten steigen auf 30 bis 100 kW pro Rack, das Fünffache klassischer Enterprise-Installationen

Ab 3.000 Euro monatlichen Cloud-Kosten verschiebt sich die Wirtschaftlichkeit zugunsten eigener Infrastruktur.

Warum werden Cloud-GPUs für den Mittelstand zum Kostenrisiko?

Die Rechnung ist schnell gemacht: Eine NVIDIA H100 kostet bei den großen Hyperscalern zwischen 3 und 7 Euro pro Stunde. Wer einen GPU-Cluster rund um die Uhr für KI-Training nutzt, zahlt monatlich 2.000 bis 5.000 Euro pro Grafikkarte. Bei typischen Projekten mit vier oder acht GPUs summiert sich das auf fünfstellige Beträge.

Spezialisierte Anbieter wie RunPod, Vast.ai oder DataCrunch unterbieten die Hyperscaler zwar deutlich, doch selbst bei günstigeren Anbietern bleibt das Grundproblem: Die Kosten skalieren linear mit der Nutzung. Je erfolgreicher ein KI-Projekt wird, desto teurer wird es.

Hinzu kommt die Datensouveränität. Sensible Unternehmensdaten in US-amerikanische Clouds zu schieben, ist für viele Mittelständler keine Option. Die DSGVO-Compliance lässt sich zwar auch bei Cloud-Anbietern sicherstellen, doch der Aufwand ist erheblich. Wer einen eigenen GPU Server im deutschen Rechenzentrum betreibt, behält die volle Kontrolle über seine Daten.

Wann rechnet sich der Umstieg auf eigene GPU-Hardware?

Die Faustregel lautet: Ab 100 Stunden GPU-Zeit pro Monat oder 3.000 Euro Cloud-Kosten wird eigene Infrastruktur wirtschaftlich interessant. Ein konkretes Rechenbeispiel verdeutlicht das:

Kostenfaktor	Cloud (4x A100)	Eigener Server
Monatliche Kosten	8.000 €	600 € (Strom + Support)
Anschaffung (CAPEX)	0 €	120.000 €
Break-Even	–	15 Monate
Kosten nach 3 Jahren	288.000 €	141.600 €

Der Unterschied wird noch deutlicher bei intensiver Nutzung. Ab dem 16. Monat fallen nur noch laufende Kosten für Strom, Colocation-Gebühren und Support an. Die Ersparnis gegenüber der Cloud beträgt dann 60 Prozent und mehr.

Allerdings gilt diese Rechnung nur bei hoher Auslastung. Wer GPUs nur sporadisch nutzt, fährt mit der Cloud günstiger. Die kritische Schwelle liegt bei etwa 60 bis 70 Prozent Durchschnittsauslastung. Darunter überwiegen die Vorteile der Cloud-Flexibilität.

Was kostet GPU-Hardware aktuell?

Die Preise für High-End-GPUs sind in den vergangenen zwei Jahren relativ stabil geblieben, obwohl die Nachfrage explodiert ist. NVIDIA kontrolliert den Markt für KI-Beschleuniger mit einem Marktanteil von über 80 Prozent.

GPU-Modell	Preis pro Karte	VRAM	Einsatzgebiet
NVIDIA H100 (PCIe)	25.000–30.000 €	80 GB	LLM-Training, Forschung
NVIDIA H100 (SXM)	35.000–40.000 €	80 GB	Multi-GPU-Cluster
NVIDIA A100 (80 GB)	15.000–17.000 €	80 GB	Production Workloads
NVIDIA RTX 6000 Ada	6.000–8.000 €	48 GB	Inferenz, Rendering
RTX 4090 (Consumer)	1.800–2.200 €	24 GB	Prototyping, kleine Modelle

Ein vollständiges 8-GPU-System mit H100-Karten kostet zwischen 300.000 und 500.000 Euro inklusive Server-Chassis, Netzwerk und Speicher. Die Lieferzeiten haben sich entspannt: A100-Karten sind in zwei bis vier Wochen verfügbar, H100 in vier bis acht Wochen.

Für den Mittelstand interessant: Die Blackwell-Generation (B200, B300) bringt nochmals deutlich mehr Leistung, allerdings auch höhere Anforderungen an Kühlung und Stromversorgung. Wer jetzt investiert, sollte die Infrastruktur zukunftssicher planen.

Welche Colocation-Optionen gibt es für GPU-Server?

Colocation bedeutet: Sie kaufen die Hardware, der Rechenzentrumsbetreiber stellt Stellplatz, Strom, Kühlung und Netzwerkanbindung. Die monatlichen Kosten setzen sich aus mehreren Komponenten zusammen.

Typische Colocation-Kosten in Deutschland:

Leistung	Kosten pro Monat
Rack-Stellplatz (42 HE)	500–1.000 €
Strom (10 kW)	1.500–2.000 €
Bandbreite (1 Gbit/s)	200–500 €
Remote Hands	50–100 €/Stunde

Die Gesamtkosten für ein GPU-Rack mit 10 kW Leistungsaufnahme liegen damit bei 2.500 bis 4.000 Euro monatlich. Zum Vergleich: Ein einzelnes H100-System benötigt etwa 10 kW, ein 8-GPU-Cluster kann auf 15 kW und mehr kommen.

Wichtig ist die Unterscheidung zwischen Retail-Colocation (einzelne Racks, flexible Vertragslaufzeiten) und Wholesale-Colocation (ganze Hallen, langfristige Verträge). Für den Mittelstand ist Retail-Colocation der übliche Einstieg.

Warum ist Frankfurt der wichtigste Standort für GPU-Colocation?

Frankfurt dominiert den deutschen Rechenzentrumsmarkt mit knapp 60 Prozent Marktanteil. Die Stadt verfügt über eine IT-Last von 745 Megawatt, weitere 542 MW befinden sich im Bau. Die Gründe für diese Konzentration sind historisch gewachsen:

DE-CIX: Der weltweit größte Internetknoten sitzt in Frankfurt
Finanzsektor: Banken und Börsen benötigen niedrigste Latenzen
Konnektivität: Direktverbindungen zu allen großen Cloud-Anbietern
Fachkräfte: Konzentration von IT-Expertise in der Region

Für GPU-Workloads, die keine Millisekunden-Latenzen benötigen, sind alternative Standorte wirtschaftlich interessanter. Berlin (92 MW IT-Last, 76 MW im Bau) und das Rheinland profitieren von niedrigeren Stromkosten und besserer Verfügbarkeit. Microsoft investiert beispielsweise 3,2 Milliarden Euro in neue Rechenzentren in Bergheim und Bedburg.

Was versteht man eigentlich unter Colocation?

Watch this video on YouTube

Was ist Colocation? Das Video erklärt das Grundprinzip: Eigene Hardware wie ein GPU Server im professionellen Rechenzentrum betreiben, ohne selbst Infrastruktur aufbauen zu müssen.

Welche technischen Anforderungen stellen GPU-Server?

Die größte Herausforderung bei GPU-Colocation ist die Wärmeabfuhr. Klassische Rechenzentren sind für 5 bis 10 kW pro Rack ausgelegt. GPU-Server mit H100-Karten benötigen jedoch 30 bis 100 kW pro Rack. Das übersteigt die Kapazitäten der meisten Bestandsanlagen.

Die Konsequenz: Für GPU-intensive Workloads wird Flüssigkeitskühlung quasi obligatorisch. Ab einer Leistungsdichte von 20 bis 25 kW pro Rack ist Luftkühlung zwar noch möglich, aber unwirtschaftlich. Flüssigkeitskühlung ist bis zu 70 Prozent energiesparender und ermöglicht deutlich höhere Rack-Dichten.

Kühlungsvarianten im Überblick:

Technologie	Leistungsdichte	Vorteile	Nachteile
Luftkühlung	bis 15 kW	Einfache Installation	Hoher Energieverbrauch
Direct-to-Chip (D2C)	bis 100 kW	Nachrüstbar, effizient	Wartungsintensiver
Immersion Cooling	bis 250 kW	Maximale Effizienz	Hohe Investition
Rear-Door Heat Exchanger	bis 40 kW	Hybride Lösung	Begrenzte Kapazität

Für die meisten Mittelständler ist Direct-to-Chip-Kühlung der pragmatische Einstieg. Dabei werden Kühlplatten direkt auf CPUs und GPUs montiert, die Wärme wird über Flüssigkeitskreisläufe abgeführt. Bis zu 80 Prozent der Abwärme lassen sich so effizient ableiten, während die Restkomponenten weiterhin luftgekühlt werden.

NVIDIA hat seine Blackwell-Architektur explizit für Flüssigkeitskühlung konzipiert. Bis 2025 werden schätzungsweise 85 Prozent der neu ausgelieferten NVIDIA-Chips für Flüssigkeitskühlung optimiert sein.

Lesetipps

Was bedeutet das Energieeffizienzgesetz für GPU-Rechenzentren?

Inside the World's Largest AI Supercluster xAI Colossus

Watch this video on YouTube

Was passiert, wenn man 100.000 GPUs in einer Halle zusammenschaltet? Das Video zeigt einen Blick in xAI Colossus, den aktuell größten KI-Supercomputer der Welt. Die Supermicro-Systeme im Inneren sind dieselbe Technologie, die auch in deutlich kleineren GPU-Server-Setups für den Mittelstand zum Einsatz kommt.

Das Energieeffizienzgesetz (EnEfG) setzt deutschen Rechenzentren enge Grenzen. Ab Juli 2026 gelten für Neubauten verschärfte Anforderungen, die direkte Auswirkungen auf GPU-Colocation haben.

Die wichtigsten Vorgaben:

PUE-Wert ≤ 1,2 für neue Rechenzentren ab Juli 2026
Abwärmenutzung: Mindestens 10 Prozent (2026), steigend auf 20 Prozent (2028)
100 Prozent Grünstrom ab 2027 verpflichtend
Energie-Managementsystem (ISO 50001) ab 1 MW Anschlussleistung

Der durchschnittliche PUE-Wert deutscher Rechenzentren liegt aktuell bei etwa 1,55. Ein PUE von 1,2 bedeutet, dass nur 20 Prozent der Energie für Kühlung, Stromversorgung und Infrastruktur aufgewendet werden dürfen. Mit klassischer Luftkühlung ist das bei GPU-Clustern praktisch nicht erreichbar.

Für Unternehmen, die jetzt GPU-Colocation planen, hat das konkrete Konsequenzen: Wählen Sie einen Anbieter, der bereits auf Flüssigkeitskühlung setzt oder diese zeitnah einführt. Ältere Rechenzentren mit PUE-Werten über 1,5 werden in den kommenden Jahren unter erheblichen Modernisierungsdruck geraten.

Welche Alternativen gibt es zur klassischen Colocation?

Neben der reinen Colocation (eigene Hardware im fremden Rechenzentrum) existieren Mischmodelle, die für verschiedene Szenarien sinnvoll sind:

1. GPU-as-a-Service (GPUaaS) Spezialisierte Anbieter stellen dedizierte GPU-Server bereit, die Sie monatlich mieten. Sie haben exklusiven Zugriff auf die Hardware, ohne Anschaffungskosten. Die Preise liegen zwischen Cloud und Colocation.

2. Hybrid-Modelle Kombinieren Sie eigene GPU-Server für Basislasten mit Cloud-Kapazitäten für Spitzen. Die permanente Last läuft auf eigener Hardware, temporäre Peaks werden in die Cloud ausgelagert.

3. Managed GPU-Hosting Der Anbieter übernimmt neben der Infrastruktur auch Administration, Monitoring und Support. Ideal für Unternehmen ohne eigenes Datacenter-Know-how.

Entscheidungsmatrix:

Modell	Für wen geeignet	Typische Kosten
Cloud (Hyperscaler)	Sporadische Nutzung, Experimente	3–7 €/GPU-Stunde
Cloud (Spezialanbieter)	Regelmäßige Nutzung, Kostenbewusstsein	1,5–3 €/GPU-Stunde
GPU-as-a-Service	Kontinuierliche Last, kein CAPEX	1.500–3.000 €/Monat
Colocation	Hohe Auslastung, Datensouveränität	2.500–4.000 €/Monat + CAPEX

Wie starte ich mit GPU-Colocation?

Der Weg zur eigenen GPU-Infrastruktur im Rechenzentrum folgt einem strukturierten Prozess. Planen Sie etwa fünf bis acht Wochen von der Entscheidung bis zum produktiven Betrieb ein.

Phase 1: Bedarfsanalyse (Woche 1–2)
Ermitteln Sie Ihre tatsächlichen GPU-Anforderungen. Wie viele Stunden pro Monat werden GPUs genutzt? Welche Modelle benötigen Sie? Wie entwickelt sich der Bedarf in den nächsten drei Jahren?

Phase 2: Architektur und ROI (Woche 2–3)
Erstellen Sie eine detaillierte Kostenrechnung: Cloud-TCO versus eigene Infrastruktur über drei Jahre. Berücksichtigen Sie dabei nicht nur Hardware, sondern auch Stromkosten, Colocation-Gebühren und internen Administrationsaufwand.

Phase 3: Hardware-Beschaffung (Woche 3–6)
Die Lieferzeiten für GPU-Server variieren stark. A100-Systeme sind in zwei bis vier Wochen verfügbar, H100-Cluster benötigen vier bis acht Wochen. Bestellen Sie frühzeitig und nutzen Sie die Wartezeit für die Colocation-Verhandlungen.

Phase 4: Setup und Inbetriebnahme (Woche 6–8)
Rackeinbau, Verkabelung, Stromlasttest, Software-Installation. Bei Flüssigkeitskühlung kommen zusätzliche Schritte hinzu. Planen Sie ausreichend Zeit für Benchmarks und Tests ein, bevor Sie produktive Workloads migrieren.

Welche Fehler sollten Sie vermeiden?

Die häufigsten Stolpersteine bei GPU-Colocation lassen sich mit sorgfältiger Planung umgehen:

Unterschätzte Stromkosten
Eine H100-GPU verbraucht 700 Watt unter Last. Ein 8-GPU-System mit CPU, Speicher und Netzwerk kommt auf 10 bis 15 kW. Bei deutschen Industriestrompreisen von 15 bis 20 Cent pro kWh summiert sich das auf 1.100 bis 2.200 Euro monatlich allein für Strom.

Fehlende Kühlung
Viele Colocation-Anbieter können GPU-Dichten über 15 kW pro Rack nicht bedienen. Klären Sie vor Vertragsabschluss die maximale Leistungsdichte und die verfügbaren Kühloptionen.

Direct-to-Chip-Kühlung führt bis zu 80 Prozent der GPU-Abwärme über Flüssigkeitskreisläufe ab.

Unrealistische Auslastungserwartungen
Die Break-Even-Rechnung funktioniert nur bei hoher Auslastung. Wenn Ihre GPUs 50 Prozent der Zeit idle sind, hätte die Cloud günstiger sein können.

Vernachlässigter Support
GPU-Server sind komplex. Ohne internes Know-how benötigen Sie einen Dienstleister für Administration, Monitoring und Troubleshooting. Diese Kosten gehören in die TCO-Rechnung.

FAQ

Die wichtigsten Fragen zu GPU-Colocation, Kosten und regulatorischen Anforderungen kompakt beantwortet.

Ab welchen monatlichen Cloud-Kosten lohnt sich eigene GPU-Hardware?

Die wirtschaftliche Schwelle liegt bei etwa 3.000 Euro monatlichen Cloud-Kosten für GPU-Rechenleistung. Ab diesem Punkt amortisiert sich eigene Hardware typischerweise innerhalb von 12 bis 18 Monaten. Entscheidend ist allerdings die Auslastung: Nur bei kontinuierlicher Nutzung von mindestens 60 bis 70 Prozent rechnet sich die Investition. Bei sporadischen Workloads bleibt die Cloud-Flexibilität die bessere Wahl.

Welche GPU-Modelle eignen sich für welche KI-Anwendungen?

Für LLM-Training und Forschung sind NVIDIA H100 oder H200 mit 80 GB VRAM die erste Wahl. Produktive Inferenz-Workloads laufen effizient auf A100-Karten, die ein besseres Preis-Leistungs-Verhältnis bieten. Für Prototyping und kleinere Modelle unter 13 Milliarden Parametern reichen RTX 4090-Karten aus, die allerdings keinen Enterprise-Support und keine ECC-Speicher bieten.

Was kostet Colocation für GPU Server in Deutschland?

Die monatlichen Colocation-Kosten für ein GPU-Rack setzen sich aus Stellplatz (500 bis 1.000 Euro), Stromkosten (1.500 bis 2.000 Euro bei 10 kW) und Bandbreite (200 bis 500 Euro) zusammen. Für ein typisches GPU-Setup sollten Sie mit 2.500 bis 4.000 Euro monatlich rechnen. In Frankfurt liegen die Preise am oberen Ende, in Berlin und dem Rheinland etwa 15 bis 20 Prozent darunter.

Warum ist Flüssigkeitskühlung für GPU Server wichtig?

GPU-Server erzeugen extreme Wärmelasten von 30 bis 100 kW pro Rack, das Fünffache klassischer Server-Installationen. Luftkühlung stößt bei diesen Dichten an physikalische Grenzen und wird unwirtschaftlich. Flüssigkeitskühlung ist bis zu 70 Prozent energiesparender und ermöglicht die Einhaltung der ab 2026 geltenden PUE-Grenzwerte von 1,2. Zudem hat NVIDIA seine Blackwell-Architektur explizit für Flüssigkeitskühlung konzipiert.

Welche regulatorischen Anforderungen gelten für Rechenzentren ab 2026?

Das Energieeffizienzgesetz schreibt für neue Rechenzentren ab Juli 2026 einen PUE-Wert von maximal 1,2 vor. Zusätzlich müssen mindestens 10 Prozent der Abwärme genutzt werden, dieser Anteil steigt bis 2028 auf 20 Prozent. Ab 2027 ist der Strombezug zu 100 Prozent aus erneuerbaren Energien verpflichtend. Rechenzentren ab 1 MW Anschlussleistung benötigen ein zertifiziertes Energiemanagementsystem nach ISO 50001.

Wie lange dauert der Aufbau einer GPU-Colocation-Infrastruktur?

Von der Entscheidung bis zum produktiven Betrieb sollten Sie fünf bis acht Wochen einplanen. Die Hardware-Lieferzeiten betragen für A100-Systeme zwei bis vier Wochen, für H100-Cluster vier bis acht Wochen. Hinzu kommen jeweils ein bis zwei Wochen für Colocation-Vertragsverhandlungen sowie für Rackeinbau, Verkabelung, Software-Installation und Tests.

Quellen

Mordor Intelligence – Germany Data Center Market Size & Share Analysis – https://www.mordorintelligence.com/industry-reports/germany-data-center-market – besucht am 14.01.2026

ResearchAndMarkets – Germany Data Center Colocation Market Supply & Demand Analysis 2025-2030 – https://www.globenewswire.com/de/news-release/2025/12/04/3199569/0/en/Germany-Data-Center-Colocation-Market-Supply-amp-Demand-Analysis-Report-2025-A-5-36-Billion-Industry-by-2030-with-Frankfurt-Leading-the-Charge-in-Data-Center-Operations.html – besucht am 14.01.2026

Ab welchen monatlichen Cloud-Kosten lohnt sich eigene GPU-Hardware?

Welche GPU-Modelle eignen sich für welche KI-Anwendungen?

Was kostet Colocation für GPU Server in Deutschland?

Warum ist Flüssigkeitskühlung für GPU Server wichtig?

Welche regulatorischen Anforderungen gelten für Rechenzentren ab 2026?

Wie lange dauert der Aufbau einer GPU-Colocation-Infrastruktur?

Was kann das Webhosting von Cloud86?

Vom Discounter zum Cloud-Anbieter: Wie Schwarz Digits AWS und Azure angreift

Europas Firmenwebsites laufen überwiegend über US-Anbieter

Spitzen-KI-Modelle lokal betreiben: Was ein Praxisleitfaden für eigene Hardware empfiehlt

Postgres-Daten als Parquet auf S3: Die LTAP-Architektur erklärt

Eigener GPU Server statt Cloud: Wann lohnt sich Colocation?

Das Wichtigste in Kürze

Warum werden Cloud-GPUs für den Mittelstand zum Kostenrisiko?

Wann rechnet sich der Umstieg auf eigene GPU-Hardware?

Was kostet GPU-Hardware aktuell?

Welche Colocation-Optionen gibt es für GPU-Server?

Warum ist Frankfurt der wichtigste Standort für GPU-Colocation?

Welche technischen Anforderungen stellen GPU-Server?

Lesetipps

Was bedeutet das Energieeffizienzgesetz für GPU-Rechenzentren?

Welche Alternativen gibt es zur klassischen Colocation?

Wie starte ich mit GPU-Colocation?

Welche Fehler sollten Sie vermeiden?

FAQ

Ab welchen monatlichen Cloud-Kosten lohnt sich eigene GPU-Hardware?

Welche GPU-Modelle eignen sich für welche KI-Anwendungen?

Was kostet Colocation für GPU Server in Deutschland?

Warum ist Flüssigkeitskühlung für GPU Server wichtig?

Welche regulatorischen Anforderungen gelten für Rechenzentren ab 2026?

Wie lange dauert der Aufbau einer GPU-Colocation-Infrastruktur?

Quellen

Schreiben Sie einen Kommentar Antwort abbrechen

Was kann das Webhosting von Cloud86?

Vom Discounter zum Cloud-Anbieter: Wie Schwarz Digits AWS und Azure angreift

Europas Firmenwebsites laufen überwiegend über US-Anbieter

Spitzen-KI-Modelle lokal betreiben: Was ein Praxisleitfaden für eigene Hardware empfiehlt

Postgres-Daten als Parquet auf S3: Die LTAP-Architektur erklärt

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.