GPU-Benchmark-Vergleich für KI

Vergleichen Sie die reale Leistung unserer GPU-Flotte für KI-Workloads. Alle Benchmarks werden automatisch von laufenden Servern erfasst.

Leistung:
langsamer Schneller
Farben sind relativ innerhalb jeder Benchmark-Zeile
Benchmark-Typen:
vLLM Hochdurchsatz-Benchmark - misst die Inferenz mit bis zu 64 gleichzeitigen Anfragen (variiert je nach GPU-Modell und VRAM). Am besten geeignet für API-Server und Produktionsumgebungen.
Ollama Einzelbenutzer-Benchmark – misst die Inferenzgeschwindigkeit für eine Anfrage nach der anderen. Am besten geeignet für lokale/persönliche Nutzung.
IMG Benchmark zur Bildgenerierung – misst die Leistung von Stable Diffusion, SDXL, Flux und SD3.5 (Bilder/Minute oder Sekunden/Bild).
VIS Vision AI Benchmark – misst das Verständnis von Bildern durch VLMs (Bilder/min) und die OCR-Dokumentenverarbeitung (Seiten/min) mit 16–64 gleichzeitigen Anfragen.
CPU CPU-Leistung – misst die Single-Core- und Multi-Core-Operationen pro Sekunde für die Vorverarbeitung und Tokenisierung.
NVME Speichergeschwindigkeit – misst die Lese- und Schreibgeschwindigkeiten von NVMe (MB/s) zum Laden von Datensätzen und für Modell-Checkpoints.
📊
TAIFlops = Realer KI-Performance-Index (RTX 3090 = 100 Basislinie)
Berechnet aus realen Produktions-LLM-, Vision- und Bild-Workloads unter Verwendung des geometrischen Mittelwerts.
Loading...

Laden der Benchmark-Daten...


Alle Vergleiche

Vergleichen Sie diese GPUs einzeln:


Wie wir die GPU-Leistung bewerten

GPU Server Benchmarking

Jede GPU in unserer Mietflotte durchläuft kontinuierliche Leistungstests, um Ihnen transparente, realitätsnahe Daten zu liefern. Im Gegensatz zu synthetischen Benchmarks, die in kontrollierten Laborumgebungen laufen, stammen unsere Ergebnisse von tatsächlichen Produktionsservern, die reale Arbeitslasten verarbeiten. Jeder Server meldet automatisch Leistungsmetriken mehrmals während seines Lebenszyklus, wodurch ein umfassender Datensatz entsteht, der echte betriebliche Fähigkeiten widerspiegelt und nicht idealisierte Szenarien.

Unsere GPU-Flotte

Unsere Infrastruktur deckt mehrere GPUs verschiedener Generationen ab, um unterschiedliche Arbeitslastanforderungen und Budgets zu bedienen. Der RTX Pro 6000 Blackwell steht für unsere Spitzenklasse mit massiver VRAM-Kapazität – perfekt zum Trainieren großer Modelle sowie zum Ausführen der größten Sprachmodelle ohne Quantisierung. Die RTX 5090 bietet herausragende Einzel-GPU-Leistung dank modernster Ada-Lovelace-Architektur und überzeugt besonders bei Inferenzaufgaben, wo es auf reine Geschwindigkeit ankommt.

Für Produktions-AI-Arbeitslasten bleibt der A100 weiterhin der Maßstab für Rechenzentren mit Tensor-Kernen, die auf Transformer-Architekturen optimiert sind sowie exzellentem Multi-Instance-GPU-(MIG-)Support. Die Modelle RTX 4090 und RTX 4090 Pro bieten herausragende Preis-Leistungs-Verhältnisse und bewältigen die meisten Aufgaben zur LLM-Inferenz sowie Bildgenerierung mit beeindruckender Effizienz. Unsere Flotte aus RTX 3090-GPUs ermöglicht kostengünstigen Zugang zu leistungsstarker Hardware, während die Karten V100 und RTX A4000 leichtere Arbeitslasten sowie Entwicklungsumgebungen bedienen, bei denen Kosteneffizienz im Vordergrund steht.

LLM-Inferenztest

Wir bewerten die Leistung von Sprachmodellen anhand von zwei unterschiedlichen Frameworks, die reale Nutzungsmuster widerspiegeln:

vLLM-Hochleistungs-Benchmarks für Durchsatz messen die Leistung von GPUs unter Produktionslast mit mehreren gleichzeitigen Anfragen. Dabei kommt auf neueren Architekturen (z. B. NVIDIA Ada-GPUs wie der 40er-Reihe oder späteren Modellen) FP8-Quantisierung zum Einsatz, während ältere GPUs auf bfloat16 setzen – jeweils zur optimalen Effizienzsteigerung. vLLM verarbeitet so gleichzeitig 16 bis 64 parallele Anfragen (abhängig vom verfügbaren GPU-VRAM). Ihr Server bleibt dabei vollständig privat: Hochdurchsatz bedeutet schlichtweg, dass mehrere Anfragen gleichzeitig bearbeitet werden – ideal für produktionsreife Chatbots mit vielen Nutzern, Multi-Agent-AI-Systeme, bei denen Agenten parallel kommunizieren, oder Batch-Verarbeitungs-Pipelines. GPUs mit höherem VRAM können mehr Anfragen gleichzeitig abwickeln, weshalb sich Modelle wie die RTX Pro 6000 und A100 in diesen Benchmarks besonders stark zeigen.

Ollama-Einzelbenutzer-Benchmarks messen die reine Inferenzgeschwindigkeit für eine einzelne Anfrage – also das Erlebnis, wenn Sie einen lokalen Chatbot oder persönlichen KI-Assistenten nutzen. Diese Ergebnisse zeigen die schnellstmögliche Antwortzeit ohne Wartezeiten durch Anfrageschlangen oder Batch-Verarbeitung. Wenn Sie einen persönlichen Code-Assistenten entwickeln, private Dokumente analysieren oder vor dem Skalieren Prototypen erstellen, geben Ihnen diese Benchmarks genau Aufschluss darüber, wie responsiv sich Ihre GPU anfühlen wird.

Unser Testumfeld umfasst Modelle von effizienten Varianten mit 8 Milliarden Parametern wie Llama 3.1 und Qwen3 bis hin zu anspruchsvollen Modellen mit über 70 Milliarden Parametern, darunter DeepSeek-R1 und GPT-OSS. Die Geschwindigkeit der Tokenerzeugung (Tokens pro Sekunde) bestimmt direkt, wie schnell Ihre Chatbots antworten, wie zügig Dokumente verarbeitet werden können sowie insgesamt die Benutzererfahrung in Anwendungen für Conversational-AI.

Bildgenerierungstest

Diffusionsmodell-Benchmarks decken das gesamte Spektrum ab – von leichtgewichtigen Varianten wie Stable Diffusion 1.5 bis hin zu rechenintensiven Architekturen wie Flux und SD3.5-large. Dabei prüfen wir sowohl den Durchsatz (Bilder pro Minute) für Batch-Prozessierungen als auch die Latenz (Sekunden pro Bild) in interaktiven Anwendungen. Besonders aussagekräftig sind hier die Ergebnisse von SDXL-Turbo, insbesondere für Echtzeit-Generierung. Standard-Benchmarks für SDXL und Flux hingegen spiegeln qualitätsoptimierte Produktiv-Szenarien wider.

Vision AI-Tests

Visions-Benchmarks bewerten die Fähigkeiten zur Verarbeitung von Multimodaldaten und Dokumenten unter hoher Parallelauslastung (16–64 parallele Anfragen), um eine realistische Produktionsdurchsatzleistung zu messen. Wir nutzen Echtwelt-Datensätze, um die Genauigkeit sicherzustellen.

Visionsprachmodell-Testung: LLaVA 1.5 7B (Multimodelles mit 7 Milliarden Parametern) verarbeitet ein Foto einer älteren Frau auf einem Blumenfeld mit einem Golden Retriever. Das Modell muss die Szene beschreiben, Objekte identifizieren und Fragen zum Inhalt des Bildes beantworten. Bei einer Batch-Größe von 32 (32 parallele Bildanalysenanfragen) messen wir Bilder pro Minute – entscheidend für Anwendungen wie Produktbildanalyse, Inhaltsmoderation, visuelle Frage-Antwort-Systeme oder automatisierte Massentagging von Bildern.

OCR-Dokumentenverarbeitung: TrOCR-base (ein transformerbasiertes OCR-Modell mit 334 Mio. Parametern) scannt historischen Text aus Shakespeares Hamlet – authentische Buchseiten vergangener Jahrhunderte mit zeitgenössischer Typografie und gealterter Papierstruktur. Um die Durchsatzleistung von Seiten pro Minute präzise zu messen, replizieren wir diese gescannten Seiten für einen Testkorpus von 2.750 Seiten, der echte Arbeitslasten bei der Digitalisierung von Dokumenten simuliert. Bei einer Batch-Größe von 16 (Seiten gleichzeitig verarbeitet) ermitteln wir die Leistung in Seiten pro Minute, etwa für automatisierte Dokumentenbearbeitung, Rechnungs-scanning, Digitalisierung historischer Archive oder großskalige Textextraktionsprozesse. Ein höherer Durchsatz ermöglicht es Ihrer GPU, mehr gleichzeitige Nutzer zu bedienen oder größere Dokumentsätze schneller zu verarbeiten.

Systemleistung

GPU-Leistung allein erzählt nicht das ganze Bild. Unsere Benchmarks umfassen CPU-Rechenleistung (Einzelkern- und Mehrkernoperationen pro Sekunde), die Vorverarbeitung von Daten, Tokenisierung sowie Ladezeiten der Modelle beeinflusst. NVMe-Speichergeschwindigkeiten bestimmen, wie schnell große Datensätze geladen werden können, Checkpoints von Modellen gespeichert oder zwischen verschiedenen KI-Projekten gewechselt wird. Diese Faktoren entwickeln sich zu kritischen Engpässen bei großskaliertem Training oder beim Bedienen mehrerer gleichzeitiger Nutzer.

Datenqualität: Alle Metriken stellen gemittelte Werte aus mehreren Testläufen zu unterschiedlichen Zeiten und Systemzuständen dar. Die Leistung kann aufgrund von thermischen Bedingungen, gleichzeitigen Arbeitslasten und Treiberversionen schwanken. Unsere historische Datensammlung sorgt für zunehmend präzisere Durchschnittswerte über die Zeit.


Warum wir den TAIFlops GPU Score erstellt haben

Wie vergleicht man eigentlich GPUs für echte KI-Arbeitslasten? Als KI-Entwickler sind wir selbst auf ein frustrierendes Problem gestoßen: NVIDIA veröffentlicht zwar theoretische TFLOPS-Bewertungen, doch diese synthetischen Zahlen sagen Ihnen nichts darüber aus, wie schnell Ihre Sprachmodelle laufen oder wie effizient Ihre Bildgenerierung abläuft. Eine GPU mit 100 TFLOPS kann bei tatsächlichen Inferenzaufgaben eine solche mit 150 TFLOPS übertreffen – bedingt durch Speicherbandbreite, Tensor-Core-Auslastung oder Softwareoptimierungen.

Wenn Sie sich zwischen einer RTX 4090, A100 oder RTX 5090 für Ihre Produktions-API entscheiden, zählt nur die praktische Leistung – nicht die theoretischen TFLOPS-Werte unter idealisierten Laborbedingungen. Entscheidend ist: Welche GPU bietet schnelleres Inference bei Llama 3.1 mit 70 Mrd. Parametern? Welche verarbeitet SDXL-Bilder effizienter? Und welche schneidet bei Vision-Tasks besser ab?

Wir haben den TAIFlops-Score (Trooper AI FLOPS) entwickelt, um genau dieses Problem zu lösen. Es ist eine einzelne Kennzahl für die praktische KI-Leistung, gemessen über die Workloads, die Entwickler tatsächlich betreffen:

Aktuelle Produktionsserver liefern die Daten für TAIFlops – aus unserer Infrastruktur mit echten KI-Arbeitslasten. Jede Bewertung basiert auf Hunderten von Benchmark-Läufen mit realer Hardware, die tatsächliche Kunden bedient. Beispielsweise leistet eine GPU mit 300 TAIFlops etwa das Dreifache der Leistung einer RTX 3090 bei echten KI-Anwendungsfällen.

TAIFlops GPU Leistungsranking

Echte KI-Leistungsbewertungen. RTX 3090 = Basiswert von 100 TAIFlops. Höher ist besser.


Wie der TAIFlops-Wert berechnet wird

TAIFlops verwendet einen mathematisch strengen Ansatz, der Ihnen genaue, vergleichbare Leistungswerte liefern soll. Hier ist die vollständige Methodik:

1. Referenz-GPU (Baseline)

Wir nutzen die RTX 3090 24GB als Basisreferenz mit exakt 100 TAIFlops. Warum die RTX 3090? Sie ist breit eingesetzt, etabliert und verkörpert eine stabile Mittelklasse-KI-Performance. Damit dient sie als «1-faches» Geschwindigkeitsmaß – alle anderen Werte werden darauf bezogen skaliert.

2. Erfassung realer Benchmarks

Jede GPU in unserer Mietflotte führt automatisch umfassende Benchmarks mehrmals während ihres Lebenszyklus aus. Wir erfassen:

Jeder Benchmark wird mehr als 10 Mal ausgeführt, um statistische Zuverlässigkeit zu gewährleisten. Wir speichern jedes Ergebnis in unserer Datenbank und erstellen so im Laufe der Zeit einen umfassenden Leistungsdatensatz.

3. Leistungsverhältnisse beim Rechnen

Für jeden Benchmark, bei dem sowohl die Test-GPU als auch die RTX 3090-Basislinie Daten vorliegen, berechnen wir ein Performance-Verhältnis:

ratio = test_gpu_value / baseline_gpu_value

Dieses Verhältnis zeigt, wie viel schneller (oder langsamer) die Test-GPU im Vergleich zu unserer Basislinie arbeitet. Ein Verhältnis von 1,50 bedeutet, dass die GPU 50 % schneller als RTX 3090 ist, während 0,80 20 % langsamer bedeutet.

Wichtig: Bei Metriken mit der Regel „niedriger ist besser“ (wie Sekunden/Bild) invertieren wir diese – wenn eine GPU z. B. 2,61 s/ Bild benötigt und die RTX 3090 5,40 s/ Bild braucht, berechnen wir das Verhältnis als 5,40 / 2,61 = 2,07-mal schneller.

4. Geometrisches Mittel über alle Benchmarks

Genau hier liegt der Knackpunkt. Ein einfacher Durchschnitt wäre statistisch falsch – wenn eine Grafikkarte bei einer Messung doppelt so schnell () und bei einer anderen gleichauf () ist, bedeutet das keineswegs, dass sie im Schnitt „1,5× schneller“ wäre. Stattdessen setzen wir auf den geometrischen Mittelwert.

geometric_mean = (ratio₁ × ratio₂ × ratio₃ × ... × ratioₙ)^(1/n)

Der geometrische Mittelwert berücksichtigt korrekt multiplikative Beziehungen. Wenn eine GPU in allen Benchmarks konstant 1,5-mal schneller ist, beträgt ihr geometrischer Mittelwert 1,5. Wenn sie in der Hälfte der Benchmarks doppelt so schnell und in der anderen Hälfte einmal so schnell ist, zeigt der geometrische Mittelwert korrekt ~1,41 (nicht 1,5 wie bei einem einfachen Durchschnitt).

5. Umrechnung in TAIFlops

Schließlich skalieren wir den geometrischen Mittelwert auf unsere 100-Punkte-Basislinie:

TAIFlops = geometric_mean × 100

Wenn der geometrische Mittelwert der GPU über alle KI-Benchmarks 2,02x höher ist als der der RTX 3090, erreicht sie 202 TAIFlops. Wenn eine andere GPU einen Mittelwert von 0,55x erreicht, erzielt sie 55 TAIFlops.

6. Was macht TAIFlops genau?

7. TAIFlops-Werte lesen

TAIFlops bietet Ihnen sofortige Leistungsvergleiche:

Beim Vergleich zweier GPUs teilen Sie deren TAIFlops: Eine 238 TAIFlops GPU (RTX 4090 Pro) ist 238/207 = 1,15x schneller als eine 207 TAIFlops GPU (RTX 5090) über alle KI-Workloads hinweg.

8. Transparenz & Reproduzierbarkeit

Jedes Benchmark-Ergebnis, das in die TAIFlops-Berechnungen einfließt, ist in der obigen Tabelle sichtbar. Sie können die genauen Token/s, Bilder/min und Seiten/min-Werte für jede GPU und jedes Modell einsehen. Diese Transparenz bedeutet, dass Sie:

Kernaussage: Mit TAIFlops erhalten Sie eine einzige vertrauenswürdige Kennzahl, gestützt auf echte Produktionsdaten. Wenn Sie sich bei uns GPUs mieten, wissen Sie genau, welche Leistung Sie erhalten – keine Überraschungen, keine aufgeblähten Marketingzahlen, sondern präzise Echtzeit-Bewertungen der KI-Leistung.

GPU-Server bestellen Unsere Vorteile