vLLM OpenAI-kompatibler Server

Trooper.AI provides a fully automated vLLM deployment template that installs, configures, and runs an OpenAI-compatible inference server on your GPU server using systemd.

Status Dashboard for vLLM on Trooper.AI
Status-Dashboard für vLLM auf Trooper.AI

Das Ziel:

Die Vorlage automatisch:

Sie steuern nur einen kleinen Satz öffentlicher Parameter.


Wichtiger Sicherheitshinweis zu Screenshots: Die in den Screenshots gezeigten Server dienen nur Demonstrationszwecken und sind durch die Trooper.AI Network-Level Firewall gesichert, die mit allen GPU-Serverbestellungen geliefert wird. Detaillierte Informationen finden Sie unter 🛡️ Native Firewall vor Ihrem GPU-Server.


Einstellungen der vLLM-Vorlage

Diese Vorlage stellt einen bereit einsatzbereiter vLLM Inferenzserver auf Ihrer Trooper.AI Instanz. Es installiert die erforderliche Laufzeitumgebung, konfiguriert den API-Endpunkt und bereitet das Modell für OpenAI-kompatible Anfragen vor.

Im Folgenden eine kurze Erläuterung der einzelnen Konfigurationsoptionen.

Basic settings to get startet with vLLM
Grundeinstellungen zum Start mit vLLM

commandline_args

Optionale erweiterte Argumente, die direkt an die vLLM-Serverstartbefehl.

Verwenden Sie dies, wenn Sie zusätzliche Funktionen wie z. B. aktivieren müssen:

  • Tensor-Parallelität
  • Quantisierung
  • Toolaufruf
  • benutzerdefinierte Tokenizer-Einstellungen
  • spekulative Dekodierung

Beispiel:

Code
--tensor-parallel-size 2

Leer lassen, es sei denn, Sie wissen genau, welche Flags Sie verwenden möchten.

hf_token

Ihre HuggingFace Zugriffstoken.

Dies ist erforderlich, wenn das Modell:

  • is geschützt
  • erfordert Authentifizierung
  • oder von heruntergeladen wird privates Repository

Für öffentliche Modelle kann dieses Feld leer gelassen werden.

Sie können hier ein Token generieren:

Code
https://huggingface.co/settings/tokens

Der Token wird nur während des Modell-Downloads verwendet.

max_tokens

Definiert die maximales maximale Kontextfenster Der Server sollte dies unterstützen.

Dies beeinflusst direkt VRAM-Nutzung.

Typische Werte:

Kontext Empfohlen
kleine Modelle 4096
mittlere Modelle 8192
Modelle mit langem Kontext 16384+

Höhere Werte erhöhen den Speicherverbrauch erheblich. Wenn Ihr Server keinen VRAM mehr hat, verringern Sie diesen Wert.

Modellname

Der HuggingFace-Modellbezeichner das vLLM laden soll.

Beispiel:

Code
mistralai/Ministral-3-14B-Instruct-2512

Weitere kompatible Beispiele:

Code
Qwen/Qwen2.5-14B-Instruct
google/gemma-3-12b-it
meta-llama/Meta-Llama-3-8B-Instruct
... and many more

Stellen Sie sicher, dass das Modell von vLLM unterstützt wird und in Ihren GPU-Speicher passt.

TOKEN

Dies ist Ihr API-Authentifizierungsschlüssel.

Alle Anfragen an den vLLM-Server müssen dieses Token im Header enthalten:

Code
Authorization: Bearer YOUR_TOKEN

Dies schützt Ihren Server vor unbefugtem Zugriff.

Beispielanfrage:

Code
curl https://your-server/v1/chat/completions \
  -H "Authorization: Bearer YOUR_TOKEN"

Verwenden Sie eine starke, zufällige Zeichenfolge.


Modellgröße & GPU-Anforderungen

Sie können eine große Auswahl an Large Language Models von HuggingFace innerhalb von vLLM verwenden. Stellen Sie sicher, dass ausreichend VRAM verfügbar ist, da die Leistung davon abhängt, dass genügend freier GPU-VRAM vorhanden ist, um die Modell- und Kontextgröße multipliziert mit der Anzahl der gleichzeitigen Benutzer aufzunehmen.

Trooper.AI wählt automatisch die optimale Präzision pro GPU-Architektur aus.

VRAM-Berechnung: Modellgewichte + ~25% KV-Cache-Puffer.
VRAM kann über Tensor Parallelism auf mehrere GPUs verteilt werden (--tensor-parallel-size N).

Modell Parameter Präzision Min. VRAM Gesamt GPU-Konfiguration GPUs
Qwen/Qwen3-4B 4B BF16 ~8 GB 1× V100 16GB / RTX 4070 Ti Super 1
Qwen/Qwen3-8B 8B BF16 ~20 GB 1× RTX 3090 / RTX 4090 (24 GB) 1
mistralai/Ministral-3-14B-Instruct-2512 14B FP8 ~29 GB 1× RTX 4080 Pro 32GB oder 1× A100 40GB 1
Qwen/Qwen3-32B 32B FP8 ~40 GB 1× A100 40GB oder 2× RTX 4090 (2×24 GB) 1–2
meta-llama/Llama-3.1-8B-Instruct 8B FP8 ~20 GB 1× RTX 3090 / RTX 4090 (24 GB) 1
meta-llama/Llama-3.1-70B-Instruct 70B FP8 ~90 GB 1× RTX Pro 6000 Blackwell (96 GB) oder 2× A100 (2×40 GB) 1–2

Hinweis: FP8 wird auf Ada/Hopper-Architekturen (RTX 40-Serie, A100, H100) für maximalen Durchsatz verwendet. Trooper.AI wählt automatisch die optimale Präzision für Ihre GPU aus.
Multi-GPU-Konfigurationen nutzen Tensor Parallelism – VRAM skaliert linear mit der Anzahl der GPUs.


Öffentliche Parameter

Diese Parameter können über Umgebungsvariablen festgelegt werden, bevor der Installer ausgeführt wird.

Variable Beschreibung
TOKEN API-Schlüssel zur Authentifizierung
modelname HuggingFace-Modellpfad
hf_token HuggingFace Token (für geschützte Modelle)
commandline_args Optionale zusätzliche vLLM CLI-Argumente

Automatisches Benchmarking zur Parameteroptimierung

Status Dashboard for vLLM on Trooper.AI
Status-Dashboard für vLLM auf Trooper.AI

Unsere Vorlage beinhaltet einen Performance-Benchmark, der Ihnen hilft, Ihren GPU-Server für die Multi-Agent-Nutzung zu optimieren. Verwenden Sie ihn, um Modelle, GPU-Typen und Parameter zu testen und zu vergleichen, um den Durchsatz und die Anzahl gleichzeitiger Benutzer zu maximieren.

Wie funktioniert der Benchmark?

Der Benchmark startet mehrere Agenten gleichzeitig, die jeweils mit dem vLLM-Server-Endpunkt zu einem anderen Thema interagieren. Dies verhindert Caching und testet die Leistung in realen Szenarien. Sie können den Durchsatz jedes Agenten, den Gesamt-Durchsatz und die Kosten für tokenbasierte Dienste wie GPT-5 mini vergleichen. Oft ist ein vLLM-Server von Trooper.AI 2-4x günstiger als große tokenbasierte Inferenzdienste, während Ihre LLM-Arbeit privat bleibt!


Was die Vorlage bewirkt

Startup of your vLLM server
Start Ihres vLLM-Servers

  1. Erkennt GPU-Architektur (Volta, Ampere, Ada, Hopper, Blackwell)

  2. Erkennt die VRAM-Größe

  3. Wählt automatisch die optimale Präzision aus:

    • FP8 > BF16 > FP16
  4. Verwendet FP16 KV-Cache für Stabilität

  5. Abstimmungen:

    • maximale parallele Sequenzen
    • Batch-Token-Größe
    • Speicherauslastung
  6. Installiert vLLM mit CUDA

  7. Erstellt einen Systemd-Dienst:

    Code
    vllm-server.service
    
  8. Startet einen persistenten, OpenAI-kompatiblen API-Server auf einem sicheren HTTPS-Endpunkt.

Es ist keine manuelle Konfiguration erforderlich.


API-Endpunkte

Basis-URL:

Code
http://YOUR_SERVER:PORT/v1

Endpunkte:

  • /v1/models
  • /v1/completions
  • /v1/chat/completions

Authentifizierungsheader:

Code
Authorization: Bearer YOUR_TOKEN_FROM_CONFIG

Python Client Beispiel

Python
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
)

resp = client.chat.completions.create(
    model="Qwen/Qwen3-14B",
    messages=[
        {"role": "user", "content": "Hello, what is vLLM?"}
    ],
    max_tokens=200
)

print(resp.choices[0].message.content)

Node.js Client Beispiel

javascript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "YOUR_API_KEY",
  baseURL: "https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
});

const completion = await client.chat.completions.create({
  model: "Qwen/Qwen3-14B",
  messages: [
    { role: "user", content: "Hello from Node.js" }
  ],
  max_tokens: 200
});

console.log(completion.choices[0].message.content);

PHP Client Beispiel

php
<?php

$ch = curl_init("https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1/chat/completions");

$data = [
  "model" => "Qwen/Qwen3-14B",
  "messages" => [
    ["role" => "user", "content" => "Hello from PHP"]
  ],
  "max_tokens" => 200
];

curl_setopt_array($ch, [
  CURLOPT_POST => true,
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer YOUR_API_KEY",
    "Content-Type: application/json"
  ],
  CURLOPT_POSTFIELDS => json_encode($data)
]);

$response = curl_exec($ch);
curl_close($ch);

echo $response;

Streaming Beispiel

Python-Streaming

Python
resp = client.chat.completions.create(
    model="Qwen/Qwen3-14B",
    messages=[{"role":"user","content":"Explain transformers"}],
    stream=True
)

for chunk in resp:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Node.js Streaming

javascript
const stream = await client.chat.completions.create({
  model: "Qwen/Qwen3-14B",
  messages: [{ role: "user", content: "Explain transformers" }],
  stream: true
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0].delta?.content || "");
}

Anwendungsfälle

Trooper.AI vLLM Server sind konzipiert für:

  • SaaS KI-Backends
  • Chatbots
  • Code-Assistenten
  • RAG-Systeme
  • Multi-User-Inferenzserver
  • Hochdurchsatz-Batch-Inferenz
  • GPU-Mietumgebungen

Leistungsphilosophie

Trooper.AI verwendet:

  • Automatische Architekturabstimmung
  • Automatische Präzisionsauswahl
  • VRAM-bewusstes Batching
  • Stabile KV-Cache-Konfiguration

Dies vermeidet:

  • GPU-Fehlkonfiguration
  • Präzisionsabstürze
  • VRAM-Fragmentierung
  • Kontextinstabilität

Kostenvergleich: Ministral-3 auf Trooper.AI vs. GPT-5 mini

Jeopardy-Game-Benchmark
Jeopardy-Game-Benchmark

Um eine grobe Vorstellung von der Wirtschaftlichkeit des Self-Hostings zu geben, vergleicht die folgende Gegenüberstellung die Kosten für den Betrieb von Ministral-3-14B-Instruct-2512 auf einem Trooper.AI GPU-Server mit der Verwendung der GPT-5 mini API für dieselbe Arbeitslast.

Die Schätzung basiert auf der in diesem Artikel beschriebenen realen Benchmark-Ausführung und wurde auf eine Stunde kontinuierlichen Inferenzdurchsatz hochgerechnet.

Stündliche Kosten bei gemessener Leistung

Plattform Stündliche Kosten
GPT-5 mini API ~$3.12
Ministral-3-14B auf Trooper.AI GPU Server €0.51 (~$0.54)

Wie dies berechnet wurde

Diese Schätzung basiert auf der tatsächliche Benchmark-Ausführung in diesem Artikel unter Verwendung Ministral-3-14B-Instruct-2512 auf einem Trooper.AI GPU Server.

Metrik Wert
Verarbeitete Gesamtzahl der Token 307,028
Laufzeit 153 Sekunden
Durchsatz ~2006 Token/Sekunde
Prognostizierte Token/Stunde ~7,22 Millionen Tokens

Token-Mix in der Benchmark:

Token-Typ Token
Eingabe-Token 275,186
Ausgabe-Token 31,842

Dieses Verhältnis hochskalieren ~7,22M Token/Stunde und Anwendung GPT-5 Mini-Preisgestaltung:

  • $0,25 / 1M Eingabe-Token
  • 2,00 $ / 1M Ausgabetoken

führt zu einer geschätzten ~3,12 € pro Stunde für die gleiche Arbeitslast.

Der Ministral-3 Server auf Trooper.AI läuft stattdessen mit pauschal 0,51 €/Stunde (~0,54 $) unabhängig vom Token-Volumen, was die Verarbeitung ermöglicht Millionen von Token pro Stunde zu kalkulierbaren Kosten.

Langfristige Workload-Projektion

Anhand des beobachteten Durchsatzes können wir die Kosten für den Betrieb des Systems schätzen. für eine volle Stunde.

Metrik Wert
Token pro Stunde ~7,221,543
Kosten für GPT-5 mini $3.12
Trooper.AI Serverkosten €0.51 (~$0.54)

Stündliche Einsparungen

Die gleiche Arbeitslast für eine Stunde würde immer noch ergeben:

≈ 5,8× günstiger auf Trooper.AI

Wenn Self-Hosting deutlich günstiger wird

Self-Hosting von LLMs gewinnt tendenziell wirtschaftlich, wenn:

  • Arbeitslasten enthalten viele kleine Anfragen
  • parallele Inferenz ist erforderlich
  • Anwendungen generieren Millionen von Token pro Stunde
  • Workloads laufen kontinuierlich

Typische Beispiele sind:

  • KI-Spielsimulationen
  • Agentensysteme
  • Automatisierungspipelines
  • Chat-Anwendungen mit vielen Benutzern

Zusammenfassung

In diesem Benchmark:

Metrik Ergebnis
Modell Ministral-3-14B
Serverkosten €0.51/hour
Verarbeitete Token 307k
Laufzeit 153 Sekunden
Kostenreduzierung 82.8%
Kostenersparnis 5,8× günstiger als GPT-5 mini

Für Workloads mit hohem Durchsatz, das Ausführen von Modellen wie Ministral-3 auf Trooper.AI GPU-Servern kann die Inferenzkosten drastisch senken und gleichzeitig API-Ratenbegrenzungen entfernen.


Warum Sie die vLLM-Vorlage benötigen

Die Trooper.AI vLLM-Vorlage bietet Ihnen:

  • OpenAI-kompatible API
  • Automatische GPU-Optimierung
  • Produktionssichere Standardeinstellungen
  • Minimale Konfiguration
  • Maximaler Durchsatz

Sie wählen nur das Modell und den API-Schlüssel.

Alles andere wird automatisch optimiert.


Fehlerbehebung

Mit dem Dashboard können Sie Startprobleme leicht erkennen und beheben. Nicht genügend VRAM? Wechseln Sie über das Dashboard in wenigen Minuten zu einem höheren Blib. Oder beheben Sie die VRAM-Nutzung, indem Sie die Token-Fenstergröße verringern. Überprüfen Sie die Logs einfach in Echtzeit mit dem Dashboard:

Crashed and how to fix it
Abgestürzt und wie man es behebt


Support

Für fortgeschrittene Anpassungen, Multi-GPU oder benutzerdefinierte Voreinstellungen kontaktieren Sie den Trooper.AI Support.