Trooper.AI provides a fully automated vLLM deployment template that installs, configures, and runs an OpenAI-compatible inference server on your GPU server using systemd.
Das Ziel:
Die Vorlage automatisch:
Sie steuern nur einen kleinen Satz öffentlicher Parameter.
Wichtiger Sicherheitshinweis zu Screenshots: Die in den Screenshots gezeigten Server dienen nur Demonstrationszwecken und sind durch die Trooper.AI Network-Level Firewall gesichert, die mit allen GPU-Serverbestellungen geliefert wird. Detaillierte Informationen finden Sie unter 🛡️ Native Firewall vor Ihrem GPU-Server.
Diese Vorlage stellt einen bereit einsatzbereiter vLLM Inferenzserver auf Ihrer Trooper.AI Instanz. Es installiert die erforderliche Laufzeitumgebung, konfiguriert den API-Endpunkt und bereitet das Modell für OpenAI-kompatible Anfragen vor.
Im Folgenden eine kurze Erläuterung der einzelnen Konfigurationsoptionen.
Optionale erweiterte Argumente, die direkt an die vLLM-Serverstartbefehl.
Verwenden Sie dies, wenn Sie zusätzliche Funktionen wie z. B. aktivieren müssen:
Beispiel:
--tensor-parallel-size 2
Leer lassen, es sei denn, Sie wissen genau, welche Flags Sie verwenden möchten.
Ihre HuggingFace Zugriffstoken.
Dies ist erforderlich, wenn das Modell:
Für öffentliche Modelle kann dieses Feld leer gelassen werden.
Sie können hier ein Token generieren:
https://huggingface.co/settings/tokens
Der Token wird nur während des Modell-Downloads verwendet.
Definiert die maximales maximale Kontextfenster Der Server sollte dies unterstützen.
Dies beeinflusst direkt VRAM-Nutzung.
Typische Werte:
| Kontext | Empfohlen |
|---|---|
| kleine Modelle | 4096 |
| mittlere Modelle | 8192 |
| Modelle mit langem Kontext | 16384+ |
Höhere Werte erhöhen den Speicherverbrauch erheblich. Wenn Ihr Server keinen VRAM mehr hat, verringern Sie diesen Wert.
Der HuggingFace-Modellbezeichner das vLLM laden soll.
Beispiel:
mistralai/Ministral-3-14B-Instruct-2512
Weitere kompatible Beispiele:
Qwen/Qwen2.5-14B-Instruct
google/gemma-3-12b-it
meta-llama/Meta-Llama-3-8B-Instruct
... and many more
Stellen Sie sicher, dass das Modell von vLLM unterstützt wird und in Ihren GPU-Speicher passt.
Dies ist Ihr API-Authentifizierungsschlüssel.
Alle Anfragen an den vLLM-Server müssen dieses Token im Header enthalten:
Authorization: Bearer YOUR_TOKEN
Dies schützt Ihren Server vor unbefugtem Zugriff.
Beispielanfrage:
curl https://your-server/v1/chat/completions \
-H "Authorization: Bearer YOUR_TOKEN"
Verwenden Sie eine starke, zufällige Zeichenfolge.
Sie können eine große Auswahl an Large Language Models von HuggingFace innerhalb von vLLM verwenden. Stellen Sie sicher, dass ausreichend VRAM verfügbar ist, da die Leistung davon abhängt, dass genügend freier GPU-VRAM vorhanden ist, um die Modell- und Kontextgröße multipliziert mit der Anzahl der gleichzeitigen Benutzer aufzunehmen.
Trooper.AI wählt automatisch die optimale Präzision pro GPU-Architektur aus.
VRAM-Berechnung: Modellgewichte + ~25% KV-Cache-Puffer.
VRAM kann über Tensor Parallelism auf mehrere GPUs verteilt werden (--tensor-parallel-size N).
| Modell | Parameter | Präzision | Min. VRAM Gesamt | GPU-Konfiguration | GPUs |
|---|---|---|---|---|---|
| Qwen/Qwen3-4B | 4B | BF16 | ~8 GB | 1× V100 16GB / RTX 4070 Ti Super | 1 |
| Qwen/Qwen3-8B | 8B | BF16 | ~20 GB | 1× RTX 3090 / RTX 4090 (24 GB) | 1 |
| mistralai/Ministral-3-14B-Instruct-2512 | 14B | FP8 | ~29 GB | 1× RTX 4080 Pro 32GB oder 1× A100 40GB | 1 |
| Qwen/Qwen3-32B | 32B | FP8 | ~40 GB | 1× A100 40GB oder 2× RTX 4090 (2×24 GB) | 1–2 |
| meta-llama/Llama-3.1-8B-Instruct | 8B | FP8 | ~20 GB | 1× RTX 3090 / RTX 4090 (24 GB) | 1 |
| meta-llama/Llama-3.1-70B-Instruct | 70B | FP8 | ~90 GB | 1× RTX Pro 6000 Blackwell (96 GB) oder 2× A100 (2×40 GB) | 1–2 |
Hinweis: FP8 wird auf Ada/Hopper-Architekturen (RTX 40-Serie, A100, H100) für maximalen Durchsatz verwendet.
Trooper.AI wählt automatisch die optimale Präzision für Ihre GPU aus.
Multi-GPU-Konfigurationen nutzen Tensor Parallelism – VRAM skaliert linear mit der Anzahl der GPUs.
Diese Parameter können über Umgebungsvariablen festgelegt werden, bevor der Installer ausgeführt wird.
| Variable | Beschreibung |
|---|---|
TOKEN |
API-Schlüssel zur Authentifizierung |
modelname |
HuggingFace-Modellpfad |
hf_token |
HuggingFace Token (für geschützte Modelle) |
commandline_args |
Optionale zusätzliche vLLM CLI-Argumente |
Unsere Vorlage beinhaltet einen Performance-Benchmark, der Ihnen hilft, Ihren GPU-Server für die Multi-Agent-Nutzung zu optimieren. Verwenden Sie ihn, um Modelle, GPU-Typen und Parameter zu testen und zu vergleichen, um den Durchsatz und die Anzahl gleichzeitiger Benutzer zu maximieren.
Wie funktioniert der Benchmark?
Der Benchmark startet mehrere Agenten gleichzeitig, die jeweils mit dem vLLM-Server-Endpunkt zu einem anderen Thema interagieren. Dies verhindert Caching und testet die Leistung in realen Szenarien. Sie können den Durchsatz jedes Agenten, den Gesamt-Durchsatz und die Kosten für tokenbasierte Dienste wie GPT-5 mini vergleichen. Oft ist ein vLLM-Server von Trooper.AI 2-4x günstiger als große tokenbasierte Inferenzdienste, während Ihre LLM-Arbeit privat bleibt!
Erkennt GPU-Architektur (Volta, Ampere, Ada, Hopper, Blackwell)
Erkennt die VRAM-Größe
Wählt automatisch die optimale Präzision aus:
Verwendet FP16 KV-Cache für Stabilität
Abstimmungen:
Installiert vLLM mit CUDA
Erstellt einen Systemd-Dienst:
vllm-server.service
Startet einen persistenten, OpenAI-kompatiblen API-Server auf einem sicheren HTTPS-Endpunkt.
Es ist keine manuelle Konfiguration erforderlich.
Basis-URL:
http://YOUR_SERVER:PORT/v1
Endpunkte:
/v1/models/v1/completions/v1/chat/completionsAuthentifizierungsheader:
Authorization: Bearer YOUR_TOKEN_FROM_CONFIG
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
)
resp = client.chat.completions.create(
model="Qwen/Qwen3-14B",
messages=[
{"role": "user", "content": "Hello, what is vLLM?"}
],
max_tokens=200
)
print(resp.choices[0].message.content)
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "YOUR_API_KEY",
baseURL: "https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
});
const completion = await client.chat.completions.create({
model: "Qwen/Qwen3-14B",
messages: [
{ role: "user", content: "Hello from Node.js" }
],
max_tokens: 200
});
console.log(completion.choices[0].message.content);
<?php
$ch = curl_init("https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1/chat/completions");
$data = [
"model" => "Qwen/Qwen3-14B",
"messages" => [
["role" => "user", "content" => "Hello from PHP"]
],
"max_tokens" => 200
];
curl_setopt_array($ch, [
CURLOPT_POST => true,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_HTTPHEADER => [
"Authorization: Bearer YOUR_API_KEY",
"Content-Type: application/json"
],
CURLOPT_POSTFIELDS => json_encode($data)
]);
$response = curl_exec($ch);
curl_close($ch);
echo $response;
resp = client.chat.completions.create(
model="Qwen/Qwen3-14B",
messages=[{"role":"user","content":"Explain transformers"}],
stream=True
)
for chunk in resp:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
const stream = await client.chat.completions.create({
model: "Qwen/Qwen3-14B",
messages: [{ role: "user", content: "Explain transformers" }],
stream: true
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0].delta?.content || "");
}
Trooper.AI vLLM Server sind konzipiert für:
Trooper.AI verwendet:
Dies vermeidet:
Um eine grobe Vorstellung von der Wirtschaftlichkeit des Self-Hostings zu geben, vergleicht die folgende Gegenüberstellung die Kosten für den Betrieb von Ministral-3-14B-Instruct-2512 auf einem Trooper.AI GPU-Server mit der Verwendung der GPT-5 mini API für dieselbe Arbeitslast.
Die Schätzung basiert auf der in diesem Artikel beschriebenen realen Benchmark-Ausführung und wurde auf eine Stunde kontinuierlichen Inferenzdurchsatz hochgerechnet.
| Plattform | Stündliche Kosten |
|---|---|
| GPT-5 mini API | ~$3.12 |
| Ministral-3-14B auf Trooper.AI GPU Server | €0.51 (~$0.54) |
Diese Schätzung basiert auf der tatsächliche Benchmark-Ausführung in diesem Artikel unter Verwendung Ministral-3-14B-Instruct-2512 auf einem Trooper.AI GPU Server.
| Metrik | Wert |
|---|---|
| Verarbeitete Gesamtzahl der Token | 307,028 |
| Laufzeit | 153 Sekunden |
| Durchsatz | ~2006 Token/Sekunde |
| Prognostizierte Token/Stunde | ~7,22 Millionen Tokens |
Token-Mix in der Benchmark:
| Token-Typ | Token |
|---|---|
| Eingabe-Token | 275,186 |
| Ausgabe-Token | 31,842 |
Dieses Verhältnis hochskalieren ~7,22M Token/Stunde und Anwendung GPT-5 Mini-Preisgestaltung:
führt zu einer geschätzten ~3,12 € pro Stunde für die gleiche Arbeitslast.
Der Ministral-3 Server auf Trooper.AI läuft stattdessen mit pauschal 0,51 €/Stunde (~0,54 $) unabhängig vom Token-Volumen, was die Verarbeitung ermöglicht Millionen von Token pro Stunde zu kalkulierbaren Kosten.
Anhand des beobachteten Durchsatzes können wir die Kosten für den Betrieb des Systems schätzen. für eine volle Stunde.
| Metrik | Wert |
|---|---|
| Token pro Stunde | ~7,221,543 |
| Kosten für GPT-5 mini | $3.12 |
| Trooper.AI Serverkosten | €0.51 (~$0.54) |
Die gleiche Arbeitslast für eine Stunde würde immer noch ergeben:
≈ 5,8× günstiger auf Trooper.AI
Self-Hosting von LLMs gewinnt tendenziell wirtschaftlich, wenn:
Typische Beispiele sind:
In diesem Benchmark:
| Metrik | Ergebnis |
|---|---|
| Modell | Ministral-3-14B |
| Serverkosten | €0.51/hour |
| Verarbeitete Token | 307k |
| Laufzeit | 153 Sekunden |
| Kostenreduzierung | 82.8% |
| Kostenersparnis | 5,8× günstiger als GPT-5 mini |
Für Workloads mit hohem Durchsatz, das Ausführen von Modellen wie Ministral-3 auf Trooper.AI GPU-Servern kann die Inferenzkosten drastisch senken und gleichzeitig API-Ratenbegrenzungen entfernen.
Die Trooper.AI vLLM-Vorlage bietet Ihnen:
Sie wählen nur das Modell und den API-Schlüssel.
Alles andere wird automatisch optimiert.
Mit dem Dashboard können Sie Startprobleme leicht erkennen und beheben. Nicht genügend VRAM? Wechseln Sie über das Dashboard in wenigen Minuten zu einem höheren Blib. Oder beheben Sie die VRAM-Nutzung, indem Sie die Token-Fenstergröße verringern. Überprüfen Sie die Logs einfach in Echtzeit mit dem Dashboard:
Für fortgeschrittene Anpassungen, Multi-GPU oder benutzerdefinierte Voreinstellungen kontaktieren Sie den Trooper.AI Support.