Trooper.AI fournit un modèle de déploiement vLLM entièrement automatisé qui installe, configure et exécute un serveur d'inférence compatible OpenAI sur votre serveur GPU en utilisant systemd.
L'objectif :
Le modèle se configure automatiquement :
Vous ne contrôlez qu'un petit ensemble de paramètres publics.
Note de sécurité importante concernant les captures d'écran : Les serveurs présentés dans les captures d’écran sont uniquement à des fins de démonstration et sont sécurisés par le Pare-feu de niveau réseau Trooper.AI, qui est inclus avec toutes les commandes de serveur GPU. Pour plus d’informations, consultez 🛡️ Pare-feu natif avant votre serveur GPU.
Ce modèle déploie un serveur d'inférence vLLM prêt à l'emploi sur votre instance Trooper.AI. Il installe l'environnement d'exécution requis, configure le point de terminaison de l'API et prépare le modèle pour les requêtes compatibles OpenAI.
Voici une brève explication de chaque option de configuration.
Arguments avancés optionnels transmis directement à Commande de démarrage du serveur vLLM.
Utilisez ceci si vous devez activer des fonctionnalités supplémentaires telles que :
Exemple :
--tensor-parallel-size 2
Laisser vide à moins que vous ne sachiez exactement quels indicateurs vous souhaitez utiliser.
Votre Jeton d'accès HuggingFace.
Ceci est requis si le modèle :
Pour les modèles publics, ce champ peut être laissé vide.
Vous pouvez générer un jeton ici :
https://huggingface.co/settings/tokens
Le jeton n'est utilisé que pendant le téléchargement du modèle.
Définit le fenêtre de contexte maximale le serveur doit prendre en charge.
Cela affecte directement Utilisation de la VRAM.
Valeurs typiques :
| Contexte | Recommandé |
|---|---|
| petits modèles | 4096 |
| modèles moyens | 8192 |
| modèles de contexte long | 16384+ |
Des valeurs plus élevées augmentent considérablement l'utilisation de la mémoire. Si votre serveur manque de VRAM, diminuez cette valeur.
Le Identifiant du modèle Hugging Face que vLLM doit charger.
Exemple :
mistralai/Ministral-3-14B-Instruct-2512
Autres exemples compatibles :
Qwen/Qwen2.5-14B-Instruct
google/gemma-3-12b-it
meta-llama/Meta-Llama-3-8B-Instruct
... and many more
Assurez-vous que le modèle est pris en charge par vLLM et qu'1il tient dans la mémoire de votre GPU.
Ceci est le vôtre clé d'authentification API.
Toutes les requêtes au serveur vLLM doivent inclure ce jeton dans l'en-tête :
Authorization: Bearer YOUR_TOKEN
Ceci protège votre serveur contre les accès non autorisés.
Exemple de requête :
curl https://your-server/v1/chat/completions \
-H "Authorization: Bearer YOUR_TOKEN"
Utilisez une chaîne aléatoire forte.
Vous pouvez utiliser une large gamme de grands modèles de langage de HuggingFace au sein de vLLM. Assurez-vous qu'il y ait suffisamment de VRAM disponible, car la performance dépend de la quantité de VRAM GPU libre disponible pour accueillir la taille du modèle et du contexte, multipliée par le nombre d'utilisateurs simultanés.
Trooper.AI sélectionne automatiquement la précision optimale en fonction de l’architecture du GPU.
Calcul de la VRAM : Poids du modèle + tampon KV-Cache d'environ 25 %.
La VRAM peut être partagée entre plusieurs GPU via le parallélisme Tensor (--tensor-parallel-size N).
| Modèle | Paramètres | Précision | VRAM totale min. | Configuration GPU | GPU |
|---|---|---|---|---|---|
| Qwen/Qwen3-4B | 4B | BF16 | ~8 GB | 1× V100 16GB / RTX 4070 Ti Super | 1 |
| Qwen/Qwen3-8B | 8B | BF16 | ~20 GB | 1× RTX 3090 / RTX 4090 (24 Go) | 1 |
| mistralai/Ministral-3-14B-Instruct-2512 | 14B | FP8 | ~29 GB | 1× RTX 4080 Pro 32GB ou 1× A100 40GB | 1 |
| Qwen/Qwen3-32B | 32B | FP8 | ~40 GB | 1× A100 40GB ou 2× RTX 4090 (2×24 GB) | 1–2 |
| meta-llama/Llama-3.1-8B-Instruct | 8B | FP8 | ~20 GB | 1× RTX 3090 / RTX 4090 (24 Go) | 1 |
| meta-llama/Llama-3.1-70B-Instruct | 70B | FP8 | ~90 GB | 1× RTX Pro 6000 Blackwell (96 Go) ou 2× A100 (2×40 Go) | 1–2 |
Remarque : FP8 est utilisé sur les architectures Ada/Hopper (RTX 40-series, A100, H100) pour un débit maximal. \
Trooper.AI sélectionne automatiquement la précision optimale pour votre GPU.
Les configurations multi-GPU utilisent le parallélisme Tensor — la VRAM est mise à l’échelle linéairement sur les GPU.
Ces paramètres peuvent être définis via les variables d'environnement avant d'exécuter le programme d'installation.
| Variable | Description |
|---|---|
TOKEN |
Clé d'API pour l'authentification |
modelname |
Chemin du modèle HuggingFace |
hf_token |
Token HuggingFace (pour les modèles restreints) |
commandline_args |
Arguments CLI vLLM supplémentaires |
Notre modèle inclut un test de performance pour vous aider à optimiser votre serveur GPU pour une utilisation multi-agents. Utilisez-le pour tester et comparer les modèles, les types de GPU et les paramètres afin de maximiser le débit et le nombre d'utilisateurs simultanés.
Comment fonctionne le benchmark ?
Le benchmark lance plusieurs agents simultanément, chacun interagissant avec le point de terminaison du serveur vLLM sur un sujet différent. Cela empêche la mise en cache et teste les performances en conditions réelles. Vous pouvez voir le débit de chaque agent, le débit total et comparer les coûts des services basés sur des tokens comme GPT-5 mini. Souvent, un serveur vLLM de Trooper.AI est 2 à 4 fois moins cher que les grands services d'inférence basés sur des tokens tout en gardant votre travail LLM privé !
Détecte l'architecture GPU (Volta, Ampere, Ada, Hopper, Blackwell)
Détecte la taille de la VRAM
Sélectionne automatiquement la précision optimale :
Utilise le cache KV FP16 pour la stabilité
Régler :
Installe vLLM avec CUDA
Crée un service systemd :
vllm-server.service
Démarre un serveur d'API compatible OpenAI, persistant, sur un point de terminaison HTTPS sécurisé.
Aucun réglage manuel n'est requis.
URL de base :
http://YOUR_SERVER:PORT/v1
Points de terminaison:
/v1/models/v1/completions/v1/chat/completionsEn-tête d'authentification :
Authorization: Bearer YOUR_TOKEN_FROM_CONFIG
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
)
resp = client.chat.completions.create(
model="Qwen/Qwen3-14B",
messages=[
{"role": "user", "content": "Hello, what is vLLM?"}
],
max_tokens=200
)
print(resp.choices[0].message.content)
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "YOUR_API_KEY",
baseURL: "https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
});
const completion = await client.chat.completions.create({
model: "Qwen/Qwen3-14B",
messages: [
{ role: "user", content: "Hello from Node.js" }
],
max_tokens: 200
});
console.log(completion.choices[0].message.content);
<?php
$ch = curl_init("https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1/chat/completions");
$data = [
"model" => "Qwen/Qwen3-14B",
"messages" => [
["role" => "user", "content" => "Hello from PHP"]
],
"max_tokens" => 200
];
curl_setopt_array($ch, [
CURLOPT_POST => true,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_HTTPHEADER => [
"Authorization: Bearer YOUR_API_KEY",
"Content-Type: application/json"
],
CURLOPT_POSTFIELDS => json_encode($data)
]);
$response = curl_exec($ch);
curl_close($ch);
echo $response;
resp = client.chat.completions.create(
model="Qwen/Qwen3-14B",
messages=[{"role":"user","content":"Explain transformers"}],
stream=True
)
for chunk in resp:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
const stream = await client.chat.completions.create({
model: "Qwen/Qwen3-14B",
messages: [{ role: "user", content: "Explain transformers" }],
stream: true
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0].delta?.content || "");
}
Les serveurs vLLM de Trooper.AI sont conçus pour :
Trooper.AI utilise :
Cela permet d’éviter :
Pour donner une idée approximative de l'économie de l'auto-hébergement, la comparaison suivante projette le coût de l'exécution de Ministral-3-14B-Instruct-2512 sur un serveur GPU Trooper.AI par rapport à l'utilisation de l'API GPT-5 mini pour la même charge de travail.
L'estimation est basée sur l'exécution réelle du benchmark décrite dans cet article et extrapolée à une heure de débit d'inférence continu.
| Plateforme | Coût horaire |
|---|---|
| API GPT-5 mini | ~$3.12 |
| Ministral-3-14B sur un serveur GPU Trooper.AI | €0.51 (~$0.54) |
Cette estimation est basée sur le exécution de référence réelle dans cet article utilisant Ministral-3-14B-Instruct-2512 sur un serveur GPU Trooper.AI.
| Mesure | Valeur |
|---|---|
| Nombre total de jetons traités | 307,028 |
| Temps d'exécution | 153 secondes |
| Débit | ~2006 tokens/sec |
| Tokens/heure projetés | ~7,22 millions de tokens |
Répartition des jetons dans le benchmark :
| Type de jeton | Jetons |
|---|---|
| Tokens d'entrée | 275,186 |
| Tokens de sortie | 31,842 |
En appliquant ce ratio ~7,22M jetons/heure et en appliquant Tarification GPT-5 mini:
donne un coût estimé environ 3,12 € de l'heure pour la même charge de travail.
Le Serveur Ministral-3 sur Trooper.AI fonctionne à un coût fixe de plat de 0,51 €/heure (~0,54 $) quel que soit le volume de jetons, ce qui permet le traitement des millions de tokens par heure à un coût prévisible.
En utilisant le débit observé, nous pouvons estimer le coût de fonctionnement du système. pour une heure complète.
| Mesure | Valeur |
|---|---|
| Jetons par heure | ~7,221,543 |
| Coût GPT-5 mini | $3.12 |
| Coût du serveur Trooper.AI | €0.51 (~$0.54) |
Exécuter la même charge de travail pendant une heure serait encore :
≈ 5,8× moins cher sur Trooper.AI
L'auto-hébergement de LLM est généralement plus avantageux lorsque :
Des exemples typiques incluent :
Dans ce test de performance :
| Mesure | Résultat |
|---|---|
| Modèle | Ministral-3-14B |
| Coût du serveur | €0.51/hour |
| Jetons traités | 307k |
| Temps d'exécution | 153 secondes |
| Réduction des coûts | 82.8% |
| Avantage de coût | 5,8 fois moins cher que GPT-5 mini |
Pour les charges de travail à haut débit, l'exécution de modèles tels que Ministral-3 sur les serveurs GPU Trooper.AI peut réduire considérablement les coûts d'inférence tout en supprimant les limites de débit de l'API.
Le modèle vLLM Trooper.AI vous offre :
Vous choisissez uniquement le modèle et la clé API.
Tout le reste est optimisé automatiquement.
Avec le tableau de bord, vous pouvez facilement détecter les problèmes de démarrage et les résoudre. Pas assez de VRAM ? Passez à un Blib supérieur en quelques minutes via le tableau de bord. Ou corrigez l'utilisation de la VRAM en réduisant la taille de la fenêtre de jetons. Vérifiez facilement les Logs en temps réel avec le tableau de bord :
Pour un réglage avancé, multi-GPU ou des préréglages personnalisés, contactez le support de Trooper.AI.