Serveur compatible vLLM OpenAI

Trooper.AI fournit un modèle de déploiement vLLM entièrement automatisé qui installe, configure et exécute un serveur d'inférence compatible OpenAI sur votre serveur GPU en utilisant systemd.

Status Dashboard for vLLM on Trooper.AI
Tableau de bord d’état pour vLLM sur Trooper.AI

L'objectif :

Le modèle se configure automatiquement :

Vous ne contrôlez qu'un petit ensemble de paramètres publics.


Note de sécurité importante concernant les captures d'écran : Les serveurs présentés dans les captures d’écran sont uniquement à des fins de démonstration et sont sécurisés par le Pare-feu de niveau réseau Trooper.AI, qui est inclus avec toutes les commandes de serveur GPU. Pour plus d’informations, consultez 🛡️ Pare-feu natif avant votre serveur GPU.


Paramètres du modèle vLLM

Ce modèle déploie un serveur d'inférence vLLM prêt à l'emploi sur votre instance Trooper.AI. Il installe l'environnement d'exécution requis, configure le point de terminaison de l'API et prépare le modèle pour les requêtes compatibles OpenAI.

Voici une brève explication de chaque option de configuration.

Basic settings to get startet with vLLM
Paramètres de base pour démarrer avec vLLM

commandline_args

Arguments avancés optionnels transmis directement à Commande de démarrage du serveur vLLM.

Utilisez ceci si vous devez activer des fonctionnalités supplémentaires telles que :

  • parallélisme tenseur
  • quantification
  • appel d'outils
  • paramètres de tokenizer personnalisés
  • décodage spéculatif

Exemple :

Code
--tensor-parallel-size 2

Laisser vide à moins que vous ne sachiez exactement quels indicateurs vous souhaitez utiliser.

hf_token

Votre Jeton d'accès HuggingFace.

Ceci est requis si le modèle :

  • is protégé
  • nécessite authentification
  • ou est téléchargé depuis dépôt privé

Pour les modèles publics, ce champ peut être laissé vide.

Vous pouvez générer un jeton ici :

Code
https://huggingface.co/settings/tokens

Le jeton n'est utilisé que pendant le téléchargement du modèle.

max_tokens

Définit le fenêtre de contexte maximale le serveur doit prendre en charge.

Cela affecte directement Utilisation de la VRAM.

Valeurs typiques :

Contexte Recommandé
petits modèles 4096
modèles moyens 8192
modèles de contexte long 16384+

Des valeurs plus élevées augmentent considérablement l'utilisation de la mémoire. Si votre serveur manque de VRAM, diminuez cette valeur.

nom du modèle

Le Identifiant du modèle Hugging Face que vLLM doit charger.

Exemple :

Code
mistralai/Ministral-3-14B-Instruct-2512

Autres exemples compatibles :

Code
Qwen/Qwen2.5-14B-Instruct
google/gemma-3-12b-it
meta-llama/Meta-Llama-3-8B-Instruct
... and many more

Assurez-vous que le modèle est pris en charge par vLLM et qu'1il tient dans la mémoire de votre GPU.

JETON

Ceci est le vôtre clé d'authentification API.

Toutes les requêtes au serveur vLLM doivent inclure ce jeton dans l'en-tête :

Code
Authorization: Bearer YOUR_TOKEN

Ceci protège votre serveur contre les accès non autorisés.

Exemple de requête :

Code
curl https://your-server/v1/chat/completions \
  -H "Authorization: Bearer YOUR_TOKEN"

Utilisez une chaîne aléatoire forte.


Taille du modèle et exigences GPU

Vous pouvez utiliser une large gamme de grands modèles de langage de HuggingFace au sein de vLLM. Assurez-vous qu'il y ait suffisamment de VRAM disponible, car la performance dépend de la quantité de VRAM GPU libre disponible pour accueillir la taille du modèle et du contexte, multipliée par le nombre d'utilisateurs simultanés.

Trooper.AI sélectionne automatiquement la précision optimale en fonction de l’architecture du GPU.

Calcul de la VRAM : Poids du modèle + tampon KV-Cache d'environ 25 %.
La VRAM peut être partagée entre plusieurs GPU via le parallélisme Tensor (--tensor-parallel-size N).

Modèle Paramètres Précision VRAM totale min. Configuration GPU GPU
Qwen/Qwen3-4B 4B BF16 ~8 GB 1× V100 16GB / RTX 4070 Ti Super 1
Qwen/Qwen3-8B 8B BF16 ~20 GB 1× RTX 3090 / RTX 4090 (24 Go) 1
mistralai/Ministral-3-14B-Instruct-2512 14B FP8 ~29 GB 1× RTX 4080 Pro 32GB ou 1× A100 40GB 1
Qwen/Qwen3-32B 32B FP8 ~40 GB 1× A100 40GB ou 2× RTX 4090 (2×24 GB) 1–2
meta-llama/Llama-3.1-8B-Instruct 8B FP8 ~20 GB 1× RTX 3090 / RTX 4090 (24 Go) 1
meta-llama/Llama-3.1-70B-Instruct 70B FP8 ~90 GB 1× RTX Pro 6000 Blackwell (96 Go) ou 2× A100 (2×40 Go) 1–2

Remarque : FP8 est utilisé sur les architectures Ada/Hopper (RTX 40-series, A100, H100) pour un débit maximal. \ Trooper.AI sélectionne automatiquement la précision optimale pour votre GPU.
Les configurations multi-GPU utilisent le parallélisme Tensor — la VRAM est mise à l’échelle linéairement sur les GPU.


Paramètres publics

Ces paramètres peuvent être définis via les variables d'environnement avant d'exécuter le programme d'installation.

Variable Description
TOKEN Clé d'API pour l'authentification
modelname Chemin du modèle HuggingFace
hf_token Token HuggingFace (pour les modèles restreints)
commandline_args Arguments CLI vLLM supplémentaires

Banc d'essai automatique pour l'optimisation des paramètres

Status Dashboard for vLLM on Trooper.AI
Tableau de bord d’état pour vLLM sur Trooper.AI

Notre modèle inclut un test de performance pour vous aider à optimiser votre serveur GPU pour une utilisation multi-agents. Utilisez-le pour tester et comparer les modèles, les types de GPU et les paramètres afin de maximiser le débit et le nombre d'utilisateurs simultanés.

Comment fonctionne le benchmark ?

Le benchmark lance plusieurs agents simultanément, chacun interagissant avec le point de terminaison du serveur vLLM sur un sujet différent. Cela empêche la mise en cache et teste les performances en conditions réelles. Vous pouvez voir le débit de chaque agent, le débit total et comparer les coûts des services basés sur des tokens comme GPT-5 mini. Souvent, un serveur vLLM de Trooper.AI est 2 à 4 fois moins cher que les grands services d'inférence basés sur des tokens tout en gardant votre travail LLM privé !


Ce que fait le modèle

Startup of your vLLM server
Démarrage de votre serveur vLLM

  1. Détecte l'architecture GPU (Volta, Ampere, Ada, Hopper, Blackwell)

  2. Détecte la taille de la VRAM

  3. Sélectionne automatiquement la précision optimale :

    • FP8 > BF16 > FP16
  4. Utilise le cache KV FP16 pour la stabilité

  5. Régler :

    • séquences concurrentes maximales
    • taille des lots de jetons
    • utilisation de la mémoire
  6. Installe vLLM avec CUDA

  7. Crée un service systemd :

    Code
    vllm-server.service
    
  8. Démarre un serveur d'API compatible OpenAI, persistant, sur un point de terminaison HTTPS sécurisé.

Aucun réglage manuel n'est requis.


Points de terminaison de l’API

URL de base :

Code
http://YOUR_SERVER:PORT/v1

Points de terminaison:

  • /v1/models
  • /v1/completions
  • /v1/chat/completions

En-tête d'authentification :

Code
Authorization: Bearer YOUR_TOKEN_FROM_CONFIG

Exemple de client Python

python
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
)

resp = client.chat.completions.create(
    model="Qwen/Qwen3-14B",
    messages=[
        {"role": "user", "content": "Hello, what is vLLM?"}
    ],
    max_tokens=200
)

print(resp.choices[0].message.content)

Exemple de client Node.js

javascript
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "YOUR_API_KEY",
  baseURL: "https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1"
});

const completion = await client.chat.completions.create({
  model: "Qwen/Qwen3-14B",
  messages: [
    { role: "user", content: "Hello from Node.js" }
  ],
  max_tokens: 200
});

console.log(completion.choices[0].message.content);

Exemple de client PHP

php
<?php

$ch = curl_init("https://YOUR_SERVER_ENDPOINT.apps.trooper.ai/v1/chat/completions");

$data = [
  "model" => "Qwen/Qwen3-14B",
  "messages" => [
    ["role" => "user", "content" => "Hello from PHP"]
  ],
  "max_tokens" => 200
];

curl_setopt_array($ch, [
  CURLOPT_POST => true,
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer YOUR_API_KEY",
    "Content-Type: application/json"
  ],
  CURLOPT_POSTFIELDS => json_encode($data)
]);

$response = curl_exec($ch);
curl_close($ch);

echo $response;

Exemple de streaming

Streaming Python

python
resp = client.chat.completions.create(
    model="Qwen/Qwen3-14B",
    messages=[{"role":"user","content":"Explain transformers"}],
    stream=True
)

for chunk in resp:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Streaming Node.js

javascript
const stream = await client.chat.completions.create({
  model: "Qwen/Qwen3-14B",
  messages: [{ role: "user", content: "Explain transformers" }],
  stream: true
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0].delta?.content || "");
}

Cas d'utilisation

Les serveurs vLLM de Trooper.AI sont conçus pour :

  • Backends d'IA SaaS
  • Chatbots
  • Assistants de code
  • Systèmes RAG
  • Serveurs d'inférence multi-utilisateurs
  • Inférence par lots à haut débit
  • Environnements de location de GPU

Philosophie de la performance

Trooper.AI utilise :

  • Réglage automatique de l'architecture
  • Sélection automatique de la précision
  • Regroupement tenant compte de la VRAM
  • Configuration du cache KV stable

Cela permet d’éviter :

  • Mauvaise configuration du GPU
  • Plantages de précision
  • Fragmentation de la VRAM
  • Instabilité contextuelle

Comparaison des coûts : Ministral-3 sur Trooper.AI vs GPT-5 mini

Jeopardy-Game-Benchmark
Jeopardy-Game-Benchmark

Pour donner une idée approximative de l'économie de l'auto-hébergement, la comparaison suivante projette le coût de l'exécution de Ministral-3-14B-Instruct-2512 sur un serveur GPU Trooper.AI par rapport à l'utilisation de l'API GPT-5 mini pour la même charge de travail.

L'estimation est basée sur l'exécution réelle du benchmark décrite dans cet article et extrapolée à une heure de débit d'inférence continu.

Coût horaire au débit mesuré

Plateforme Coût horaire
API GPT-5 mini ~$3.12
Ministral-3-14B sur un serveur GPU Trooper.AI €0.51 (~$0.54)

Comment cela a été calculé

Cette estimation est basée sur le exécution de référence réelle dans cet article utilisant Ministral-3-14B-Instruct-2512 sur un serveur GPU Trooper.AI.

Mesure Valeur
Nombre total de jetons traités 307,028
Temps d'exécution 153 secondes
Débit ~2006 tokens/sec
Tokens/heure projetés ~7,22 millions de tokens

Répartition des jetons dans le benchmark :

Type de jeton Jetons
Tokens d'entrée 275,186
Tokens de sortie 31,842

En appliquant ce ratio ~7,22M jetons/heure et en appliquant Tarification GPT-5 mini:

  • 0,25 € / 1 million de jetons d'entrée
  • 2,00 $ / 1M tokens de sortie

donne un coût estimé environ 3,12 € de l'heure pour la même charge de travail.

Le Serveur Ministral-3 sur Trooper.AI fonctionne à un coût fixe de plat de 0,51 €/heure (~0,54 $) quel que soit le volume de jetons, ce qui permet le traitement des millions de tokens par heure à un coût prévisible.

Projection de charge de travail de longue durée

En utilisant le débit observé, nous pouvons estimer le coût de fonctionnement du système. pour une heure complète.

Mesure Valeur
Jetons par heure ~7,221,543
Coût GPT-5 mini $3.12
Coût du serveur Trooper.AI €0.51 (~$0.54)

Économies horaires

Exécuter la même charge de travail pendant une heure serait encore :

≈ 5,8× moins cher sur Trooper.AI

Quand l'auto-hébergement devient beaucoup plus économique

L'auto-hébergement de LLM est généralement plus avantageux lorsque :

  • les charges de travail contiennent de nombreuses petites requêtes
  • inférence parallèle est requis
  • applications génèrent des millions de tokens par heure
  • les charges de travail s'exécutent en continu

Des exemples typiques incluent :

  • Simulations de jeux IA
  • systèmes d'agents
  • pipelines d'automatisation
  • applications de chat avec de nombreux utilisateurs

Résumé

Dans ce test de performance :

Mesure Résultat
Modèle Ministral-3-14B
Coût du serveur €0.51/hour
Jetons traités 307k
Temps d'exécution 153 secondes
Réduction des coûts 82.8%
Avantage de coût 5,8 fois moins cher que GPT-5 mini

Pour les charges de travail à haut débit, l'exécution de modèles tels que Ministral-3 sur les serveurs GPU Trooper.AI peut réduire considérablement les coûts d'inférence tout en supprimant les limites de débit de l'API.


Pourquoi vous avez besoin du modèle vLLM

Le modèle vLLM Trooper.AI vous offre :

  • API compatible OpenAI
  • Optimisation automatique du GPU
  • Valeurs par défaut garantissant la stabilité en production
  • Configuration minimale
  • Débit maximal

Vous choisissez uniquement le modèle et la clé API.

Tout le reste est optimisé automatiquement.


Dépannage

Avec le tableau de bord, vous pouvez facilement détecter les problèmes de démarrage et les résoudre. Pas assez de VRAM ? Passez à un Blib supérieur en quelques minutes via le tableau de bord. Ou corrigez l'utilisation de la VRAM en réduisant la taille de la fenêtre de jetons. Vérifiez facilement les Logs en temps réel avec le tableau de bord :

Crashed and how to fix it
Planté et comment le corriger


Support

Pour un réglage avancé, multi-GPU ou des préréglages personnalisés, contactez le support de Trooper.AI.