Configurations recommandées

vLLM est un serveur d'inférence LLM de niveau production. PagedAttention, batching continu et parallélisme tensoriel délivrent un débit 10 à 24 fois supérieur à l'inférence naïve HuggingFace. API compatible OpenAI. GPU requis.

Development — small models

Modèles 7-13B, dev/staging Tests API et développement
à partir de €199.00/mo
Dedicated server
RTX 4090 (24 GB VRAM)
CPU
6 cores
RAM
32 GB RAM
Stockage
100 GB NVMe
Réseau
1 Gbps unlimited
24–72h

Idéal pour servir des modèles 7B–13B en production

Voir les serveurs correspondants

Enterprise — multi-GPU

Débit maximal, parallélisme tensoriel Cluster d'inférence enterprise
à partir de €1,199.00/mo
Dedicated server
2× A100 (160 GB VRAM)
CPU
16 cores
RAM
256 GB RAM
Stockage
500 GB NVMe
Réseau
1 Gbps unlimited
24–72h

Parallélisme tensoriel sur plusieurs GPU

Voir les serveurs correspondants

Vous cherchez une configuration GPU spécifique ?

Parcourir tous les serveurs dédiés GPU →

Pourquoi vLLM a besoin du bon serveur

PagedAttention multiplie le débit

Le PagedAttention de vLLM gère la mémoire GPU comme la mémoire virtuelle d'un OS, permettant une réutilisation efficace du cache KV. Cela délivre un débit 10 à 24 fois supérieur à l'exécution directe des modèles avec HuggingFace Transformers.

Remplacement direct d'OpenAI

vLLM expose une API compatible OpenAI. Changez une variable d'environnement dans votre application (l'URL de base) et votre app tourne contre votre propre modèle au lieu de payer au token.

Supporte tous les grands modèles open source

Llama 3, Mistral, Mixtral, Qwen, DeepSeek, Gemma — vLLM supporte toutes les grandes architectures. Chargez n'importe quel modèle depuis HuggingFace Hub et servez-le avec vLLM sans modification de code.

Bande passante illimitée critique

Un service LLM à haut débit génère un trafic sortant significatif. Les plafonds de bande passante limiteront votre débit API et ajouteront des coûts imprévisibles. Tous les plans Dedimax incluent un trafic illimité.

Questions fréquentes

Qu'est-ce qui rend vLLM meilleur que d'exécuter des modèles directement ?

Le PagedAttention et le batching continu de vLLM lui permettent de servir de nombreuses requêtes simultanées efficacement. Exécuter un modèle directement avec HuggingFace traite une requête à la fois. vLLM peut traiter des dizaines de requêtes simultanément, atteignant un débit 10 à 24 fois supérieur.

Quel GPU me faut-il pour vLLM ?

Pour les modèles 7–13B : RTX 4090 (24 Go VRAM). Pour les modèles 70B : A100 (80 Go VRAM). Pour le parallélisme tensoriel multi-GPU : 2× A100 ou plus. vLLM nécessite des GPU NVIDIA compatibles CUDA — les GPU grand public et datacenter fonctionnent tous les deux.

Quels modèles vLLM supporte-t-il ?

vLLM supporte toutes les grandes familles de modèles open source : Llama (Meta), Mistral, Mixtral, Gemma (Google), Qwen (Alibaba), DeepSeek, Yi, Falcon et plus. Tout modèle avec une architecture supportée sur HuggingFace Hub peut être chargé et servi.

Puis-je utiliser vLLM comme remplacement direct d'OpenAI ?

Oui. vLLM implémente la spec REST API d'OpenAI. Changez le paramètre base_url dans la configuration de votre SDK OpenAI vers l'adresse de votre serveur et votre application fonctionne immédiatement avec votre modèle auto-hébergé.

Quelle bande passante vLLM consomme-t-il ?

Ça dépend de votre trafic. Un serveur gérant 100 requêtes/minute avec des réponses de 1 000 tokens en moyenne génère des données sortantes significatives. Les plafonds de bande passante limiteront le débit et ajouteront des coûts. Tous les plans Dedimax incluent un trafic illimité.

vLLM est le principal framework d'inférence LLM open source pour les déploiements en production. Sa gestion mémoire PagedAttention et son batching continu délivrent un débit 10 à 24 fois supérieur à l'inférence naïve, ce qui en fait le choix des équipes qui doivent servir des LLM à grande échelle. vLLM expose une API compatible OpenAI — les applications existantes qui appellent GPT-4 peuvent basculer vers votre modèle auto-hébergé en changeant une seule URL. Pour les modèles 7–13B, une RTX 4090 avec 24 Go de VRAM offre un bon rapport coût-performance. Pour les modèles 70B et le trafic production, une A100 avec 80 Go de VRAM est la cible de déploiement standard.

Le coin des experts

Un sujet bloquant ?
Une expertise à partager ?

On vous attend sur notre forum collaboratif. Déjà plus de 70 tutoriels en ligne (sysadmin, gaming, devops...) !

ça m'interesse
DEDIMAX DEDIMAX DEDIMAX DEDIMAX
DEDIMAX

Une question

À votre service !

Contactez-nous

Prendre contact