Ollama hosting — Run LLMs on your own server

Configurations recommandées

Ollama permet d'exécuter des grands modèles de langage localement en une seule commande. API compatible OpenAI, support pour Llama, Mistral, Gemma et des centaines d'autres. Le mode CPU fonctionne pour les petits modèles ; le GPU offre une inférence 10x plus rapide.

Small models, CPU

Llama 3 8B, Mistral 7B, Gemma 7B Inférence lente, fonctionnel pour usage personnel

à partir de €9.99/mo

VPS

CPU: 4 cores
RAM: 16 GB RAM
Stockage: 50 GB NVMe
Réseau: Trafic illimité

Instantané

Point d'entrée idéal — inférence CPU pour les modèles 7-8B

Voir les serveurs correspondants

Recommandé

Small models, GPU

Modèles 7-8B à pleine vitesse 10x plus rapide que l'inférence CPU

à partir de €69.00/mo

Dedicated server

GPU 8+ GB VRAM

CPU: 4 cores
RAM: 16 GB RAM
Stockage: 50 GB NVMe
Réseau: Trafic illimité

24–72h

Recommandé — inférence à pleine vitesse pour les petits modèles

Voir les serveurs correspondants

Large models, GPU

Llama 3 70B, Mixtral 8x7B Capacité maximale, niveau production

à partir de €199.00/mo

Dedicated server

GPU 24–80 GB VRAM

CPU: 8 cores
RAM: 64 GB RAM
Stockage: 200 GB NVMe
Réseau: Trafic illimité

24–72h

Pour les modèles 30-70B et les charges de travail production

Voir les serveurs correspondants

Vous cherchez une configuration GPU spécifique ?

Parcourir tous les serveurs dédiés GPU →

Pourquoi Ollama a besoin du bon serveur

Installation en une commande

Installez Ollama avec une seule commande : curl -fsSL https://ollama.com/install.sh | sh. Elle gère tout — configuration du service, détection GPU et gestion des modèles.

API compatible OpenAI

Ollama expose une API REST compatible OpenAI. Toute application conçue pour ChatGPT fonctionne avec Ollama sans modification de code — changez simplement l'URL de base vers votre serveur.

Les modèles quantifiés réduisent la VRAM

Les modèles quantifiés (Q4_K_M) réduisent les besoins en VRAM d'environ 50% avec une perte de qualité minimale. Un modèle qui nécessite normalement 16 Go de VRAM tourne confortablement avec 8 Go.

Le CPU fonctionne, le GPU transforme tout

Les petits modèles 7-8B fonctionnent sur CPU avec 16 Go de RAM — utile pour le développement et les tests. Un GPU avec 8+ Go de VRAM offre une inférence 10x plus rapide, la rendant viable en production.

Questions fréquentes

Ollama peut-il fonctionner sans GPU ?

Oui. Ollama prend en charge l'inférence sur CPU uniquement. Les modèles comme Llama 3 8B et Mistral 7B fonctionnent sur CPU avec 16 Go de RAM — plus lent qu'un GPU, mais fonctionnel pour le développement personnel. Un VPS à partir de 9,99€/mois couvre l'inférence CPU.

Quel GPU me faut-il pour Ollama ?

Pour les modèles 7-8B, un GPU avec 8+ Go de VRAM (RTX 3070 ou similaire) est suffisant. Pour les modèles 30-70B comme Llama 3 70B ou Mixtral, vous avez besoin de 24–80 Go de VRAM (RTX 4090 ou A100). Les modèles quantifiés réduisent les besoins en VRAM d'environ 50%.

Ollama est-il compatible avec mes applications existantes ?

Oui. Ollama expose une API compatible OpenAI. Toute application utilisant le SDK OpenAI ou l'API REST fonctionne avec Ollama sans modification — mettez à jour l'URL de base vers votre serveur et ça fonctionne immédiatement.

Comment gérer les modèles avec Ollama ?

Utilisez la CLI Ollama : ollama pull llama3 pour télécharger un modèle, ollama list pour voir les modèles installés, ollama run llama3 pour un chat interactif. Les modèles sont stockés sous forme de fichiers — téléchargez-les une fois et exécutez-les hors ligne.

Puis-je exécuter plusieurs modèles à la fois ?

Oui. Ollama peut charger et servir plusieurs modèles simultanément, limité par la VRAM disponible. Avec 24 Go de VRAM, vous pouvez exécuter deux modèles 7B ou un modèle 13B simultanément.

Ollama est la façon la plus simple d'exécuter des grands modèles de langage open source sur votre propre infrastructure. Une seule commande d'installation vous donne un serveur LLM local avec une API compatible OpenAI — pointez vos applications existantes dessus sans modifier le code. Les petits modèles comme Llama 3 8B et Mistral 7B fonctionnent sur CPU avec 16 Go de RAM, ce qui convient au développement et à l'expérimentation. Pour un usage en production ou une inférence plus rapide, un serveur GPU avec 8+ Go de VRAM offre 10x la vitesse. Les plans VPS Dedimax à partir de 9,99€/mois couvrent les charges de travail CPU ; les serveurs dédiés GPU gèrent tout, des modèles 7B aux 70B.

Prenez les manettes de votre serveur dédié (configuration, données hébergées…) sans limites dans l’installation de vos applications.

Alors, vous nous rejoignez quand ?

Le coin des experts

Un sujet bloquant ?
Une expertise à partager ?

On vous attend sur notre forum collaboratif. Déjà plus de 70 tutoriels en ligne (sysadmin, gaming, devops...) !

ça m'interesse

Une question

À votre service !

Contactez-nous

Hébergement Ollama 16 Go de RAM minimum pour les modèles 7-8B — GPU recommandé pour la vitesse

Configurations recommandées

Small models, CPU

Small models, GPU

Large models, GPU

Pourquoi Ollama a besoin du bon serveur

Installation en une commande

API compatible OpenAI

Les modèles quantifiés réduisent la VRAM

Le CPU fonctionne, le GPU transforme tout

Questions fréquentes

Ollama peut-il fonctionner sans GPU ?

Quel GPU me faut-il pour Ollama ?

Ollama est-il compatible avec mes applications existantes ?

Comment gérer les modèles avec Ollama ?

Puis-je exécuter plusieurs modèles à la fois ?

Le coin des experts

Un sujet bloquant ?
Une expertise à partager ?

Une question

Prendre contact

Hébergement Ollama 16 Go de RAM minimum pour les modèles 7-8B — GPU recommandé pour la vitesse

Configurations recommandées

Small models, CPU

Small models, GPU

Large models, GPU

Pourquoi Ollama a besoin du bon serveur

Installation en une commande

API compatible OpenAI

Les modèles quantifiés réduisent la VRAM

Le CPU fonctionne, le GPU transforme tout

Questions fréquentes

Ollama peut-il fonctionner sans GPU ?

Quel GPU me faut-il pour Ollama ?

Ollama est-il compatible avec mes applications existantes ?

Comment gérer les modèles avec Ollama ?

Puis-je exécuter plusieurs modèles à la fois ?

Le coin des experts

Un sujet bloquant ? Une expertise à partager ?

Une question

Prendre contact

Un sujet bloquant ?
Une expertise à partager ?