Exécuter des LLM locaux avec Cursor : Guide complet d'installation
Si vous travaillez sur du code propriétaire, manipulez des données sensibles ou ne souhaitez simplement pas que vos extraits de code quittent votre machine, exécuter un LLM local avec Cursor est une option solide. Ce guide vous accompagne dans la configuration pratique d'Ollama et de LM Studio, ainsi que dans les compromis à connaître avant de basculer.
Pourquoi s'embêter avec des modèles locaux ?
Trois raisons reviennent sans cesse dans la communauté :
- Confidentialité : Votre code ne quitte jamais votre réseau local. Pas d'API tierce, pas de politique de conservation de données à décrypter.
- Coût : Après les frais matériels, l'inférence est gratuite. Pas de facturation au token, pas de pics d'utilisation.
- Accès hors ligne : Fonctionne dans l'avion, dans les réseaux d'entreprise verrouillés, ou partout où il n'y a pas d'internet.
Les modèles locaux excellent dans la génération de code répétitif, les refactorisations simples et les questions rapides sur votre propre base de code. Vous n'avez pas besoin de GPT-4 pour tout.
Backends de modèles locaux pris en charge
Cursor ne propose pas de support natif pour les modèles locaux de la même manière qu'il supporte les API OpenAI ou Anthropic. À la place, vous pointez Cursor vers un serveur local qui expose une API compatible OpenAI. Les trois options les plus courantes :
| Backend | Idéal pour | Complexité d'installation |
|---|---|---|
| Ollama | Démarrage rapide, gestion des modèles | Faible |
| LM Studio | Amateurs d'interface graphique, utilisateurs Windows/Mac | Faible |
| llama.cpp | Contrôle maximal, overhead minimal | Moyenne |
Ce guide se concentre sur Ollama et LM Studio car ce sont ceux que la plupart des développeurs utilisent au quotidien.
Ollama + Cursor : étape par étape
1. Installer Ollama
Téléchargez depuis ollama.com et installez. Il s'exécute en tant que service d'arrière-plan sur macOS, Linux et Windows.
Vérifiez que tout fonctionne :
ollama --version
2. Télécharger un modèle
Commencez par un modèle capable de générer du code. Les favoris de la communauté sont :
codellama:7b-codeoucodellama:13b-code— rapide, décent pour les tâches simplesdeepseek-coder:6.7b— performant pour la complétion de codeqwen2.5-coder:7bou14b— bon équilibre entre vitesse et qualité
ollama pull deepseek-coder:6.7b
3. Démarrer le serveur compatible OpenAI
Ollama expose une API compatible OpenAI sur localhost:11434. Gardez-le en cours d'exécution :
ollama serve
Ou laissez le service d'arrière-plan s'en charger.
4. Configurer Cursor
Ouvrez les paramètres de Cursor (Ctrl/Cmd + ,) et naviguez vers :
Paramètres > Modèles > Clé API OpenAI
Définissez l'URL de base sur :
http://localhost:11434/v1
Laissez le champ de la clé API vide ou entrez n'importe quelle chaîne factice (certaines versions nécessitent une valeur non vide).
Sélectionnez le nom du modèle correspondant à ce que vous avez téléchargé. Par exemple :
deepseek-coder:6.7b
Cursor envoie les requêtes au format de complétions de chat OpenAI. Le point de terminaison /v1 d'Ollama les traduit automatiquement. Vous n'avez pas besoin de proxy.
5. Tester
Ouvrez un fichier et appuyez sur Ctrl/Cmd + L pour ouvrir le panneau de chat. Posez une question simple :
Écris une fonction Python qui inverse une chaîne sans utiliser le slicing.
Si vous obtenez une réponse, vous êtes connecté. Si cela bloque, vérifiez que ollama serve est en cours d'exécution et que le nom du modèle correspond exactement.
LM Studio + Cursor : étape par étape
LM Studio est le meilleur choix si vous voulez une interface graphique pour télécharger et changer de modèles.
1. Installer LM Studio
Téléchargez depuis lmstudio.ai. Disponible pour macOS, Windows et Linux.
2. Télécharger un modèle
Ouvrez LM Studio, allez dans l'onglet Découvrir, et recherchez un modèle de code. De bons choix :
TheBloke/CodeLlama-7B-Instruct-GGUFTheBloke/DeepSeek-Coder-6.7B-Instruct-GGUFQwen/Qwen2.5-Coder-7B-Instruct-GGUF
Téléchargez la quantification Q4_K_M ou Q5_K_M pour un équilibre entre taille et qualité.
3. Démarrer le serveur local
Dans LM Studio, allez dans l'onglet Serveur local à gauche. Chargez votre modèle, puis cliquez sur Démarrer le serveur.
Par défaut, il s'exécute sur :
http://localhost:1234/v1
4. Configurer Cursor
Même processus qu'Ollama. Dans Paramètres Cursor > Modèles > Clé API OpenAI, définissez :
http://localhost:1234/v1
Le champ du nom de modèle peut être laissé sur local-model ou tout autre espace réservé que LM Studio attend. LM Studio ignore le nom du modèle et utilise celui actuellement chargé.
5. Vérifier
Exécutez le même prompt de test. Les logs du serveur de LM Studio montrent les requêtes entrantes, ce qui est utile pour le débogage.
Ce qui fonctionne et ce qui ne fonctionne pas
Les modèles locaux ne sont pas un remplacement direct de Claude 3.5 Sonnet ou GPT-4o. Voici le bilan honnête :
| Tâche | Local 7B-13B | Cloud (Claude/GPT-4) |
|---|---|---|
| Refactorisations simples | Bon | Excellent |
| Génération de code répétitif | Bon | Excellent |
| Décisions d'architecture complexes | Faible | Excellent |
| Compréhension de grandes bases de code | Faible | Excellent |
| Modifications multi-fichiers | Faible | Bon |
| Vitesse (avec GPU) | Rapide | Dépendante du réseau |
| Vitesse (CPU uniquement) | Lent | Dépendante du réseau |
Exécuter un modèle 13B sur CPU peut prendre 10 à 30 secondes par réponse. Un GPU moderne (RTX 3060 ou mieux) ramène cela à 1 à 3 secondes. Ajustez vos attentes.
Stratégie hybride : l'approche pratique
La plupart des développeurs qui restent fidèles aux modèles locaux utilisent un flux de travail hybride plutôt que de tout basculer :
- Modèle local pour les tâches rapides et sûres : corrections de lint, renommage, regex simples, explication d'une fonction.
- Modèle cloud pour le gros œuvre : conception de nouvelles fonctionnalités, débogage de problèmes complexes, refactoring multi-fichiers.
- Basculer selon le projet : code open source ou non sensible → cloud ; propriétaire ou réglementé → local.
Cursor facilite cela car vous pouvez changer de modèle dans les paramètres sans redémarrer l'IDE. Certains utilisateurs gardent deux fenêtres Cursor ouvertes — une pointée vers le local, une vers le cloud — bien que ce soit plus une solution de contournement qu'une fonctionnalité.
Si vous avez un Mac avec Apple Silicon, Ollama exploite bien le Neural Engine. Un MacBook Pro M3 Pro peut exécuter un modèle 13B à des vitesses utilisables sans vider la batterie comme le ferait un GPU dédié.
Dépannage
Erreurs "Connection refused"
- Vérifiez que le serveur est en cours d'exécution (
ollama serveou l'onglet serveur LM Studio). - Vérifiez le port : Ollama utilise 11434, LM Studio utilise 1234.
- Vérifiez votre pare-feu ou proxy d'entreprise.
Réponses lentes
- Utilisez un modèle plus petit ou une quantification plus élevée (Q4 au lieu de Q5).
- Assurez-vous que votre GPU est utilisé. Les logs d'Ollama montrent
GPUouCPUau chargement. - Fermez les autres applications gourmandes en GPU.
Sorties absurdes
- Le nom du modèle pourrait ne pas correspondre. Ollama est pointilleux sur les noms exacts.
- Certains modèles nécessitent un format de prompt spécifique. Les modèles instruct fonctionnent mieux que les modèles de base pour le chat.
Cursor ignore le paramètre local
- Assurez-vous de remplacer l'URL de base OpenAI, pas seulement d'ajouter un modèle personnalisé.
- Redémarrez Cursor après avoir changé l'URL de base.
Derniers mots
Les LLM locaux avec Cursor sont viables aujourd'hui pour un sous-ensemble de tâches. Ils ne sont pas aussi performants que les modèles cloud, mais pour les développeurs soucieux de la confidentialité ou ceux travaillant dans des environnements restreints, ils sont souvent suffisants. Commencez avec Ollama si vous voulez une installation rapide, ou LM Studio si vous préférez une interface graphique. Attendez-vous à itérer sur le choix du modèle et le flux de travail avant de trouver ce qui fonctionne pour vos projets.