Aller au contenu principal

Exécuter des LLM locaux avec Cursor : Guide complet d'installation

Si vous travaillez sur du code propriétaire, manipulez des données sensibles ou ne souhaitez simplement pas que vos extraits de code quittent votre machine, exécuter un LLM local avec Cursor est une option solide. Ce guide vous accompagne dans la configuration pratique d'Ollama et de LM Studio, ainsi que dans les compromis à connaître avant de basculer.

Pourquoi s'embêter avec des modèles locaux ?

Trois raisons reviennent sans cesse dans la communauté :

  • Confidentialité : Votre code ne quitte jamais votre réseau local. Pas d'API tierce, pas de politique de conservation de données à décrypter.
  • Coût : Après les frais matériels, l'inférence est gratuite. Pas de facturation au token, pas de pics d'utilisation.
  • Accès hors ligne : Fonctionne dans l'avion, dans les réseaux d'entreprise verrouillés, ou partout où il n'y a pas d'internet.
astuce

Les modèles locaux excellent dans la génération de code répétitif, les refactorisations simples et les questions rapides sur votre propre base de code. Vous n'avez pas besoin de GPT-4 pour tout.

Backends de modèles locaux pris en charge

Cursor ne propose pas de support natif pour les modèles locaux de la même manière qu'il supporte les API OpenAI ou Anthropic. À la place, vous pointez Cursor vers un serveur local qui expose une API compatible OpenAI. Les trois options les plus courantes :

BackendIdéal pourComplexité d'installation
OllamaDémarrage rapide, gestion des modèlesFaible
LM StudioAmateurs d'interface graphique, utilisateurs Windows/MacFaible
llama.cppContrôle maximal, overhead minimalMoyenne

Ce guide se concentre sur Ollama et LM Studio car ce sont ceux que la plupart des développeurs utilisent au quotidien.

Ollama + Cursor : étape par étape

1. Installer Ollama

Téléchargez depuis ollama.com et installez. Il s'exécute en tant que service d'arrière-plan sur macOS, Linux et Windows.

Vérifiez que tout fonctionne :

ollama --version

2. Télécharger un modèle

Commencez par un modèle capable de générer du code. Les favoris de la communauté sont :

  • codellama:7b-code ou codellama:13b-code — rapide, décent pour les tâches simples
  • deepseek-coder:6.7b — performant pour la complétion de code
  • qwen2.5-coder:7b ou 14b — bon équilibre entre vitesse et qualité
ollama pull deepseek-coder:6.7b

3. Démarrer le serveur compatible OpenAI

Ollama expose une API compatible OpenAI sur localhost:11434. Gardez-le en cours d'exécution :

ollama serve

Ou laissez le service d'arrière-plan s'en charger.

4. Configurer Cursor

Ouvrez les paramètres de Cursor (Ctrl/Cmd + ,) et naviguez vers :

Paramètres > Modèles > Clé API OpenAI

Définissez l'URL de base sur :

http://localhost:11434/v1

Laissez le champ de la clé API vide ou entrez n'importe quelle chaîne factice (certaines versions nécessitent une valeur non vide).

Sélectionnez le nom du modèle correspondant à ce que vous avez téléchargé. Par exemple :

deepseek-coder:6.7b
info

Cursor envoie les requêtes au format de complétions de chat OpenAI. Le point de terminaison /v1 d'Ollama les traduit automatiquement. Vous n'avez pas besoin de proxy.

5. Tester

Ouvrez un fichier et appuyez sur Ctrl/Cmd + L pour ouvrir le panneau de chat. Posez une question simple :

Écris une fonction Python qui inverse une chaîne sans utiliser le slicing.

Si vous obtenez une réponse, vous êtes connecté. Si cela bloque, vérifiez que ollama serve est en cours d'exécution et que le nom du modèle correspond exactement.

LM Studio + Cursor : étape par étape

LM Studio est le meilleur choix si vous voulez une interface graphique pour télécharger et changer de modèles.

1. Installer LM Studio

Téléchargez depuis lmstudio.ai. Disponible pour macOS, Windows et Linux.

2. Télécharger un modèle

Ouvrez LM Studio, allez dans l'onglet Découvrir, et recherchez un modèle de code. De bons choix :

  • TheBloke/CodeLlama-7B-Instruct-GGUF
  • TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
  • Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

Téléchargez la quantification Q4_K_M ou Q5_K_M pour un équilibre entre taille et qualité.

3. Démarrer le serveur local

Dans LM Studio, allez dans l'onglet Serveur local à gauche. Chargez votre modèle, puis cliquez sur Démarrer le serveur.

Par défaut, il s'exécute sur :

http://localhost:1234/v1

4. Configurer Cursor

Même processus qu'Ollama. Dans Paramètres Cursor > Modèles > Clé API OpenAI, définissez :

http://localhost:1234/v1

Le champ du nom de modèle peut être laissé sur local-model ou tout autre espace réservé que LM Studio attend. LM Studio ignore le nom du modèle et utilise celui actuellement chargé.

5. Vérifier

Exécutez le même prompt de test. Les logs du serveur de LM Studio montrent les requêtes entrantes, ce qui est utile pour le débogage.

Ce qui fonctionne et ce qui ne fonctionne pas

Les modèles locaux ne sont pas un remplacement direct de Claude 3.5 Sonnet ou GPT-4o. Voici le bilan honnête :

TâcheLocal 7B-13BCloud (Claude/GPT-4)
Refactorisations simplesBonExcellent
Génération de code répétitifBonExcellent
Décisions d'architecture complexesFaibleExcellent
Compréhension de grandes bases de codeFaibleExcellent
Modifications multi-fichiersFaibleBon
Vitesse (avec GPU)RapideDépendante du réseau
Vitesse (CPU uniquement)LentDépendante du réseau
attention

Exécuter un modèle 13B sur CPU peut prendre 10 à 30 secondes par réponse. Un GPU moderne (RTX 3060 ou mieux) ramène cela à 1 à 3 secondes. Ajustez vos attentes.

Stratégie hybride : l'approche pratique

La plupart des développeurs qui restent fidèles aux modèles locaux utilisent un flux de travail hybride plutôt que de tout basculer :

  1. Modèle local pour les tâches rapides et sûres : corrections de lint, renommage, regex simples, explication d'une fonction.
  2. Modèle cloud pour le gros œuvre : conception de nouvelles fonctionnalités, débogage de problèmes complexes, refactoring multi-fichiers.
  3. Basculer selon le projet : code open source ou non sensible → cloud ; propriétaire ou réglementé → local.

Cursor facilite cela car vous pouvez changer de modèle dans les paramètres sans redémarrer l'IDE. Certains utilisateurs gardent deux fenêtres Cursor ouvertes — une pointée vers le local, une vers le cloud — bien que ce soit plus une solution de contournement qu'une fonctionnalité.

astuce

Si vous avez un Mac avec Apple Silicon, Ollama exploite bien le Neural Engine. Un MacBook Pro M3 Pro peut exécuter un modèle 13B à des vitesses utilisables sans vider la batterie comme le ferait un GPU dédié.

Dépannage

Erreurs "Connection refused"

  • Vérifiez que le serveur est en cours d'exécution (ollama serve ou l'onglet serveur LM Studio).
  • Vérifiez le port : Ollama utilise 11434, LM Studio utilise 1234.
  • Vérifiez votre pare-feu ou proxy d'entreprise.

Réponses lentes

  • Utilisez un modèle plus petit ou une quantification plus élevée (Q4 au lieu de Q5).
  • Assurez-vous que votre GPU est utilisé. Les logs d'Ollama montrent GPU ou CPU au chargement.
  • Fermez les autres applications gourmandes en GPU.

Sorties absurdes

  • Le nom du modèle pourrait ne pas correspondre. Ollama est pointilleux sur les noms exacts.
  • Certains modèles nécessitent un format de prompt spécifique. Les modèles instruct fonctionnent mieux que les modèles de base pour le chat.

Cursor ignore le paramètre local

  • Assurez-vous de remplacer l'URL de base OpenAI, pas seulement d'ajouter un modèle personnalisé.
  • Redémarrez Cursor après avoir changé l'URL de base.

Derniers mots

Les LLM locaux avec Cursor sont viables aujourd'hui pour un sous-ensemble de tâches. Ils ne sont pas aussi performants que les modèles cloud, mais pour les développeurs soucieux de la confidentialité ou ceux travaillant dans des environnements restreints, ils sont souvent suffisants. Commencez avec Ollama si vous voulez une installation rapide, ou LM Studio si vous préférez une interface graphique. Attendez-vous à itérer sur le choix du modèle et le flux de travail avant de trouver ce qui fonctionne pour vos projets.