Modèles

La page Modèles est un navigateur pour tous les modèles installés dans votre instance Ollama locale, avec des métadonnées détaillées et la détection des capacités.

Élément de la barre latérale : Modèles Route : /settings?tab=models

Vue d'ensemble de l'interface

La page Modèles (accessible via l'onglet Paramètres > Modèles) affiche une carte ou une liste pour chaque modèle installé avec les informations essentielles en un coup d'œil.

Détails des modèles

Chaque carte de modèle affiche :

Champ	Description
Nom	Identifiant du modèle (par ex., `llama3.2:latest`)
Nombre de paramètres	Nombre de paramètres (par ex., 3B, 7B, 70B)
Quantification	Niveau de compression (par ex., Q4_0, Q8_0, F16)
Famille	Famille du modèle (par ex., llama, mistral, gemma)
Format	Format du modèle (par ex., gguf)

Diagrammes d'architecture

Cliquez sur un modèle pour voir un diagramme d'architecture montrant la structure interne du modèle -- nombre de couches, têtes d'attention, dimensions d'embedding, et plus encore. Ces informations sont extraites des métadonnées du modèle fournies par Ollama.

Détection des capacités

LLMxRay détecte automatiquement ce que chaque modèle peut faire :

Capacité	Comment elle est détectée	Effet sur l'interface
Raisonnement	Patterns dans le nom du modèle (par ex., `deepseek-r1`) ou capacités Ollama	Active l'onglet raisonnement dans Diagnostics de Chat
Vision	Capacités Ollama ou famille du modèle	Active les pièces jointes images dans le chat
Embedding	Capacités Ollama ou famille du modèle	Apparaît dans les sélecteurs de modèles des pages Plongements et Base de Connaissances
Appel d'outils	Capacités Ollama	Active l'appel d'outils dans le chat

Les modèles ne prenant en charge que les embeddings sont automatiquement filtrés des sélecteurs de modèles de chat.

Catalogue de modèles

Le catalogue offre une vue organisée des modèles disponibles avec des tableaux comparatifs, vous aidant à choisir le modèle adapté à votre cas d'utilisation.

Astuces

Compromis de quantification -- Une quantification basse (Q4) utilise moins de RAM mais réduit légèrement la qualité. Q8 et F16 offrent une meilleure qualité mais nécessitent plus de mémoire.
Télécharger d'autres modèles depuis le terminal : ollama pull <nom-du-modele>
La détection des capacités adapte l'ensemble de l'interface -- vous n'avez rien à configurer manuellement.

Modèles ​

Vue d'ensemble de l'interface ​

Détails des modèles ​

Diagrammes d'architecture ​

Détection des capacités ​

Catalogue de modèles ​

Astuces ​