Skip to content

Modèles

La page Modèles est un navigateur pour tous les modèles installés dans votre instance Ollama locale, avec des métadonnées détaillées et la détection des capacités.

Élément de la barre latérale : Modèles Route : /settings?tab=models

Vue d'ensemble de l'interface

La page Modèles (accessible via l'onglet Paramètres > Modèles) affiche une carte ou une liste pour chaque modèle installé avec les informations essentielles en un coup d'œil.

Détails des modèles

Chaque carte de modèle affiche :

ChampDescription
NomIdentifiant du modèle (par ex., llama3.2:latest)
Nombre de paramètresNombre de paramètres (par ex., 3B, 7B, 70B)
QuantificationNiveau de compression (par ex., Q4_0, Q8_0, F16)
FamilleFamille du modèle (par ex., llama, mistral, gemma)
FormatFormat du modèle (par ex., gguf)

Diagrammes d'architecture

Cliquez sur un modèle pour voir un diagramme d'architecture montrant la structure interne du modèle -- nombre de couches, têtes d'attention, dimensions d'embedding, et plus encore. Ces informations sont extraites des métadonnées du modèle fournies par Ollama.

Détection des capacités

LLMxRay détecte automatiquement ce que chaque modèle peut faire :

CapacitéComment elle est détectéeEffet sur l'interface
RaisonnementPatterns dans le nom du modèle (par ex., deepseek-r1) ou capacités OllamaActive l'onglet raisonnement dans Diagnostics de Chat
VisionCapacités Ollama ou famille du modèleActive les pièces jointes images dans le chat
EmbeddingCapacités Ollama ou famille du modèleApparaît dans les sélecteurs de modèles des pages Plongements et Base de Connaissances
Appel d'outilsCapacités OllamaActive l'appel d'outils dans le chat

Les modèles ne prenant en charge que les embeddings sont automatiquement filtrés des sélecteurs de modèles de chat.

Catalogue de modèles

Le catalogue offre une vue organisée des modèles disponibles avec des tableaux comparatifs, vous aidant à choisir le modèle adapté à votre cas d'utilisation.

Astuces

  • Compromis de quantification -- Une quantification basse (Q4) utilise moins de RAM mais réduit légèrement la qualité. Q8 et F16 offrent une meilleure qualité mais nécessitent plus de mémoire.
  • Télécharger d'autres modèles depuis le terminal : ollama pull <nom-du-modele>
  • La détection des capacités adapte l'ensemble de l'interface -- vous n'avez rien à configurer manuellement.

Released under the Apache 2.0 License.