Benchmarks Communautaires
LLMxRay est livré avec 5 suites de benchmark intégrées (ARC, GSM8K, HellaSwag, MMLU-Pro, TruthfulQA). Les membres de la communauté peuvent contribuer des suites supplémentaires pour évaluer les modèles sur des sujets spécialisés.
Comment contribuer
- Faites un fork du dépôt LLMxRay
- Créez un fichier JSON dans le répertoire
community-benchmarks/ - Respectez le schéma défini dans SCHEMA.md
- Soumettez une Pull Request
Exigences
- Minimum 20 questions par suite
- Toutes les questions doivent avoir des réponses correctes vérifiables
- Exactement 4 choix de réponse par question (A, B, C, D)
- Définir
"builtIn": false - Inclure un mélange de niveaux de difficulté lorsque c'est pertinent
Format JSON
json
{
"id": "my-suite",
"name": "My Custom Suite",
"description": "What this suite tests",
"builtIn": false,
"questions": [
{
"id": "my-suite_001",
"category": "my-suite",
"subcategory": "topic",
"question": "The question text?",
"choices": [
"A) First option",
"B) Second option",
"C) Third option",
"D) Fourth option"
],
"correctAnswer": "B",
"difficulty": "medium"
}
]
}Idées de suites
Vous cherchez l'inspiration ? Voici quelques domaines non couverts par les suites intégrées :
- Programmation — Questions de compréhension et de débogage de code
- Énigmes logiques — Logique formelle et raisonnement déductif
- Compréhension linguistique — Expressions idiomatiques, ambiguïtés, pragmatique
- Domaines spécialisés — Connaissances médicales, juridiques, financières ou en ingénierie
- Multilingue — Questions dans d'autres langues que l'anglais
Suites communautaires
Aucune suite communautaire soumise pour le moment. Soyez le premier !
Consultez la suite d'exemple pour une référence fonctionnelle.