Choisir le meilleur LLM pour votre projet : méthode, critères et test terrain
- Fadi Nammour
- 15 mai
- 7 min de lecture
Dernière mise à jour : 18 juil.

« Multimodal ou purement textuel ? », « Propriétaire ou open source ? ». Autant de questions auxquelles un projet est souvent confronté au moment de choisir un LLM. Il y a encore moins de trois ans, le nombre limité de modèles permettait d’y répondre rapidement, quand ces questions se posaient réellement.
Aujourd’hui, avec la montée en puissance et la diversification des LLM, nous vivons ce que certains qualifient de cinquième révolution industrielle : l’Homme au centre de la chaîne, à travers les interactions homme-machine. Mais cette abondance a un prix : il devient de plus en plus difficile d’identifier le modèle le plus adapté à un besoin donné.
Parler du “meilleur modèle” suppose une comparaison. Mais selon quels critères ? Les performances durant les tests ? La vitesse de calcul ? Le coût ?...
🟪 Pourquoi il est important de bien choisir son LLM ?
Dans cet article, je partage mon approche pour effectuer ce choix. Mais avant cela, quelques éléments pour vous convaincre de l’importance de cette décision.
Commençons par un aperçu du marché des LLM, en nous appuyant sur l’étude Large Language Models Market Trends publiée par Grand View Research. Celle-ci présente la répartition des parts de marché des LLM selon les secteurs d’activité.
En 2024, ce marché est estimé à plus de 5,6 milliards de dollars. Il se concentre principalement sur quatre grands domaines :
• le commerce et e-commerce (28 %),
• la finance (22 %),
• les médias et divertissements (23 %),
• et la santé (15 %).
La technologie des LLM se développe donc à grande vitesse et s’industrialise pour répondre aux besoins spécifiques de secteurs très variés. Cela soulève des contraintes qui vont bien au-delà des seules performances techniques (temps, coût, précision, etc.). Elles touchent aussi à des enjeux juridiques, éthiques, et aux relations humaines.
Par conséquent, selon le cas d’usage, l’architecture et les données d’entraînement du LLM, le niveau de performance peut varier considérablement. Dans son article DeepSeek-R1 vs ChatGPT-4o: Analyzing Performance Across Key Metrics (source), Bernard Loki met en évidence que DeepSeek-R1 affiche d’excellentes performances en raisonnement logique, mais présente des limites en traitement des langues naturelles. Il a notamment tendance à mélanger les langues, en particulier lorsqu’il s’agit de langues autres que l’anglais ou le chinois.
Ainsi, DeepSeek-R1 s’avère être un très bon choix pour des tâches de raisonnement complexes, comme la résolution ou l’explication de problèmes mathématiques en anglais. En revanche, l’utiliser comme chatbot francophone constituerait un choix sous-optimal.
🟪 Comment choisir le modèle le plus pertinent pour vous ?
Puisque tous les LLM ne se valent pas, comment identifier celui qui sera le plus adapté au projet que l’on souhaite mener ?
La réponse réside principalement dans une revue de la littérature, récente, rigoureuse, combinée à l’expérience de l’équipe et à sa capacité à cerner les enjeux spécifiques du projet.
Concrètement, un bon point de départ consiste à s’appuyer sur un classement complété par un comparateur de modèles, idéalement interactif.
Bonne nouvelle : ces deux outils sont aujourd’hui réunis dans une interface libre d’accès, Chatbot Arena (https://lmarena.ai).
Exemple
Prenons un exemple illustratif.
Imaginons que l’association fictive Francophones Sans Frontières nous sollicite pour développer un correcteur de dictée. L’objectif : corriger les fautes d’orthographe et expliquer la règle à l’élève de façon adaptée à son niveau. L’association dispose déjà d’un logiciel de reconnaissance de texte manuscrit.
Pour répondre à ce besoin, plusieurs critères se dégagent rapidement quant au choix du LLM :
▶︎ Il peut être purement textuel (la reconnaissance manuscrite étant déjà prise en charge),
▶︎ Il doit maîtriser le français,
▶︎ Il doit être capable de raisonnement,
▶︎ Et il doit posséder une subtilité pédagogique, c’est-à-dire la capacité à adapter son explication en fonction du niveau de l’élève.
Dans ce cas précis, la sécurité des données n’est pas un enjeu central, puisqu’aucune donnée sensible ou personnelle n’est traitée.
Par ailleurs, l’association, qui promeut l’accès à l’éducation, cherche à diffuser ses solutions à moindre coût. Ce critère économique, bien que pertinent, est ici considéré comme secondaire et pourra être exploré dans un second temps (il ne sera donc pas traité dans cet exemple).
Nous disposons désormais d’un ensemble de critères de sélection clairs pour amorcer notre recherche.
Dans la figure 2, nous appliquons ces contraintes concrètement : le nombre de votes est utilisé comme critère de classement, afin d’obtenir une première approximation de la qualité des échanges entre chaque modèle et les utilisateurs (voir remarques 1 et 2 plus bas).
Retenons les trois modèles les mieux classés : Claude 3 Opus, Llama 3 70B Instruct et GPT-4 (1106 preview).
Nous pouvons désormais les comparer via l’outil side-by-side d’Arena, accessible depuis la barre horizontale en haut du site Chatbot Arena. Les deux premiers modèles y sont disponibles. En revanche, GPT-4 n’y figure pas. Nous pouvons toutefois le tester directement via https://chatgpt.com, où la version proposée est GPT-4-turbo.
Maintenant que nous avons accès aux trois modèles, nous pouvons effectuer un test simple en 1-shot learning, c’est-à-dire en fournissant une instruction accompagnée d’un seul exemple de réponse. Prenons l’instruction suivante :
Vous êtes un enseignant de français pour des élèves en classe de 5e. Vous devez corriger, compter et expliquer les erreurs dans le texte qui vous est donné, en vous basant sur les règles de grammaire et d’orthographe adaptées à un élève en classe de 5e.
Voici un exemple:
TEXTE:
Le mièle est délicieux et bon pour le santé. Tout les matins, ma maman m’en faite une tartine.
REPONSE:
Nombre d’erreurs : 4.
Erreur 1: miel au lieu de mièle. Explication: nom commun.
Erreur 2: la santé au lieu de le santé. Explication: santé est un nom féminin.
Erreur 3: Tous au lieu de Tout. Explication: il faut accorder avec les matins qui est au pluriel.
Erreur 4: fait au lieu de faite. Explication: verbe faire accordé à la 3e personne du singulier au présent de l’indicatif pour exprimer une habitude.
Ensuite testons avec le texte suivant :
L’équinoxe est un fénomaine qui ce produit deux fois par an.
Nous obtenons les réponses suivantes :
Claude 3 Opus
Nombre d'erreurs : 2
Erreur 1 : phénomène au lieu de fénomaine. Explication : "phénomène" est un nom commun qui s'écrit avec "ph" et prend un accent grave sur le deuxième "e".
Erreur 2 : se au lieu de ce. Explication : "se" est un pronom réfléchi, mais ici, on a besoin du pronom démonstratif "ce" qui sert à désigner "un phénomène".
Le texte corrigé est donc :
L'équinoxe est un phénomène qui se produit deux fois par an.
Llama 3 70B Instruct
Nombre d’erreurs : 3.
Erreur 1 : phénomène au lieu de fénomaine. Explication : nom commun, erreur d'orthographe.
Erreur 2 : se au lieu de ce. Explication : "se" est un pronom réfléchi, tandis que "ce" est un démonstratif, mais dans ce cas, il faut utiliser "se" pour indiquer que l'événement se produit lui-même.
Erreur 3 : se produit au lieu de se produit n'est pas l'erreur, mais "qui se produit" est la bonne expression, l'erreur est dans la phrase, il vaudrait mieux dire "L’équinoxe est un phénomène qui se produit deux fois par an" pour une meilleure compréhension, mais l'erreur vient du "qui" qui n'est pas nécessaire, une meilleure phrase serait "L’équinoxe est un phénomène qui se produit deux fois par an".
Mais la phrase la plus simple et la plus claire serait :
"L’équinoxe est un phénomène qui se produit deux fois par an" pour une meilleure compréhension.
Une autre erreur possible serait "L’équinoxe se produit deux fois par an" qui est une phrase plus simple et plus claire.
GPT-4 1106 preview
Nombre d’erreurs : 2.
Erreur 1 : phénomène au lieu de fénomaine.
Explication : Le mot phénomène s’écrit avec ph et non f.
Erreur 2 : se produit au lieu de ce produit.
Explication : Ici, se est un pronom réfléchi qui accompagne le verbe produire à la 3e personne du singulier. Ce est un déterminant démonstratif qui désigne quelque chose, ce qui n’a pas de sens dans cette phrase.
N’hésite pas à m’envoyer d’autres phrases à corriger ! 🙂
❌ Dans notre exemple, Llama a comptabilisé la même erreur deux fois, ce qui le disqualifie.
❌ Claude a mal expliqué la deuxième erreur, ce qui conduit également à son exclusion.`
✅ GPT-4, en revanche, a correctement identifié le nombre d’erreurs et fourni une explication juste et adaptée. Il serait donc pertinent, dans ce contexte, de commencer à travailler avec GPT-4 (voir remarque 3, plus bas).
🟪 Conclusion :
En conclusion, la diversité des domaines et des cas d’usage autour des LLM rend le choix d’un modèle adapté plus stratégique que jamais. Une analyse rigoureuse des contraintes permet de filtrer des candidats en s’appuyant sur des classements pertinents pour le projet. Ces candidats doivent ensuite être testés concrètement, afin d’identifier celui qui répond le mieux aux besoins.
Et si le projet s’inscrit dans la durée, le choix du LLM doit être régulièrement réévalué pour rester aligné avec l’évolution rapide du marché.
👉 En bref : soyez flexible, restez à jour, et testez !
🟪 Remarques :
👉 1. Le critère par défaut Arena score aurait également pu être utilisé. Il s’agit d’un classement ELO qui permet de classer les LLM de la même manière que les joueurs aux échecs. D’autres critères pourraient également être considérés tels que Prompt-to-Leaderboard qui permet directement de classer les LLM suivant le prompt donné.
👉 2. Actuellement Chatbot Arena contient certains biais au niveau de ses méthodes de classement. Pour plus de détails voir l’article: https://arxiv.org/pdf/2504.20879
👉 3. Dans cet exemple, nous avons utilisé uniquement un seul exemple avec une seule façon
d’écrire l’instruction. Le meilleur LLM aurait pu être différent. Dans le cadre d’un vrai projet, il faut tester avec plusieurs exemples et différentes manières de rédiger l’instruction afin d’assurer au mieux l’équité dans la comparaison.
👉 4. Pour plus d’informations sur le sujet, cet article pourrait vous intéresser
Et vous, quels critères privilégiez-vous pour choisir votre LLM idéal ? N'hésitez pas à partager votre approche ou vos retours d'expérience en commentaires ou à nous contacter pour en discuter !
Commentaires