Test de Turing sous stéroïdes : évaluations participatives de Chatbot Arena pour 45 modèles d’IA


À mesure que le paysage de l’IA s’est élargi pour inclure des dizaines de grands modèles de langage (LLM) distincts, les débats sur le modèle qui fournit les « meilleures » réponses à une invite donnée ont également proliféré (Ars s’est même plongé dans ce type de débats à quelques reprises ces dernières années). mois). Pour ceux qui recherchent un moyen plus rigoureux de comparer différents modèles, les gens de la Large Model Systems Organization (LMSys) ont mis en place Chatbot Arena, une plate-forme permettant de générer des classements de style Elo pour les LLM basés sur un site Web de tests aveugles participatifs.

Les utilisateurs de Chatbot Arena peuvent saisir n’importe quelle invite à laquelle ils peuvent penser dans le formulaire du site pour voir côte à côte les réponses de deux modèles sélectionnés au hasard. L’identité de chaque modèle est initialement cachée et les résultats sont annulés si le modèle révèle son identité dans la réponse elle-même.

L’utilisateur peut ensuite choisir quel modèle a fourni ce qu’il juge être le « meilleur » résultat, avec des options supplémentaires pour une « égalité » ou « les deux sont mauvais ». Ce n’est qu’après avoir fourni un classement par paire que l’utilisateur peut voir quels modèles il jugeait, bien qu’une section distincte « côte à côte » du site permette aux utilisateurs de choisir deux modèles spécifiques à comparer (sans la possibilité de voter sur le site). résultat).

Un blind test sur notre ancien favori

Depuis son lancement public en mai, LMSys affirme avoir rassemblé plus de 130 000 évaluations aveugles par paires sur 45 modèles différents (début décembre). Ces chiffres semblent sur le point d’augmenter rapidement après une récente critique positive d’Andrej Karpathy d’OpenAI cela a déjà conduit à ce que LMSys décrit comme « un super stress test » pour ses serveurs.

Les milliers de notes par paires de Chatbot Arena sont analysées via un modèle Bradley-Terry, qui utilise un échantillonnage aléatoire pour générer une note de style Elo estimant quel modèle est le plus susceptible de gagner en compétition directe contre un autre. Les parties intéressées peuvent également accéder aux données brutes de dizaines de milliers d’évaluations d’invite/réponse humaine ou examiner des statistiques plus détaillées, telles que les taux de victoire directe par paire entre les modèles et les plages d’intervalles de confiance pour ces estimations Elo.



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*