Claude 3 est le dernier grand modèle de langage du laboratoire d'IA Anthropic et il promet de donner du fil à retordre au GPT-4 d'OpenAI et au Gemini de Google.

La dernière génération du populaire chatbot et modèle d'IA se décline en trois versions, Opus, Sonnet et Haiku, chacune servant des marchés et des objectifs différents.

Lors de l'analyse comparative, Anthropic a déclaré que Claude 3 Opus, le plus grand des modèles, a battu GPT-4 et Gemini 1.0 Ultra en termes de connaissances au niveau du premier cycle, de raisonnement au niveau des cycles supérieurs par une marge significative et en mathématiques à l'école primaire.

Opus alimente la version payante du chatbot Claude, Sonnet la version gratuite et Haiku est un modèle moins cher à exécuter disponible pour les développeurs tiers.

Qu'est-ce que Claude ?

Claude 3

Claude a été l'un des premiers chatbots IA, lancé peu de temps après ChatGPT d'OpenAI et offrant une expérience similaire. L'objectif principal d'Anthropic a été le marché des entreprises, mais Claude a toujours été une alternative utile.

En plus d'un chatbot, Claude 3 est disponible sous forme d'API permettant aux développeurs tiers de créer leurs propres applications. Les modèles Opus et Sonnet sont disponibles au lancement dans 159 pays et Haiku sera bientôt disponible.

J'utilise Claude depuis la première version et je l'ai toujours trouvé plus créatif que ChatGPT ou Gemini. Il a un problème d'hallucination et de refus, mais Anthropic dit avoir résolu ce problème avec la version 3.

C'est la première fois que Claude a la possibilité de visualiser plus que du texte et du code. Il s'agit désormais d'un modèle de vision capable de voir des photos, des graphiques, des graphiques et des schémas techniques.

Il a battu Claude 3 en mathématiques et en raisonnement lors de l'analyse d'images. Il est intéressant de noter que le modèle Sonnet de niveau intermédiaire a battu Opus, GPT-4V et Gemini Ultra en termes de compréhension des diagrammes scientifiques.

Benchmarks des chatbots
Cellule d'en-tête – Colonne 0 Claude 3 Opus GPT-4 Gémeaux Ultra 1.0
Connaissances de niveau premier cycle 86,8% 86,4% 83,7%
Raisonnement des diplômés 50,4% 35,7% N / A
Mathématiques à l'école primaire 95% 92% 94,4%
Code 84,9% 67% 74,4%
Évaluation mitigée 86,8% 83,1% 83,6%
Connaissance commune 95,4% 95,3% 87,8%

Quoi de neuf dans Claude 3 ?

Tester un modèle d'IA n'est jamais facile et il existe des nuances dans les évaluations et la génération qui ne sont pas toujours comparables, mais dans presque tous les benchmarks courants, Claude 3 a confortablement battu GPT-4 et Gemini Ultra.

Le modèle le plus populaire, Opus, « fait preuve de niveaux de compréhension et d'aisance quasi-humains sur des tâches complexes, à la pointe de l'intelligence générale », a déclaré la société, laissant entendre que nous nous rapprochons de l'intelligence artificielle générale.

Ce qu'il convient de noter, c'est qu'il s'agit d'une comparaison avec le modèle d'OpenAI vieux d'un an et nous nous attendons à ce que GPT-5 baisse à un moment donné cette année.

« Nous ne pensons pas que l'intelligence des modèles soit proche de ses limites, et nous prévoyons de publier des mises à jour fréquentes de la famille de modèles Claude 3 au cours des prochains mois », a déclaré Anthropic dans un communiqué.

Qu'en est-il de la fenêtre contextuelle ?

Claude

Alors que Google a attiré beaucoup d'attention pour la fenêtre contextuelle potentielle de 10 millions de jetons (la mémoire d'une seule conversation) pour Gemini Pro 1.5, Claude a été le premier à franchir la barrière des 100 000 jetons.

Les nouveaux modèles auront une fenêtre contextuelle de 200 000 jetons au lancement, mais Anthropic teste jusqu'à un million de jetons en interne et avec des testeurs.

Cependant, disposer d’un contexte étendu n’a de sens que s’il s’accompagne également de la possibilité de rappeler des informations à partir de n’importe quel point de cette fenêtre. C'est quelque chose que Google a réussi à résoudre avec Gemini Pro 1.5.

Anthropic affirme que dans l'évaluation « Needle In A Haystack » (NIAH), également utilisée par Google, Claude 3 Opus a atteint un rappel presque parfait avec une précision de 99 % et a identifié les limites du processus d'évolution en repérant la phrase « aiguille » elle-même.

Qu’en est-il de la sécurité de l’IA ?

Depuis son lancement, Anthropic s'est soigneusement concentré sur la sécurité de l'IA. Cela inclut le suivi du niveau de sécurité de ses modèles, la mise en évidence des risques potentiels et la création d'une nouvelle « constitution » à suivre par l'IA qui la maintient alignée sur les valeurs humaines.

« Alors que nous repoussons les limites des capacités de l'IA, nous sommes également déterminés à garantir que nos garde-fous de sécurité suivent le rythme de ces progrès en matière de performances », a déclaré un porte-parole d'Anthropic.

« Notre hypothèse est qu'être à la frontière du développement de l'IA est le moyen le plus efficace d'orienter sa trajectoire vers des résultats sociétaux positifs. »