Le dernier modèle d'IA du fabricant de Stable Diffusion, StabilityAI, est un chatbot léger qui peut s'exécuter localement et qui prend quelques minutes pour être opérationnel.

Construit sur le grand modèle de langage compact StableLM spécialisé dans la complétion automatique de phrases, Zephyr ne dispose que de trois milliards de paramètres, permettant des réponses précises sans matériel haut de gamme.

Cela fait partie d’une tendance croissante à s’éloigner des modèles d’IA massifs nécessitant de grands centres de données et les GPU les plus rapides. Faire fonctionner ces modèles coûte cher et les performances des modèles plus petits, grâce aux réglages fins et à l’efficacité, deviennent « assez bonnes ».

Je l'ai essayé sur un MacBook Air M2 et il a pu répondre plus rapidement que je n'ai pu lire les réponses. Il fonctionne à 40 jetons par seconde, ce qui est environ cinq fois plus rapide que la vitesse de lecture moyenne.

Qu'est-ce qui différencie Zephyr ?

Le dernier petit modèle de StabilityAI est un chatbot, configuré pour les instructions suivant les tâches de questions et réponses. Bien qu'elle ait moins de la moitié des paramètres de nombreux petits modèles, la société affirme répondre efficacement à un large éventail de besoins en matière de génération de texte.

Il se prête particulièrement bien à l'écriture, aux jeux de rôle et à la réponse aux questions sur les sujets de sciences humaines dans les évaluations. Il possède certaines capacités de raisonnement et d’extraction, mais pas à un niveau proche de celui des petits modèles similaires.

Cependant, il peut générer un texte contextuellement pertinent, cohérent et linguistiquement précis. J'ai trouvé qu'il était capable de répondre rapidement, en langage naturel, et avec des réponses similaires à celles de Bard ou du ChatGPT gratuit.

Pourquoi est-ce important ?

Lors d'une conversation avec moi sur X, Emad Mostaque, fondateur et PDG de StabilityAI, s'est dit surpris par les capacités de Zephyr. Expliquant qu'il s'agit d'open source, les premiers jours et que de meilleurs modèles arriveront à l'avenir, ce qui ne fera que conduire à des améliorations.

Il estime que pour la grande majorité des tâches nécessitant une IA générative exécutée localement, des modèles plus petits suffiront pour faire le travail.

« Le rythme de l'innovation augmentera avec l'avancée et une fois que nous aurons atteint le niveau de qualité GPT-4 (dans les petits modèles) et que nous aurons une amélioration cohérente des ensembles de données, pourquoi auriez-vous besoin de plus pour 80 à 90 % des tâches », a-t-il expliqué. « Le moteur de raisonnement à faible consommation d'énergie avec récupération est super puissant. »

Que se passe-t-il ensuite ?

Exécuter Zephyr sur un MacBook Air M2

La licence actuelle de Zephyr est destinée à des fins non commerciales et de recherche, mais StabilityAI propose également des licences commerciales aux entreprises souhaitant intégrer l'IA dans leurs produits.

Plus ces modèles seront petits, plus il sera facile de les regrouper avec une application ou même, à l'avenir, un système d'exploitation. Google a publié une version de son Gemini AI appelée Nano qui fonctionne sur les appareils Android et peut être utilisée par les développeurs dans les applications du Pixel 8 Pro.

Apple a récemment publié MLX, un framework open source qui facilite l'installation de modèles d'IA sur les appareils Apple Silicon. Si cela devient natif sur macOS dans une future version, ou même sur iOS, les entreprises pourront alors déployer des outils d’IA sans payer de frais de cloud computing.