Le modèle d'IA open source de Google, Gemma, est désormais disponible via le chatbot Groq. Il rejoint Mixtral du laboratoire français d'IA Mistral et Meta's Llama 2.

Gemma est un modèle de langage beaucoup plus petit que Gemini ou ChatGPT d'OpenAI, mais peut être installé n'importe où, y compris sur votre ordinateur portable, mais rien ne l'exécute aussi vite que les puces Language Processing Unit (LPU) qui alimentent l'interface Groq.

Lors d'un test rapide, j'ai demandé à Gemma sur Groq d'agir comme un guide touristique extraterrestre montrant aux humains sa planète natale, expliquant certains des sites et attractions les plus excitants.

Répondant à un rythme stupéfiant de 679 jetons par seconde, l'ensemble du scénario était devant moi, bien construit et imaginatif, plus rapidement que je ne pouvais lire ma propre invite.

Qu'est-ce que Google Gemma ?

Il existe une tendance croissante aux modèles d'IA plus petits et open source qui ne sont pas aussi performants que leurs grands frères, mais qui fonctionnent toujours bien et sont suffisamment petits pour fonctionner sur un ordinateur portable ou même un téléphone.

Gemma est la réponse de Google à cette tendance croissante. Formé de la même manière que Gemini est disponible dans une version de deux milliards et sept milliards de paramètres et constitue un grand modèle de langage.

En plus de fonctionner sur des ordinateurs portables, il peut être exécuté dans le cloud sur des services tels que Groq ou même intégré à des applications commerciales pour apporter des fonctionnalités LLM aux produits.

Google affirme qu'il élargira la famille Gemma au fil du temps et que nous pourrions voir des versions plus grandes et plus performantes. Être open source signifie que d'autres développeurs peuvent s'appuyer sur le modèle, l'affiner sur leurs propres données ou l'adapter pour fonctionner de différentes manières.

Qu’est-ce que Groq et pourquoi est-il si rapide ?

Google Gemma fonctionnant sur Groq

Groq est à la fois une plate-forme de chatbot proposant plusieurs modèles d'IA open source parmi lesquels choisir, ainsi qu'une entreprise fabriquant un nouveau type de puce conçue spécifiquement pour exécuter rapidement des modèles d'IA.

« Nous nous sommes concentrés sur la fourniture d'une vitesse d'inférence inégalée et d'une faible latence », a expliqué Mark Heap, évangéliste en chef de Groq lors d'une conversation avec Tom's Guide. « C'est essentiel dans un monde où les applications d'IA générative deviennent omniprésentes. »

Les puces, conçues par le fondateur et PDG de Groq, Jonathan Ross, qui a également dirigé le développement des unités de traitement tensoriel (TPU) de Google utilisées pour former et exécuter Gemini, sont conçues pour une évolutivité rapide et pour un flux efficace de données à travers la puce.

Comment Gemma sur Groq se compare-t-elle ?

Google Gemma exécuté localement

Pour comparer la vitesse de Gemma sur Groq à celle exécutée sur un ordinateur portable, j'ai installé le modèle d'IA sur mon MacBook Air M2 et je l'ai exécuté via Ollama, un outil open source qui facilite l'exécution de l'IA hors ligne.

Je lui ai donné la même invite : « Imaginez que vous êtes un guide touristique extraterrestre montrant pour la première fois des visiteurs humains autour de votre planète natale. Décrivez certains des sites, sons, créatures et expériences les plus fascinants et inhabituels que vous partageriez avec eux pendant la visite. N'hésitez pas à faire preuve de créativité et à inclure des détails saisissants sur le monde extraterrestre ! »

Au bout de cinq minutes, il avait écrit quatre mots. Cela est probablement dû au fait que je n'ai que 8 Go de RAM sur mon MacBook, mais d'autres modèles comme Zephyr de StabilityAI ou Phi-2 de Microsoft fonctionnent correctement.

Pourquoi la vitesse est-elle importante ?

Même comparée à d'autres installations cloud de Gemma, l'installation de Groq est incroyablement rapide. Il bat ChatGPT, Claude 3 ou Gemini en termes de temps de réponse et même si à première vue cela semble inutile, imaginez si cette IA avait une voix.

Il répond trop rapidement pour que n'importe quel humain puisse le lire en temps réel, mais s'il était connecté à un moteur de synthèse vocale tout aussi rapide comme ElevenLabs, fonctionnant également sur des puces Groq, il pourrait non seulement vous répondre en temps réel, mais même repenser votre réponse. et s'adapter aux interruptions en créant une conversation naturelle.

Les développeurs peuvent également accéder à Gemma via Vertex AI de Google Cloud, qui permet d'intégrer le LLM dans des applications et des produits via une API. Cette fonctionnalité est également disponible via Groq ou elle peut être intégrée et téléchargée pour une utilisation hors ligne.