Alors que nous commençons à dépendre davantage de l’IA, ce n’est qu’une question de temps avant que nous ayons besoin d’accéder aux derniers chatbots via nos téléphones.

Les chercheurs de Meta Reality Labs affirment qu'avec une dépendance croissante aux grands modèles de langage (LLM), les gens pourraient bientôt passer plus d'une heure chaque jour soit en conversations directes avec des chatbots, soit en faisant exécuter des processus LLM en arrière-plan pour alimenter des fonctionnalités telles que des recommandations.

Alors que tout ce que nous voyons habituellement, c'est ChatGPT répondre rapidement à nos questions, la consommation d'énergie et les émissions de dioxyde de carbone nécessaires pour que ces réponses se produisent « présenteraient des défis environnementaux stupéfiants » si l'IA continue sur sa trajectoire actuelle, ont déclaré les scientifiques dans un article préliminaire publié le 22 février. .

Réduisez-le

Une solution consiste à déployer ces grands modèles de langage directement sur nos téléphones, résolvant ainsi simultanément les problèmes de portabilité et de coût de calcul.

Bien sûr, vous pourriez techniquement faire fonctionner des modèles tels que le Llama 2 de Meta directement sur votre iPhone aujourd'hui, mais les scientifiques ont calculé que la batterie supporterait moins de deux heures de conversation. Ce n'est pas réaliste pour les consommateurs. Cela entraînerait également de longs délais d’attente pour une réponse en raison des limitations de mémoire.

Ce qu’il faut, c’est un modèle LLM compact conçu pour les téléphones. L'équipe de Meta pense avoir trouvé une solution dans ce qu'elle appelle MobileLLM, qui, selon elle, offre en réalité une précision légèrement supérieure à celle d'autres modèles similaires de pointe.

Travailler avec un LLM mobile

GRAPHIQUE montrant le LLM mobile

Lorsque l’on regarde sous le capot d’un LLM, l’une des principales caractéristiques que l’on peut observer est la taille du modèle. Ceci est calculé en nombre de paramètres.

Plus il comporte de paramètres, plus il est complexe, ce qui permet de traiter davantage de données. GPT-4 d'OpenAI, considéré comme le modèle le plus puissant du marché, dépasse les mille milliards de paramètres. Mais comme mentionné précédemment, un modèle aussi lourd nécessite plus d’énergie et de puissance de calcul pour fonctionner.

Les chercheurs de Meta pensent pouvoir créer des LLM de qualité supérieure avec moins d'un milliard de paramètres (soit toujours 174 milliards de paramètres de moins que dans GPT-3).

Pour y parvenir, ils ont découvert qu'ils pouvaient améliorer les performances globales en donnant la priorité à des fonctionnalités approfondies telles que les compétences intellectuelles et un raisonnement avancé plutôt que la capacité à effectuer un large éventail de tâches.

Dans les cas où le stockage des données est plus limité, comme c’est le cas sur les smartphones, ils ont également constaté que l’utilisation d’une attention groupée aux requêtes était également utile. C'est à ce moment qu'un modèle peut se concentrer sur différentes parties d'une invite regroupées, permettant un traitement parallèle. Encore une fois, il utilise également moins de mémoire et d’énergie pour fonctionner.

Chat et appels API au test

Pour valider l'efficacité de modèles à l'échelle inférieure à un milliard pour les applications sur appareil, ils ont évalué leurs performances dans deux tâches cruciales sur l'appareil : le chat et les appels d'API.

Pour évaluer la fonctionnalité de chat, ils ont utilisé deux références de premier plan, à savoir AlpacaEval et MT-Bench, et ont constaté que leurs modèles MobileLLM surpassaient les autres modèles de pointe à l'échelle inférieure à un milliard.

L'appel d'API, quant à lui, consiste à faire communiquer un logiciel avec un autre pour effectuer des tâches en dehors de sa propre programmation. Ainsi, par exemple, si vous demandez une alarme pour vous réveiller le matin, vous la définirez dans l'application horloge de votre téléphone avec un SMS de confirmation du type : Bien sûr ! Votre alarme est réglée à 7h30.

Trouver un équilibre

Le tout est de trouver le bon équilibre en fin de compte. Avoir un téléphone omniscient semble bien, mais si cela ne peut durer que deux heures avant de devoir commencer à chercher une prise de courant, cela commence à paraître moins attrayant.

Apple travaille également activement sur ce problème, car un futur Siri alimenté par LLM nécessiterait probablement un traitement important sur l'appareil en raison des exigences de sécurité d'Apple.

Alors que les entreprises continuent d'ajouter des fonctionnalités d'IA à leurs téléphones, elles pourraient très bien trouver des réponses à leurs questions dans les recherches de Meta sur comment et où atteindre les bons compromis pour leurs LLM.