L'équipe de recherche d'Apple a publié une découverte révolutionnaire qui pourrait rendre l'exécution de modèles d'intelligence artificielle sur un iPhone plus facile et plus rapide. Cette découverte pourrait permettre à Siri de bénéficier d'une mise à niveau massive à l'avenir, incluant toutes les capacités conversationnelles d'un outil comme ChatGPT.

Le développement permet aux grands modèles de langage (LLM) de s'exécuter efficacement sur un appareil doté d'une mémoire limitée. Ceci est important car cela permet que tous les traitements s'effectuent sur l'iPhone, réduisant ainsi la quantité d'informations sensibles envoyées depuis l'appareil vers le cloud.

Google apportera son chatbot Bard AI à son assistant l'année prochaine, mais cela nécessitera probablement l'envoi de conversations hors téléphone pour traitement.

Apple a toujours été prudent en matière de sécurité et toute mise à niveau LLM pour Siri devra donc être effectuée sur l'iPhone. On ne sait pas vraiment s’il s’agit d’une version de la rumeur Apple-GPT ou de quelque chose de complètement différent.

Quel est le problème avec l’exécution de LLM localement ?

Les chatbots comme ChatGPT et Bard sont des applications gourmandes en mémoire. Une grande partie du traitement est gérée et exécutée sur de puissants GPU dans les grands centres de données cloud. Il doit trier des requêtes complexes et de grandes quantités de données pour proposer une réponse raisonnée.

La plupart des téléphones, y compris les iPhones, ont des capacités de mémoire limitées et une grande partie de ce dont ils disposent est utilisée par le système d'exploitation et d'autres applications.

Une solution consiste à réduire la taille du modèle d’IA. Microsoft a récemment publié un petit modèle de langage appelé Phi-2 et Google propose une version de Gemini appelée Nano qui peut s'exécuter sur l'appareil.

Mais le processus de réduction du modèle pour pouvoir fonctionner sur un processeur moins puissant réduit également ses capacités et ne résout pas toujours le problème de mémoire.

Comment se déroule la percée ?

Les chercheurs d'Apple ont trouvé un moyen d'utiliser la mémoire flash, où les applications et les données sont stockées, plutôt que la RAM limitée. L'iPhone 15 dispose de 6 Go de RAM mais d'au moins 128 Go de mémoire flash.

L’équipe a trouvé un moyen d’utiliser cette forme de stockage plus abondante en recyclant les données et en regroupant des morceaux d’informations.

Cela permet effectivement à un modèle d’IA de s’exécuter 4 à 5 fois plus rapidement qu’il ne serait possible autrement, réduisant ainsi les délais de réponse qui le rendraient autrement inutilisable.

« Cette avancée est particulièrement cruciale pour déployer des LLM avancés dans des environnements à ressources limitées, élargissant ainsi leur applicabilité et leur accessibilité », a expliqué l'équipe.

Qu’est-ce que tout cela signifie pour Siri ?

Siri présente « Allez-y, j'écoute » sous forme de texte sur l'écran de l'iPhone.

Pour le moment, Siri répond en fonction de ses capacités préprogrammées, mais avec un grand modèle de langage alimentant le chatbot, il serait capable de tenir des conversations plus naturelles.

Toute mise à niveau vers Siri liée au LLM permettrait également une intégration plus profonde avec l’iPhone dans son ensemble. En effet, l'IA du modèle de base peut traiter des requêtes plus complexes et pourrait même être incluse en tant que fonctionnalité de l'application Messages pour créer des messages complexes.

Il existe un nombre croissant d'applications basées sur l'IA pour iPhone, notamment des clients de messagerie, des chatbots et même une qui vous permet d'exécuter des LLM localement – bien que des modèles plus petits et avec un certain retard dans le temps de réponse.

Cette nouvelle évolution permettrait une intégration plus approfondie et un environnement plus sécurisé dans lequel les données n'auraient pas à quitter l'appareil. Cela permet également à Apple de rivaliser avec Gemini Nano de Google, un petit modèle de langage intégré que les développeurs Android peuvent utiliser dans leurs applications.