Les chatbots AI comme Chatgpt et Gemini ont généralement besoin du cloud pour fonctionner. Cependant, que se passe-t-il si vous pouviez exécuter un modèle entier de grande langue (LLM) directement sur votre iPhone sans abonnement, une connexion Internet et sans aucune donnée quittant votre appareil? Grâce à une poignée d'applications et de modèles compressés légers, vous pouvez réellement.

Je l'ai essayé, et voici ce que vous devez savoir.

Exécution de l'IA localement sur iPhone


Capture d'écran de LLM localement

Vous pouvez désormais exécuter des modèles open-source comme Llama et Qwen directement sur iOS. Ces modèles sont réduits en utilisant un processus appelé quantification, qui les comprime pour s'adapter à la mémoire mobile sans rompre complètement les performances.

La capture: Les performances dépend fortement de votre matériel. Un iPhone 15 Pro ou 15 Pro Max avec la dernière puce d'Apple peut charger des modèles jusqu'à 7B ou 8B (comme LLAMA 3.1 8B), tandis que les téléphones plus anciens sont mieux adaptés aux modèles de paramètres 1 à 3B plus petits.

Les applications qui le rendent possible


iPhone 15 Pro montré en main

  • Ferme LLM (gratuite): Le moyen le plus simple de commencer. Vous pouvez télécharger un petit modèle (comme PHI-3.5 instruct) et l'exécuter hors ligne avec juste un robinet. C'est étonnamment lisse pour les questions et réponses rapides.
  • CHAT MLC (GRATUIT): C'est celui que j'ai utilisé. J'aurais utilisé LLM Farm, mais pour une raison quelconque, l'App Store Apple ne me donnait pas la possibilité de le télécharger. Comme celui-ci était gratuit, je suis allé le faire et cela a aussi bien fonctionné.
  • LLM privé (projet communautaire): C'est plus une option de bricolage et non pour l'utilisateur occasionnel. Celui-ci a des guides détaillés pour le chargement de modèles comme Llama 3.1 et Qwen sur votre iPhone. Si vous aimez bricoler, donnez-lui certainement une chance.
  • Apollo (payé): J'ai entendu de bonnes choses mais je n'ai pas essayé cette application moi-même. Faites-moi savoir dans les commentaires de ce que vous pensez de cette application axée sur la confidentialité.

Comment exécuter localement le modèle


Gros plan d'une personne portant un sauteur gris utilisant un iPhone bleu

Une fois que vous avez téléchargé votre application de choix, ouvrez l'application. À partir de là, parcourez la liste des modèles intégrés et choisissez-en un (par exemple, PHI-3.5 instruct Q4 quantifié). J'ai choisi Qwen 2.5 pour aucune autre raison, sauf que je ne l'ai pas utilisé depuis un certain temps.

Une fois que vous l'avez téléchargé, vous verrez le modèle sur votre appareil (de quelques centaines de Mo à plusieurs Go en fonction de la taille). De là, commencez simplement à discuter.

Vous voudrez garder les attentes réalistes; Ce n'est pas le moment de demander des plongées profondes ou de longs plans étape par étape. Gardez à l'esprit ce qui suit:

  • Vitesse: Les petits modèles (1–3b) répondent plus rapidement; Les grands modèles peuvent prendre des secondes par jeton.
  • Contexte: Ne collez pas des essais entiers; Gardez les invites plus courtes.
  • Sortir: Les LLM locaux peuvent être moins polies que Chatgpt, mais ils sont utiles pour les notes, les résumés, les questions et réponses et la rédaction légère.

Je me suis amusé à essayer quelques invites. Rien d'extraordinaire; Mon objectif était juste de voir le type de réponses que j'ai obtenues de la demande locale. Une chose que vous remarquerez tout de suite est la vitesse. C'est incroyable à quelle vitesse le LLM réagit.

J'ai essayé les invites suivantes et dans l'ensemble, j'ai été impressionné.

L'exécution d'un LLM local n'est pas la même chose que de discuter avec ChatGPT-5. Il semble définitivement rationalisé et brut. Si vous essayez cela, n'oubliez pas de garder vos invites courtes car les fenêtres de contexte sont beaucoup plus limitées que lorsque vous utilisez la version ordinaire des chatbots. Les réponses seront plus lentes si vous surchargez le LLM local.

Pourquoi feriez-vous cela?


Un tableau montrant les différences dans les modèles LLAMA 4

  • Aucun frais d'abonnement. Vous ne brûlez pas de crédits uniquement pour expérimenter.
  • Confidentialité intégrée. Tout reste allumé votre appareil.
  • Étonnamment polyvalent. J'ai été époustouflé par la quantité de mini-modèle pouvait gérer. Chaque fois que je repoussais les limites, il pouvait facilement s'attaquer au Challenege.

Réflexions finales