Nvidia Blackwell est un processeur chaud
Nvidia a fait l'objet d'un examen minutieux ce mois-ci car certains serveurs équipés de 72 processeurs Blackwell surchauffaient. Le problème est survenu parce que certains déploiements OEM initiaux n'étaient pas correctement refroidis par eau, ce que Lenovo a identifié et atténué de manière agressive avec ses solutions de refroidissement par eau chaude Neptune.
À mesure que l’IA progresse, nous aurons besoin de processeurs d’IA plus denses et incroyablement puissants, ce qui suggère que le refroidissement par air dans les salles de serveurs pourrait devenir obsolète.
Parlons de Blackwell, du refroidissement par eau et des raisons pour lesquelles la solution Neptune de Lenovo se démarque actuellement. Nous terminerons avec mon produit de la semaine : Windows 365 Link de Microsoft, qui pourrait être le chaînon manquant entre les PC et les terminaux qui pourrait changer à jamais l'informatique de bureau.
Puits noir
Blackwell est le premier GPU de Nvidia axé sur l'IA. Lorsqu’elle a été annoncée, elle dépassait tellement ce que la plupart auraient cru pratique que cela ressemblait presque plus à une chimère qu’à une solution. Mais cela fonctionne, et il n’y a rien de proche de sa classe pour le moment. Cependant, il est extrêmement dense en termes de technologie et génère beaucoup de chaleur.
Certains affirment qu’il s’agit d’un désastre écologique potentiel. Ne vous méprenez pas, cela consomme beaucoup d’énergie et génère une énorme quantité de chaleur. Mais ses performances sont si élevées par rapport au type de charge que vous obtiendriez généralement avec des pièces plus conventionnelles qu'il est relativement économique à utiliser.
C'est comme comparer un semi-remorque doté de trois remorques à une fourgonnette U-Haul. Oui, le semi-remorque aura une consommation d'essence relativement médiocre, mais il contiendra également plus de marchandises que 10 fourgons U-Haul et consommera beaucoup moins d'essence que ces 10 fourgons, ce qui le rendra plus écologique. Il en va de même pour Blackwell. Il est tellement au-delà de ses concurrents en termes de performances que sa consommation d'énergie relativement élevée est inférieure à ce qui serait autrement requis pour un serveur IA compétitif.
Mais les puces Blackwell chauffent et la plupart des serveurs sont aujourd'hui refroidis par air. Il ne devrait donc pas être surprenant que certains serveurs Blackwell aient été configurés avec un refroidissement par air et que ceux équipés de 72 processeurs Blackwell ou plus sur un rack aient surchauffé. Bien que 72 Blackwell dans un rack soient inhabituels aujourd’hui, à mesure que l’IA progresse, cela deviendra plus courant, étant donné que Nvidia est actuellement le roi de l’IA.
Vous ne pouvez aller plus loin avec la technologie refroidie par air en termes de performances avant de devoir passer au refroidissement liquide. Alors que Nvidia a répondu à ce problème avec une spécification de rack refroidi par eau que Dell utilise désormais, Lenovo était bien en avance avec sa solution de refroidissement par eau Neptune.
Lenovo Neptune
Lenovo a été le premier à s'en rendre compte, principalement parce qu'il est actuellement le leader du marché dans sa catégorie en termes de refroidissement par eau – une technologie initialement acquise auprès d'IBM, qui fait du refroidissement par eau depuis des décennies.
Ce qui est important avec le refroidissement par eau, ce n'est pas seulement la technologie, mais aussi la connaissance de la manière de la déployer en toute sécurité. Mélanger de l'eau et des appareils électroniques à haut ampérage peut être un désastre si vous ne savez pas ce que vous faites. Grâce à l'acquisition du serveur IBM, Lenovo possède des décennies d'expérience en matière de refroidissement par eau qu'elle appelle Neptune.
Étant donné que Nvidia a spécifié un rack refroidi par eau, qu'est-ce qui rend Neptune meilleur ? La réponse est l'expérience. La plupart de ceux qui utiliseront la solution spécifiée par Nvidia, y compris Nvidia, ne déploient pas souvent de solutions refroidies à l'eau. En conséquence, en particulier avec ces implémentations Blackwell haut de gamme, ils apprendront essentiellement sur le tas.
Cela peut être très dangereux lorsque vous mélangez de l’eau avec des appareils électroniques à fort ampérage. L'eau et l'électricité ne font pas bon ménage. Non seulement une fuite peut faire frire une pièce coûteuse ou même un rack entier, mais si une personne est présente, elle peut également la faire frire si les disjoncteurs ne s'installent pas. Dans un environnement avec plancher surélevé, à moins qu'il n'ait été conçu en pensant aux fuites, des choses terribles peuvent arriver.
Je l'ai moi-même observé il y a plusieurs décennies lorsque j'étais chez IBM, et il s'est avéré qu'ils n'avaient pas testé le système de refroidissement par eau pour notre immense centre de données (à l'époque). Le site a perdu un transformateur qui a coupé le système de refroidissement par eau, qui n'avait pas subi de test de résistance en cas d'arrêt soudain. Les canalisations ont éclaté et le centre de données est devenu une piscine dangereuse. La majeure partie du matériel, coûtant des centaines de millions de dollars, a été perdue et le bâtiment a été inondé, causant des dégâts supplémentaires.
Grâce à des expériences comme celle-ci, IBM est devenu le principal OEM en matière de refroidissement par eau sécurisé, et Lenovo a acquis ces connaissances et cette expérience en rachetant le groupe de serveurs IBM x86. Désormais, Lenovo, ainsi qu'IBM, savent comment faire du refroidissement par eau mieux que quiconque, ce qui signifie que vous pouvez être assuré qu'un serveur Lenovo Blackwell ne surchauffera pas ou ne commencera pas soudainement à fuir.
De plus, l'expertise de Lenovo réside dans le refroidissement par eau chaude, un moyen beaucoup plus sûr et beaucoup moins coûteux de refroidir les serveurs que le refroidissement par eau froide, qui nécessite d'énormes évaporateurs ou refroidisseurs inefficaces.
La mise en œuvre de cette technologie n’est pas une tâche anodine. Contrairement aux automobiles ou aux PC refroidis à l'eau, les serveurs doivent avoir des capacités de remplacement à chaud, ce qui signifie que vous avez besoin de connexions anti-goutte exceptionnelles et hautement testées, d'alertes agressives, de programmes de maintenance préventive basés sur la connaissance passée des composants et de techniciens expérimentés pour travailler avec ce niveau de technologie de refroidissement par eau.
Conclusion : un avenir de centres de données refroidis à l'eau chaude
Blackwell n'est que le premier de ces processeurs incroyablement puissants à arriver sur le marché, car à mesure que l'IA repousse les limites, les concurrents de Nvidia devront également s'engager dans quelque chose de similaire, ce qui suggère que tous les serveurs pourraient éventuellement devoir être refroidis à l'eau chaude.
Cela positionne Lenovo bien pour un avenir refroidi par eau, quelle que soit la technologie, tandis que les concurrents de Lenovo tentent de rattraper leur retard. L’un des avantages que j’attends des techniciens est la réduction du bruit du centre de données. La quantité d'air que vous devez faire circuler dans les serveurs refroidis par air est énorme et transforme les centres de données d'aujourd'hui en un véritable cauchemar sonore.
À mesure que le refroidissement par eau chaude s’imposera de manière plus agressive sur le marché, ces centres de données deviendront plus silencieux, ce qui en fera des lieux de travail beaucoup plus agréables. Cela rendra très heureux beaucoup d’entre nous qui doivent y travailler.
Lien Windows 365
Depuis que nous avons remplacé les terminaux par des PC, le service informatique souhaite retrouver l'expérience du terminal. Les terminaux étaient comme les téléviseurs pré-intelligents dans la mesure où vous n'aviez pas besoin de patchs ou de mises à niveau du système d'exploitation ni de gérer « l'écran bleu de la mort ». Si la chose tombait en panne, elle était assez facile à réparer ou relativement peu coûteuse à remplacer. D’un point de vue informatique, les terminaux étaient bien meilleurs que les PC.
Mais du côté des PC, les terminaux étaient nuls. Vous ne pouviez pas exécuter ce que vous souhaitiez exécuter sans obtenir une assistance informatique, et cela pouvait prendre des mois avant que le service informatique ne réponde à une demande.
Les terminaux étaient connectés à des ordinateurs centraux vieillissants qui ne pouvaient pas exécuter d'applications modernes à l'époque (ils le peuvent désormais). Les nouvelles applications étaient généralement créées sur mesure, mais un manque de communication entre les utilisateurs et le service informatique entraînait souvent des problèmes. Les utilisateurs avaient du mal à exprimer leurs besoins et le service informatique ne parvenait souvent pas à rechercher de meilleures spécifications, ce qui se traduisait par des applications souvent inutilisables.
Eh bien, lors de Microsoft Ignite la semaine dernière, Microsoft a annoncé le Windows 365 Link, qui pourrait être ce qui se rapproche le plus d'un terminal filaire parfait (il n'y a pas encore de solution pour ordinateur portable) avec des fonctionnalités et des performances similaires à celles d'un PC.
Alors que nous appelons cette classe un client léger, Microsoft l'appelle un Cloud PC. À 349 $ et de la taille d'un micro-PC, il semble avoir le plus proche que nous ayons vu en termes de mélange PC/terminal presque parfait.
Windows 365 Link sera plus fiable, moins cher, sécurisé et beaucoup plus petit que la plupart des ordinateurs de bureau, ce qui le rendra très attractif pour l'informatique. En même temps, il se connecte à une instance Cloud PC, offrant à l’utilisateur une expérience très proche de celle d’un PC.
Pour l’instant, il ne cible que les comptes d’entreprise, principalement parce que ce sont eux qui en ont le plus besoin et qui disposent de l’infrastructure nécessaire. Je vois cela évoluer vers des marchés tels que les voyages, l’éducation, le gouvernement, l’industrie manufacturière et d’autres marchés verticaux ayant des besoins similaires. Bien qu'elle ne s'adresse pas encore aux utilisateurs mobiles, la 5G entièrement déployée et la prochaine spécification 6G devraient permettre de futures implémentations mobiles.
Étant donné que Microsoft a été l’une des sociétés qui ont lancé le PC et rendu les terminaux obsolètes, il semble ironique – et poétique – que Microsoft prenne finalement l’initiative de les rendre obsolètes. Nous verrons si cela se produit. Pour l'instant, Windows 365 Link est mon produit de la semaine.