Ingénieur travaillant dans un centre de données.

Point de vue de TE

Puissance, vitesse, refroidissement : le défi des centres de données IA

Pour que l'intelligence artificielle génère des revenus de manière constante, les centres de données doivent devenir plus rapides. Beaucoup plus rapides. Les modèles d'IA s'améliorent à chaque nouvelle génération d'apprentissage, mais cet apprentissage prend encore relativement beaucoup de temps. Ce laps de temps s'explique par les limites actuelles en termes de quantité de données pouvant être traitées par les processeurs (GPU) qui entraînent les modèles d'IA. La course à la vitesse est déjà lancée. À mesure qu'elle progresse, le secteur devra faire plus que simplement mettre à niveau son infrastructure pour traiter plus rapidement un plus grand volume de données. Il devra également gérer la demande croissante en énergie nécessaire pour accélérer ces calculs complexes, ainsi que la chaleur générée par les nouvelles infrastructures.

 

Pour compliquer encore les choses, les architectes des systèmes doivent en quelque sorte concevoir le projet tout en le mettant en œuvre, en collaborant avec les fabricants d'équipements et de composants afin d'optimiser les performances des infrastructures actuelles tout en se préparant à les mettre à niveau et à les adapter aux vitesses encore plus élevées qui seront bientôt nécessaires. 

La rapidité est la clé pour rendre l'IA compétitive

Les utilisateurs finaux de l'IA peuvent obtenir des réponses en quelques secondes, mais l'apprentissage des modèles de pointe prend du temps, généralement de deux à quatre mois pour les grands modèles de base. Ce décalage limite la rapidité avec laquelle les entreprises peuvent traduire les nouvelles données en modèles améliorés et en valeur commerciale. Raccourcir le cycle d'apprentissage et de déploiement est plus qu'un simple avantage technique, c'est un impératif économique.

 

Prenons l'exemple d'une nouvelle chaîne de montage automobile. Ces systèmes de production génèrent dès le premier jour des ensembles de données riches sur le débit, la qualité et l'efficacité. En théorie, ces données pourraient être utilisées immédiatement pour optimiser les opérations. Dans la pratique, cependant, la durée du cycle d'apprentissage de l'IA oblige les fabricants à attendre plusieurs mois avant que les modèles réentraînés puissent apporter des améliorations concrètes.

 

Grâce à un apprentissage plus rapide des algorithmes, les entreprises pourraient mettre en place beaucoup plus rapidement des processus optimisés par l'IA, appliquer des améliorations en termes d'efficacité et réaliser des économies. Ce n'est qu'un exemple parmi d'autres de la façon dont le rythme de l'innovation au sein des racks des centres de données peut avoir des répercussions considérables.

Concept de transformation numérique, haute vitesse

Des vitesses plus élevées seront finalement disponibles grâce aux câbles fibre optique

Les vitesses plus élevées entraînent des changements dans l'architecture des centres de données. Aujourd'hui, les modules de 800 gigabits par seconde sont largement disponibles, et ceux de 1,6 térabit par seconde seront bientôt commercialisés. Ces connexions à plus haut débit permettent de réduire la longueur maximale des câbles en cuivre, augmentant ainsi le trafic sur les câbles optiques. Cette transition a suscité un intérêt pour les architectures à faible consommation d'énergie, telles que les optiques enfichables linéaires, qui sont déjà disponibles, et les optiques co-packagés (CPO), qui sont encore en cours de développement. À l'intérieur du rack, les changements architecturaux comprennent l'agrégation des GPU afin de réduire les problèmes de communication lors de l'apprentissage et d'inférence à grande échelle.

 

Pour un centre de données , la décision d'effectuer un ou plusieurs de ces ajustements architecturaux dépend de la capacité de son infrastructure existante à continuer de répondre aux besoins des clients. Un partenariat avec des fabricants de composants pour planifier ces changements d'infrastructure peut permettre aux centres de données de mettre à niveau leur infrastructure plus efficacement. Dans l'intervalle, la mise à niveau vers des plaques de base modulaires, indépendantes des entrées/sorties, peut donner aux centres de données une longueur d'avance dans leur préparation à cette transition. Une gestion adéquate de la transition peut également les aider à conserver les mêmes fibres et plaques supports pour toutes les futures mises à niveau des types de modules, leur permettant ainsi de continuer à augmenter la vitesse sans avoir à repenser et remplacer l'ensemble du châssis du serveur. 

Mise à niveau dans le pod et entre les pods

La mise à niveau en termes de vitesse et de volume ne se fait pas uniquement au niveau des connexions. Elle peut également s'effectuer à la fois au sein d'un pod de serveurs et entre les pods. Pour faire évoluer un PoD (points of delivery ou points de livraison) et le rendre plus rapide et plus puissant, les centres de données ont besoin de structures uniformes et caractéristiques, d'une capacité de mémoire étendue et d'une latence prévisible pour tous les éléments du pod. Les composants qui assurent ces capacités permettent également la mise à niveau.

 

De même, le déploiement horizontal des opérations entre les pods pour prendre en charge les volumes de travail de manière plus dynamique nécessite une conception de pod plus élastique, où le réseau, l'alimentation et le refroidissement peuvent augmenter ou diminuer en fonction des besoins, optimisant ainsi la consommation d'énergie. Cette capacité reposera sur une alimentation remplaçable à chaud, des collecteurs de refroidissement instrumentés, des connexions raccordables en aveugle et des fonds de panier instrumentés. Elle nécessitera également une télémétrie à chaque niveau pour surveiller les charges informatiques, ainsi que des composants standardisés capables de gérer les changements nécessaires à de telles configurations dynamiques.

L'alimentation et le refroidissement sont désormais des éléments de premier plan à prendre en compte lors de la conception

Ces mises à niveau nécessitent une alimentation plus importante et dégagent davantage de chaleur. La dissipation de cette chaleur augmente à elle seule les besoins en alimentation. Aujourd'hui, TE Connectivity travaille en étroite collaboration avec des entreprises de l'ensemble du secteur afin d'innover et de proposer des solutions sûres pour fournir des quantités croissantes d'énergie aux racks de serveurs existants. Ces solutions ouvrent également la voie à de futures mises à niveau, car les centres de données, en particulier ceux qui fournissent des services cloud hyperscale, continuent de développer de nouvelles normes et architectures qui prendront en charge des racks de plus grande capacité. La densité moyenne des racks est encore principalement comprise entre 10 et 30 kilowatts aujourd'hui, mais les clusters d'apprentissage de l'IA repoussent déjà les limites des spécifications avec de 120 à 132 kilowatts. D'ici 2027, les racks d'IA devraient atteindre jusqu'à 600 kilowatts, et des racks d'une puissance d'un mégawatt devraient faire leur apparition dans certains déploiements d'ici la fin de la décennie. Pour répondre à ces densités plus élevées, il faut des architectures CC haute tension afin de réduire le courant, la masse de cuivre et les pertes de distribution tout en prenant en charge une très large gamme de puissances de rack.

 

Sur le plan thermique, l'air seul ne suffira pas pour ces charges. Le refroidissement liquide direct des puces est en train de devenir la norme pour les accélérateurs à TDP élevé, avec des solutions d'immersion en deux phases et des solutions hybrides utilisées dans certains cas. Des composants tels que les interfaces optiques prêtes à l'emploi qui prennent en charge les solutions de refroidissement liquide de nouvelle génération contribueront à maintenir les températures sous contrôle.

Concevoir en fonction des possibilités : construire la structure une fois, puis itérer à l'intérieur

La stratégie la plus efficace en termes de dépenses consiste à définir la structure dès le début, c'est à dire définir des paramètres communs et raisonnables pour la mécanique, l'alimentation, le refroidissement, les entrées/sorties et la télémétrie au niveau du rack/pod, puis laisser les composants électroniques et les logiciels itérer à l'intérieur de cette structure sans avoir à repenser le châssis. Si les centres de données préparent dès le début leur infrastructure pour ces futures exigences en matière de puissance et de bande passante, ils seront mieux positionnés pour répondre aux besoins de l'industrie de l'IA. Idéalement, les centres de données ont besoin d'une interface de rack fonctionnelle et instrumentée qu'ils peuvent faire évoluer, surveiller et entretenir sans rénover complètement leur infrastructure. Si le secteur travaille de concert, cette transition peut être plus efficace.

TE Connectivity collabore avec les hyperscalers, les OEM et les intégrateurs pour concevoir les éléments mécaniques, d'alimentation, de refroidissement et d'entrée/sortie à grande vitesse qui forment cette infrastructure permanente – des réseaux d'alimentation connectable en aveugle et sûrs au toucher, des interfaces de refroidissement liquide et des interconnexions prêtes pour l'optique – afin que les clients puissent faire évoluer rapidement leur informatique sans démonter les racks.

 

La mission de l'industrie est claire : combler intelligemment le fossé en matière de vitesse de l'IA, grâce à une infrastructure flexible, évolutive et prête pour la prochaine vague d'innovation.

À propos de l'auteur

Sajjad Ahmed

Sajjad Ahmed est Directeur de la R&D et de l'ingénierie pour la division Digital Data Network, où il dirige l'équipe d'ingénierie et de solutions avancées dans le développement d'architectures d'interconnexion de nouvelle génération en partenariat avec des clients internationaux. Fort de plus de vingt ans d'expérience dans l'architecture et la mise à l'échelle d'écosystèmes d'ingénierie, il allie une compréhension approfondie de l'ingénierie multidisciplinaire à une capacité avérée à surmonter les défis liés à la production de masse. Sajjad Ahmed n'a cessé d'introduire des innovations qui ont fait progresser l'industrie informatique et continue de promouvoir les technologies qui façonnent l'avenir des centres de données dans le monde entier.