Perspectivas de TE Connectivity
Para que la inteligencia artificial genere ingresos de manera constante, los centros de datos deben ser más rápidos. Mucho más rápidos. Los modelos de IA mejoran con cada nueva etapa de entrenamiento, pero este proceso todavía toma bastante tiempo. El retraso se debe a las limitaciones actuales en la cantidad de datos que se pueden procesar a través de las unidades de procesamiento gráfico (GPU) que entrenan a los modelos de IA. El camino hacia lograr velocidades más altas ya ha comenzado y, conforme se desarrolla, la industria tendrá que hacer algo más que simplemente modernizar su infraestructura para manejar más datos con mayor rapidez. Así como manejar la creciente demanda de energía para realizar estos complejos cálculos con más rapidez y el calor que genera la nueva infraestructura.
Además, los arquitectos de sistemas deben avanzar y ajustar la infraestructura al mismo tiempo, colaborando con fabricantes de equipos y componentes para maximizar el rendimiento actual mientras se preparan para adaptar y alcanzar las velocidades aún mayores que se requerirán pronto.
Los usuarios finales de la IA pueden obtener respuestas en cuestión de segundos, pero entrenar modelos de última generación lleva tiempo, generalmente de dos a cuatro meses para los modelos básicos de gran tamaño. Ese retraso limita la rapidez con la que las organizaciones pueden convertir los datos nuevos en modelos optimizados y valor competitivo. Reducir el ciclo entre crear un modelo y ponerlo en operación va más allá de una ventaja técnica: es una necesidad económica.
Considera una nueva línea de ensamble de automóviles. Los sistemas de producción generan conjuntos de datos completos sobre rendimiento, calidad y eficiencia desde el primer día. En teoría, esos datos podrían utilizarse de inmediato para optimizar las operaciones. En la práctica, el tiempo que toma el ciclo de entrenamiento en IA hace que los fabricantes tengan que esperar meses antes de que los modelos reajustados puedan ofrecer mejoras viables.
Al entrenarse los algoritmos con más rapidez, las organizaciones podrían implementar procesos optimizados con IA mucho antes, aplicar mejoras de eficiencia y generar ahorros en costos. Este es solo un ejemplo de cómo el ritmo de innovación dentro de los racks de los centros de datos puede tener un impacto de gran alcance.
Las velocidades más altas impulsan cambios en las arquitecturas de los centros de datos. Hoy en día, los módulos de 800 gigabits por segundo están ampliamente disponibles, y pronto lo estarán los de 1.6 terabits por segundo. La llegada de estas conexiones de mayor velocidad ha reducido la longitud máxima práctica del cable de cobre, lo que ha desplazado más tráfico hacia los cables ópticos. Esta transición ha despertado interés en arquitecturas de menor consumo de energía, como los ópticos lineales enchufables, que ya están disponibles, y los ópticos coempaquetados, que aún están en evolución. Dentro del rack, los cambios de arquitectura incluyen agrupar GPUs para reducir los puntos de congestión en el intercambio de datos durante el entrenamiento y las operaciones de inferencia con lotes grandes.
El momento en que cada centro de datos hace uno o varios de estos ajustes de arquitectura depende de qué tanto su infraestructura actual sigue cubriendo las necesidades de sus clientes. Colaborar con fabricantes de componentes para planear estos cambios en la infraestructura ayuda a que los centros de datos se modernicen con mayor eficiencia. Mientras tanto, migrar a placas base modulares, independientes del tipo de entrada y salida, ayuda a adelantar la preparación para esa transición. Administrar bien la transición también ayuda a conservar la misma fibra y las mismas placas base mientras se actualizan los tipos de módulos en el futuro, lo que permite seguir aumentando la velocidad sin rediseñar ni reemplazar todo el gabinete del servidor.

Adaptar para mayor velocidad y volumen no ocurre solo en las conexiones. Y puede tener lugar tanto dentro de un pod de servidor como entre varios. Para aumentar la capacidad de un pod y hacerlo más rápido y potente, se necesita una arquitectura uniforme, mayor capacidad de memoria y una latencia predecible en todos los elementos del pod. Los componentes que cumplen con esas funciones también respaldan el incremento de capacidad.
De forma similar, ampliar las operaciones entre pods para manejar cargas de trabajo de manera más dinámica requiere un diseño de pod más elástico, donde la red, la energía y la refrigeración puedan crecer o reducirse según la carga, optimizando el consumo de energía. Esa capacidad dependerá de fuentes de energía intercambiables sin detener el equipo, colectores de refrigeración instrumentados, interconexiones ciegas y tarjetas posteriores instrumentadas. También requerirá telemetría en cada etapa para supervisar las cargas de TI, así como componentes estandarizados que puedan manjear los cambios necesarios para tales configuraciones dinámicas.
Estas mejoras requieren mayor potencia y generan más calor. Disipar ese calor incrementa por sí mismo la demanda de energía. Hoy, TE Connectivity colabora de cerca con empresas de toda la industria para innovar y suministrar mayores niveles de energía a los racks de servidores existentes, además de definir el camino hacia la modernización conforme los centros de datos —en especial los que ofrecen servicios de nube a escala hipermasiva— desarrollan nuevos estándares y arquitecturas que darán soporte a racks de mayor capacidad. Las densidades promedio de los racks en operación siguen entre 10 y 30 kilowatts, pero los clústeres de entrenamiento de IA ya están llevando las especificaciones al límite, entre 120 y 132 kilowatts. Para 2027, se espera que los racks de IA alcancen hasta 600 kilovatios, y que para finales de la década aparezcan racks de un megavatio en implementaciones selectas. Para alcanzar estas densidades más altas, se requieren arquitecturas de corriente continua de alto voltaje que reduzcan la corriente, la masa de cobre y las pérdidas de distribución, y que faciliten una amplia gama de potencias de rack.
Desde el punto de vista térmico, el aire tradicional por sí solo no es suficiente para estas cargas. La refrigeración líquida directa al chip se está convirtiendo rápidamente en el estándar para los aceleradores de alto TDP, con soluciones de inmersión en dos fases e híbridas utilizadas en ciertos casos. Los componentes, como las interfaces preparadas para ópticas, que funcionan con soluciones de refrigeración líquida de última generación ayudarán a mantener las temperaturas bajo control.
La estrategia más eficiente en capital es definir el entorno desde el inicio: definir parámetros coherentes y comunes para mecánica, energía, refrigeración, entrada/salida y telemetría en el límite del rack o pod, y dejar que el silicio y el software evolucionen dentro de ese entorno sin tener que rediseñar el gabinete. Mientras más pronto preparen su infraestructura para un futuro de mayor potencia y mayor ancho de banda, mejor se posicionarán para respaldar la necesidad de avance continuo en la industria de IA. Lo ideal es que los centros de datos cuenten con una interfaz de rack funcional e instrumentada que se pueda ampliar, monitorear y mantener sin necesidad de renovar las instalaciones por completo, y si la industria trabaja en conjunto, esta transición podría ser más eficiente.
TE Connectivity colabora con proveedores de nube a escala hipermasiva, OEM e integradores para diseñar los elementos mecánicos, de energía, refrigeración y entrada/salida de alta velocidad que conforman este entorno estable —redes de energía con conexión ciega y seguras al tacto, interfaces de enfriamiento líquido e interconexiones preparadas para óptica—, de modo que los clientes puedan aumentar su capacidad de cómputo sin desmontar el rack.
La misión del sector es clara: enfrentar de forma inteligente el desfase de velocidad en IA, con una infraestructura flexible, adaptable y lista para la próxima ola de innovación.
Sajjad Ahmed
Sajjad Ahmed es director de I+D e Ingeniería en la Unidad de negocio de Redes de datos digitales, donde dirige el equipo de Ingeniería avanzada y aoluciones en el desarrollo de arquitecturas de interconexión de última generación en estrecha colaboración con clientes de todo el mundo. Con más de dos décadas de experiencia en el diseño y la ampliación de ecosistemas de ingeniería, cuenta con profundo conocimiento de ingeniería multidisciplinaria y capacidad para superar los retos de la producción en masa. Sajjad ha impulsado innovaciones que han avanzado la industria de la computación y continúa desarrollando tecnologías que definen el futuro de los centros de datos en todo el mundo.