TE の視点
人工知能がコンスタントに収益を上げるためには、データ センターの高速化が必要です。劇的な高速化が求められます。 AI モデルは新しい世代のトレーニングごとに改善されますが、それでもトレーニングには比較的長い時間がかかります。この遅れは、AI モデルを訓練するグラフィック プロセッシング ユニット(GPU)に送信できるデータ量に現在制限があることに起因しています。高速化に向けた競争はすでに始まっています。その競争れが進展するにつれ、業界はより多くのデータをより迅速に処理するためにインフラをアップグレードするだけでは済まなくなるでしょう。また、複雑な計算を高速化するための電力需要の増加や、新しいインフラが発生する熱の管理も必要です。
さらに複雑なことに、システム設計者は基本的に、飛行機を操縦しながらそれらを構築しなければなりません。機器メーカーや部品メーカーと協力して、現在のインフラの性能を最大限に引き出すと同時に、近い将来必要になるであろう、さらなる高速化に向けてアップグレードや拡張の準備をしなければならないのです。
AI のエンドユーザーは数秒で答えを得られるかもしれませんが、最先端のモデルのトレーニングには時間がかかり、大型の基盤モデルの場合は一般的に 2~4 か月です。 このタイムラグは、組織が新鮮なデータを改善されたモデルやビジネス価値に変換するスピードを制限します。トレーニングから展開までのループを短縮することは、技術的な利点以上のものであり、経済的な必須事項でもあります。
新しい自動車組立ラインを考えてみましょう。生産システムは、初日からスループット、品質、効率に関する豊富なデータセットを生成します。理論的には、そのデータはすぐに業務の最適化に利用できます。しかし実際には、AI のトレーニング サイクルが長いため、再トレーニングされたモデルが実用的な改善を実現するまで、メーカーは数カ月待たなければなりません。
より迅速なアルゴリズムのトレーニングにより、企業は AI に最適化されたプロセスをより迅速に導入し、効率性の向上とコスト削減を実現することができます。これは、データ センター ラック内の技術革新のペースがいかに広範囲に影響を及ぼすかを示す一例にすぎません。
高速化はデータ センター アーキテクチャに変化をもたらしています。 現在、毎秒 800 ギガビットのモジュールが広く利用可能になり、間もなく毎秒 1.6 テラ ビットのモジュールが登場します。このような高速接続の登場により、銅線ケーブルの実用的な最大長は短くなり、より多くのトラフィックが光ケーブルに移行しています。この移行により、現在利用可能なリニア プラガブル プティクスや、現在も進化を続けているコパッケージド オプティクスなどの低電力アーキテクチャ ソリューションへの関心が高まっています。ラックの内部では、GPU を集約することで、トレーニングや大規模な推論操作の際の通信ボトルネックを軽減するなどのアーキテクチャ変更が行われています。
データ センターがこうしたアーキテクチャの調整を 1 つ以上行うタイミングは、既存のインフラが顧客のニーズにどれだけ応え続けられるかによって決まります。このようなインフラ シフトの計画に向けて部品メーカーと提携することは、データ センターのインフラをより効率的にアップグレードするのに役立ちます。その間、入出力を問わないモジュール式のベースプレートにアップグレードすることで、データ センターはその切り替えの準備を迅速化することができます。また、切り替えを適切に管理することで、将来的にモジュール タイプをアップグレードし続けても、同じファイバーとベースプレートを維持できるため、サーバー シャーシ全体を再設計して交換することなく、高速化を継続できます。

スピードとボリュームのスケーリングは、コネクション間で行われるだけではありません。 サーバー ポッド内でも、ポッド間でも実行できます。ポッド内でスケール アップし、より高速で強力にするためには、データ センターにおいて、ポッド内のすべてのエレメントにわたって、均一で決定論的なファブリック、拡張されたメモリ容量、予測可能なレイテンシが必要です。これらの機能に対応する部品は、スケールにも対応します。
同様に、ワークロードをよりダイナミックにサポートするためにポッド間でオペレーションをスケール アウトするには、より弾力性のあるポッド設計が必要です。この機能は、ホットスワップ可能な電源、計装化された冷却マニホールド、ブラインドメイト相互接続、計装化されたバックプレーンによって決まります。また、IT 負荷を監視するための各レイヤーでの遠隔測定や、そのような動的な構成に必要な変更に対応できる標準化された部品も必要になります。
このようなアップグレードは、より大きな電力を必要とし、より多くの熱を放出します。その熱を放散させることで、それ自体が電力への要件を高めます。 現在、TE Connectivity は、業界全体の企業と緊密に協力して、既存のサーバー ラックに革新的かつ安全に大容量の電力を供給するとともに、データ センター(特にクラウド ハイパースケール サービスを提供するデータ センター)がより大容量のラックをサポートする新しい規格やアーキテクチャを開発し続ける中で、将来のアップグレードに向けた道筋を確立しています。平均的なフリート ラック密度は現在でも主に 10 キロワットから 30 キロワットですが、AI トレーニング クラスタはすでに 120 キロワットから 132 キロワットと、仕様の限界に近づいています。2027 年までに、AI ラックは最大 600 キロワットに達し、10 年後までには 1 メガワット クラスのラックが一部の導入で登場すると予想されています。このような高密度に対応するには、非常に広い範囲のラック電力をサポートしながら、電流、銅の質量、配電損失を削減する高電圧 DC アーキテクチャが必要です。
熱的には、従来の空冷だけではこの負荷に対して十分ではありません。チップへの直接液冷は、高 TDP アクセラレータの標準となりつつあり、二相液浸やハイブリッド ソリューションは一部のケースで使用されています。次世代液冷ソリューションをサポートするオプティクス対応インターフェイスのような部品は、温度をコントロールするのに役立ちます。
最も資本効率の高い戦略は、早期に「枠組みを固定」することです。 ラックとポッドの境界で、メカニクス、電力、冷却、入出力、テレメトリのための合理的で共有可能なパラメータを定義し、シャーシの再設計を強いることなく、シリコンとソフトウェアをその枠組み内で繰り返し改善します。データ センターが、このような大電力・広帯域の将来に向けてインフラを早く準備すればするほど、AI 業界の継続的な進歩をサポートする上で有利になります。理想的には、データ センターは、キャンパスを完全に改装することなく、拡張、監視、保守が可能な、保守可能な、計装化されたラック インターフェースを必要としています。
TE Connectivity は、ハイパースケーラー、OEM、およびインテグレーターと協力して、この安定した枠組みを形成する機械、電力、冷却、および高速入出力要素を設計しています。
この業界の使命は明確です。柔軟性と拡張性に優れ、次のイノベーションの波に対応できるインフラによって、AI のスピード ギャップをインテリジェントに埋めることです。
Sajjad Ahmed
Sajjad Ahmed は、デジタル データ ネットワーク事業の R&D およびエンジニアリング担当ディレクターで、アドバンスド エンジニアリング&ソリューション チームを率いて、グローバルなお客様との緊密なパートナーシップのもと、次世代の相互接続アーキテクチャを開発しています。エンジニアリング エコシステムのアーキテクチャとスケーリングにおいて 20 年以上の経験を持ち、学際的なエンジニアリングの深い理解に加えて、大量生産の課題を克服してきた実績ある能力を兼ね備えています。Sajjad は一貫してコンピュート業界を進歩させるイノベーションを導入し、世界中のデータ センターの未来を形作るテクノロジーを推進し続けています。