データセンター アーキテクチャにおける機械学習

トレンド

新しいタイプのデータ
アプリケーション

データセンター向けの機械学習を開発する際は、性能、拡張性、リカバリーに影響を与えるすべての要素を最初から考慮する必要があります。

データセンターへの機械学習の導入を成功させるには、正しいアーキテクチャを構築することがきわめて重要です。 データセンターのコンテンツの大部分は IT アーキテクチャを通過するか、IT アーキテクチャを起点とするため、IT アーキテクチャの機能性を実現するにはデータセンターのインフラストラクチャが鍵となります。

 

データセンター向けの機械学習を開発する際は、設備の性能、拡張性、リカバリーに影響を与えるすべての要素を最初の計画時に考慮する必要があります。これを達成するには、通常、新しいアプリケーションを速やかにサポートできる柔軟なアーキテクチャの開発に重点を置いてシステムを設計します。

 

計画時にこれらの側面に対処しておかないと、データ アーキテクチャが非効率的または不正確なものとなり、最終的にシステムおよび電力全体の障害につながる可能性があります。そうなると、データセンター事業者は大量の重要なデータを失います。

 

この種の障害をもたらす可能性のある要素はいくつかあり、たとえば電力要件の不正確な見積もり、電力設備の不適切な選択、自動転送メカニズムの不適切な設計などが挙げられます。今日のデータセンター アーキテクチャにおける機械学習の能力を最適化するには、システム障害を引き起こす一般的な問題とそれらの問題の原因となりうるコンポーネントをシステム設計時に十分に検討する必要があります。

クラウド コンピューティングに関する CTO の見解
ビデオ (英語)

TE の CTO 兼 VP である Erin Byrne が、クラウド コンピューティングに関する自身の見解と、設計アーキテクチャに影響を与えるメガトレンドについて語ります。

クラウド コンピューティングに関する CTO の見解
ビデオ (英語)

TE の CTO 兼 VP である Erin Byrne が、クラウド コンピューティングに関する自身の見解と、設計アーキテクチャに影響を与えるメガトレンドについて語ります。

今日のデータセンター業界に見られる問題のひとつとして、人工知能 (AI) と機械学習という用語が一般に区別なく使われていることが挙げられます。これは混乱や誤りを招く可能性があります。 重要なのは、「機械学習は AI の一部にすぎない」という一般原則を忘れないことです。AI は、「思考」する機械を開発することに重点を置いています。それに対して、機械学習とは一般に、機械が反復的機能を通じて「学習」できるようにするアルゴリズムを定義することを意味します。機械学習は新しい概念ではありませんが、ここ数年間に起こった変化のひとつに、コンピュータの処理能力が向上してビット単位のコストが下がったことがあります。これにより、私たちの日常生活に機械学習が浸透してきました。たとえば、Google や Netflix などのレコメンデーション エンジン、ソーシャル メディア アプリの統合、スマートフォンでの指紋認識や顔認識などがその一例です。

 

最初期の機械学習アプリケーションは航空宇宙業界と商業航空業界で誕生し、これによって航空機の翼の設計にイノベーションがもたらされました。それ以来、多くの設計者が機械学習の利用についての考えを発展させ、今では、設計を最適化するには機械学習の可能性とそれに伴うトレードオフとの整合性を取らなければならないという包括的な理解に至っています。

 

この変化はデータセンターにも影響を及ぼしています。現在のデータセンターでは、AI と機械学習の活用が標準的なコンピュータやスタンドアロン ボックス内での限定された用途からシリコン特有の応用範囲に移行しているケースが多く見られます。これにより、データセンター ネットワークのあらゆる部分に AI と機械学習を使用して機能性を徐々に拡張しながら、データセンター ネットワークの最適化により力を注ぐという道が開かれました。

今後 5 年の間に、機械学習の使用は専用インフラストラクチャから離れてより柔軟なインフラストラクチャにシフトすると予想されます。これにより、即時の拡張、変更、多様化に対応できるようになります。 機械学習の主要機能のひとつであるデータ収集は人間対機械の相互作用を軸としていますが、これが機械対機械の相互作用へと移行する可能性があります。そうなると、手作業でのデータ入力は不要になるかもしれません。機械同士の通信パスが確立され始めると、システムによるデータの処理や伝送が新しい形に変わり、その結果これまで以上に多くのデータに基づく今までないインサイトがもたらされる可能性があります。  

 

サーバやデータ ラックなどのデータ システムに機械学習を導入するプロセスは、システム設計者が達成しようとしている目標や、機械学習をコアに組み込むために要するデータセンター事業者の作業負荷によって異なります。 

 

機械学習を新しいデータセンターまたは既存のデータセンターに導入する一般的な理由は、大規模な学習ポッドにおける問題や、受信データを基に開発されたアルゴリズムに起因するネットワークの問題など、既存の既知の問題を解決することです。今日のほとんどのソリューションは、問題の規模に合わせてカスタマイズされる傾向があります。

 

カスタマー ソリューションを設計する際の課題には、配電の最適化、熱レベルの低減、相互接続における高速/低遅延パフォーマンスの改善などがあります。データセンターでは通常、すべてのものを相互接続する必要があります。そのため、システム コンポーネントには、狭いスペースに設置して使用できるとともに、予想される速度要件に対して熱出力を増加させずに対応できる柔軟性が求められます。

 

多くの場合、アーキテクチャの設計時にはハードウェアの近接性を考慮する必要があります。このバランスを適切に保つには、設計、コスト、電力・冷却構造のトレードオフが必要となる場合があります。一般に、データセンターの電力をどの程度適切に制御および冷却できるかには限界があります。これは妥協点を見出すための指針となり、設計者はこれに従ってより効率的なアクセラレータやシステム設計を開発し、高度な熱的機構を取り入れることができます。

TE では、お客様と連携して、データセンターでの機械学習に求められるハイパースケールやコロケーション、エッジ コンピューティングの実現に必要な条件などの幅広い要件に対応できるコンポーネントの設計・製造を支援しています。 当社は、データセンター アーキテクチャに必要な高速性と電力効率を念頭に置いて設計されたダイレクト アタッチや外部銅線ケーブル アセンブリとそのインタフェースなどのソリューション、さらには特大アレイ (XLA) ソケット技術、カード エッジ コネクタ、Strada Whisper バックプレーン コネクタ ケーブル アセンブリ、内部高速銅線ケーブルを提供しています。これらの製品は、何よりも目的のシステム設計への適合性が評価されて、多くのお客様に選ばれています。当社の電力設計には、電力ケーブル アセンブリ、バスバー、配電システム、熱管理ソリューションが含まれます。

 

当社と提携したお客様は、アーキテクチャ上のさまざまな問題に対応するスキルを持ったエンジニアから専門的なアドバイスを受けながら、信頼性と耐久性の高い高性能なソリューションを手にすることができます。このような協力を通して、すぐに拡張できる効率的な次世代ソリューションを開発し、機械学習をデータ システムの中核に組み込むことが可能です。パフォーマンスの問題は当社のエンジニアに任せて、お客様はその他の優先順位の高い事項、たとえばアプリケーション レベルでのプロジェクトの開発やソフトウェアに関する抽象的な問題の解決などに集中できます。

著者

  • Mike Tryson、最高技術責任者、Data and Devices 部門
  • Erin Byrne、最高技術責任者兼エンジニアリング担当副社長、Sensors センサ
  • Dave Helster、TE エンジニアリング フェロー、Data and Devices 部門
  • Jonathan Lee、グローバル バルク ケーブル担当シニアエンジニアリング マネージャ、Data and Devices 部門
  • Christopher Blackburn、システム アーキテクチャ担当技術者、Data and Devices 部門