シリーズ・コラム(第一回) サーバー間でGPUをネットワーク共有できるLIQID CDI

これまで当社ホームページ内の技術コラムやブログ記事を通じて、LIQID社CDI製品が提供するまったく新しいコンピュータ資源の有効利用方法を提案してきた。今般このLIQID社CDI製品のユースケース情報が集まってきたこともあり、その紹介を兼ねてシリーズ・コラムの連載を開始し、それら実例を通してユーザーに好感いただいた製品価値を伝えられればと願う。
高価なサーバー・コンポーネント
昨年PCIe Gen5世代のサーバーをラボに導入した。通常はPCIe世代が進化するタイミングでサーバーを更新・追加しているので前回はPCIe Gen4登場の時だったが、当時と比較すると今日のサーバー製品の価格はかなり高くなった印象だ。
サーバーの価格が上がったのは、もちろん円安の影響もあるだろうが、主要コンポーネントであるCPUやメモリが高いのだ。昨今花盛りのAI開発などを行うのであれば、これにGPUも足さなければならない。
生成AIブームの到来で一気に世に知られるようになったGPUだが、歴史的には古くから存在する製品である。GPUのGはGraphicsのGだ。その名称からわかるように元は画像処理用のプロセッサであったわけだが、大規模言語モデル(LLM)や生成AIの開発に威力を発揮するということで採用が進んだ。その中でもデータセンターGPUと呼ばれるハイエンドモデルが人気だ。GPUと言うと、認定パートナーとして当社も販売しているNvidia製品がもっとも認知度が高いと思うが、それ以外にAMDやインテルなどの製品もある。各社、廉価なモデルもラインナップしているが、前出のデータセンターGPUの上位モデルなどは何百万円もする。
CXLの登場によりメモリもサーバー間でネットワーク共有可能に
当社のラボに導入したサーバーの用途は多様だ。お客様に販売したネットワーク製品やストレージ製品の問題判別、新製品の検証、エンジニアのトレーニングなど多岐に渡る。折角高価なCPUやメモリ、GPUなどに投資するなら、無駄なく最大限活用したいと思うのは当然のことだが、では、どうやってそれら高額な資源を有効活用できるのか?単に使用頻度や適用業務を広げる努力以外の、固定観念を覆す新しい視点を提案したい、それがこのシリーズ・コラムの狙いである。更に言えば、高価なコンポーネントの中でも特にGPUの使用効率の改善に着目したい。なぜなら、それこそが当社が国内唯一の代理店を務めるLIQID社のCDI(Composable Disaggregated Infrastructure)製品の主要な提供価値の一つだからである。
現時点、CDIの対象はPCIeデバイスだけだが、近い将来メモリ・デバイスがその対象に加えられ、従来では考えられなかったメモリの利用形態が可能になる。これはPCIeの拡張規格であるCXLに則った技術であり、簡単に言えば、複数のサーバー間でメモリをネットワーク共有できるようにする機能である。LIQID CDI製品のCXL対応については時宜が来たら改めて寄稿したい。つまり、LIQID CDIはGPUであれメモリであれ、従来不可能であったオンデマンドでのネットワーク共有を可能にし、その結果、資源の遊休(アイドル)時間の低減(使用率の向上)を可能にする製品であると言える。
CDI(コンポーザブル・ディスアグリゲーテッド・インフラストラクチャー)とは?
ところで、このコラムで初めてCDIというキーワードに触れた方のために、簡単にCDIをおさらいしておく。CDIとはコンポーザブル・ディスアグリゲーテッド・インフラストラクチャーの略で、GPUなどのPCIeデバイスをサーバー間で動的かつ瞬時に共用する技術製品である。下図でコンセプトを提示する。
GPUを各サーバーに搭載せず、共有デバイス化するために特別な「拡張シャーシ」にまとめて導入する(プール化)。拡張シャーシと各サーバーとはPCIeネットワークで接続され、専用ソフトウェアのGUI操作により必要なGPUをプールから選択肢、対象のサーバーにアタッチし、使用後はデタッチしてプールに戻す。これによりGPUを特定のサーバー筐体の専用資源ではなく共用資源化し、オンデマンドのニーズに合わせて柔軟かつ瞬時にサーバーの構成変更を行うことができる。システム構成イメージを下図に示すが、詳細については当社のホームページにある製品紹介や技術コラムを参照いただきたい。
ネットワークと言えば、イーサネットやインフィニバンドなどをイメージすると思うが、ここではPCIeファブリック・ネットワークを用いている。PCIeバスをサーバー筐体外部に延長し、PCIeスイッチを介して相互に接続する。これにより、サーバーから離れた場所にある拡張シャーシ内のPCIeデバイスをあたかもサーバー内部に存するかのように扱えるのである。
蛇足だが、当社がLIQID社代理店として販売するCDI製品は、サーバーのメーカーを選ばない。例えばデルやスーパーマイクロなど多様なメーカーのサーバーモデルと組み合わせてシステム構築していただける。また、本稿はGPUに焦点を絞ったが、上述したとおりCDIはGPUに限らずあらゆるPCIeデバイスを対象としていることを再確認しておきたい(但し、LIQID CDI製品では拡張シャーシに導入可能なアダプターカードタイプのデバイスに限る)。
ここで今回の紙面が尽きてしまったが、冒頭述べたように、次回以降のコラムでは今般集まってきたLIQID CDI製品のユースケースをいくつか紹介する。その後、改めて性能やコスト(TCO)などの議論に立ち戻りたい。最後までおつきあいいただけたら感謝である。
(MF)