LIQIDブログ:次世代AI基盤を担うコンポーザブルCXLメモリ
(以下はLIQID社ホームページに掲載されたブログの弊社和訳です:When gpus starve ai fails how composable cxl memory restores balance for enterprise ai)
思い返せば、AI戦略において主役は常にGPUでした。 生成AIの需要が急激に高まる中、多くの企業がNVIDIAのH100やL40Sといった高性能アクセラレータの確保に奔走してきたのは記憶に新しいところです。 ところが、AIシステムが実証実験から本番運用へと移行するにつれ、多くのAI責任者たちはある課題に直面しています。せっかくの強力なGPUが、常にフル稼働しているわけではないのです。
実際、業界やワークロードにもよりますが、GPUの平均稼働率は20〜40%程度にとどまるケースも少なくありません。 その主な要因の1つが、GPUにデータを供給するメモリアーキテクチャの制約です。
LIQIDでは、企業や大学、研究機関との対話を通じて、こうした課題に直面する現場の声を数多く聞いてきました。多額の投資をして構築した GPUクラスターなのに、メモリの帯域幅や容量、そしてGPUに近い場所からのデータ供給がボトルネックとなり、GPUが処理待ちで止まってしまう、そんなもどかしい状況が、あちこちで繰り返されているのです。
では、なぜ従来のメモリアーキテクチャは限界を迎えつつあるのでしょうか? それは、エンタープライズAIの投資対効果(ROI)にどんな影響を与えているのでしょうか?そして今、「コンポーザブルCXLメモリ」が、最新のAIワークロードでGPUの性能を最大限に引き出す鍵として注目されているのはなぜなのか。本稿では、その理由をひも解いていきます。
メモリの壁、GPUのボトルネックは「システムメモリの不足」から
GPUは、非常に高いスループットで動作するように設計されています。 たとえば、NVIDIA H100は1基で最大4ペタFLOPSものAI演算性能を発揮できます。しかし、その性能は十分な速度でデータが供給されてはじめて実現されるものです。 そのためには、次の要素のバランスが重要になります:
- ローカルのDRAM容量
- メモリ帯域幅
- GPUとCPU間のデータフロー
- メモリアクセスのレイテンシ
しかし残念ながら、従来型のサーバーアーキテクチャでは、このバランスを実現する事は用意ではありません。 サーバーに搭載できるメモリ容量はDIMMスロット数に制限されており、一般的には1〜2TB程度、多くの構成でもそれ以上の拡張は簡単ではありません。 さらに、これらのメモリはCPUに物理的に接続されている必要があります。 一方で、AIワークロードはすでにこうした制約を超えるスケールへと進化しているのです。
DRAMが不足すると、GPUは次のような問題に直面します:
- バッチサイズの縮小
- メモリアクセス待ちの頻発(待ち時間の増加)
- 並列処理の制限
- テンソルコアの稼働率低下
- トークン処理速度(tokens/sec)の低下
- トークンあたりの消費電力の増加
エンタープライズの視点から見ると、これは次のような影響を意味します:
- 予測モデルの処理速度が遅くなる
- 大規模言語モデル(LLM)の推論コスト上昇
- RAGパイプライン(検索拡張生成)でのレイテンシ増大
- エージェント型AIの処理サイクルの長期化
- GPUファームの電力効率・コスト効率(ワットあたり・ドルあたりの成果)が低下する
こうしたすべての問題に共通する根本原因はひとつ:GPUが本来のスピードで動けないのは、メモリが十分な速さでデータを供給できていないからなのです。
なぜエンタープライズAIシステムではGPUが“飢える”のか
AIモデルは大量のCPU側メモリを今まで以上に必要としている
とくに最新の大規模言語モデル(LLM)は、CPU側のDRAMに大きく依存しています。たとえば:
- KVキャッシュ(キー・バリューキャッシュ)の保持
- アテンション処理用バッファ
- バッチ制御データ
- モデルの重みや中間テンソルの保持
- 埋め込みベクトル(Embedding)の保存
- グラフ構造のメタデータ管理
- エージェント型AIアーキテクチャにおけるツールフローの実行
しかも、比較的パラメータ数が抑えられた推論モデルであっても、低レイテンシを維持するには数百GB規模、場合によってはTB級のDRAMが求められることがあります。
大規模バッチ処理には、大容量メモリが不可欠
GPUによる推論処理において、バッチサイズはスループットを左右する最も重要な要素のひとつです。 バッチサイズを大きくすることで、テンソルコアの稼働率が向上し、パイプライン処理が効率化され、リクエスト処理数(requests/sec)が増え、オーバーヘッドも分散できます。
しかし、そのバッチサイズは、ほぼサーバーのDRAM容量によって決まってしまうのが現実です。 メモリが少ない = バッチサイズが小さい = GPUの活用率が低い、という悪循環に陥ってしまうのです。
メモリ不足でNVMeにデータが退避すると、レイテンシが最大100倍に増加
システムがDRAMを使い切ると、アクセス速度が大幅に遅いNVMeストレージにフォールバックします:
- DRAM: ~200 ns
- NVMe: ~100,000 ns
- HDD: ~10,000,000 ns
このように桁違いのレイテンシが発生すると、GPUではとても吸収しきれません。
複数GPUを搭載したノードほどメモリ不足の影響を受けやすい
AIチームでは、2基・4基・8基といった複数GPU構成のサーバーを導入するケースが一般的です。しかし、搭載されるメモリ容量はGPUの数に比例して増えるわけではありません。 結果として、 複数のGPUが限られたDRAMを奪い合う構図になってしまいます。
その結果、GPUを増やせば増やすほど、かえって活用率が下がってしまうのです。
ビジネスへの影響:活用されないGPUがAI投資のROIを押し下げる
GPUに十分なデータが供給されないと、パフォーマンスが低下し、それに伴って投資対効果(ROI)も低下してしまいます。 GPUの活用率が低いと、次のような問題が発生します:
トークンあたりのコスト増加: GPUの稼働率が40%にとどまると、実質的にトークン単価は2倍になります。
インサイト獲得までの時間が長くなる: 研究チームやデータサイエンティスト、ビジネス部門がモデルの出力を待つ時間が延びてしまいます。
電力効率の低下: GPUはアイドル状態やスタール中でも、稼働時とほぼ同じ電力を消費します
ワークロードのスケーリングが困難に: 新たなAIユースケースに対応しようとしても、メモリの制約がGPUのスケールアウトを妨げます。
GPU投資のリターンが減少: 企業はGPUに多額の投資をしても、期待した価値の一部しか得られないこともあります。
こうした不均衡は、従来のサーバーメモリアーキテクチャでは解消できません。 だからこそ、企業はCXLベースのコンポーザブルメモリに注目しはじめているのです。
コンポーザブルCXLメモリ:GPUの活用不足を解決する鍵
コンポーザブルCXLメモリは、GPUやAIワークロードへのメモリの提供方法を根本から変革します。 メモリをサーバーから切り離し、分離・スケーラブル・共有可能なリソースとして扱えるようにすることで、企業はついにGPUを最大限に活用するためのメモリプールを手に入れられるようになるのです。
では、その仕組みを見てみましょう。
大容量メモリの拡張が、より大きなバッチ処理と高スループットを可能にする
LiqidのコンポーザブルCXLメモリソリューションを使えば、1台のサーバーあたり10〜100TBものメモリ拡張が可能になり、次のような効果が得られます:
- より大きなバッチサイズの処理
- 同時に実行できる推論スレッドの増加
- GPUの稼働率が飛躍的に向上
- トークン処理速度(tokens/sec)の向上
これだけでも、ワークロードによってはGPUのスループットを2〜5倍に引き上げることが可能となります。
メモリプーリングによるGPUとDRAMのバランス最適化
AIチームのサーバーは、メモリ容量に大きなばらつきがあることが少なくありません。 コンポーザブルCXLメモリは、メモリをプール化し、必要な場所に動的に割り当てることでこの問題を解決します。
これにより、あるサーバーがメモリ不足で困っているのに、別のサーバーではメモリが余っている――そんなムダを防げることができるのです。
その結果:スタック全体のGPUが常に十分なメモリを得て、フル稼働できる状態を維持できるようになります。
GPU高速動作を維持するサブマイクロ秒のCXLレイテンシ
CXLは、DRAMに近い低レイテンシを実現しており、GPUが必要とするデータを高速で供給することができます。 NVMeにフォールバックする場合と異なり、ワークロードは数百ナノ秒という速さでメモリにアクセスでき、マイクロ秒~ミリ秒単位の遅延を回避できるようになります。
これにより、次のような問題が大幅に軽減されます:
- GPUのストール(データ待ちによる処理停滞)
- メモリフェッチ時のボトルネック
- 予測困難なパフォーマンスの変動(スパイク)
- 推論レイテンシのテールリスク(まれに発生する極端な遅延)

アプリケーションの書き換え不要で、すぐに効果を実感
業は、モデルやコンテナ、アプリケーションを変更することなく、コンポーザブルメモリの恩恵を受けることができます。 このメモリは、OSから通常のメモリとして認識されるため、コードの変更も、フレームワークの更新も、複雑なオーケストレーションも不要です。
GPUあたりのコストや消費電力を削減しコストあたりのトークン処理量を大幅に改善
CXLメモリによってGPUの活用率が向上すると、次のような効果が直接得られます:
- GPU投資のROI(投資対効果)の向上
- モデルのスループット向上
- 運用効率の改善
- 電力効率(Ops/W)の向上
- コスト効率(Ops/$)の向上
実際、GPUをフル活用できるようになることで、コストを60〜75%削減できたという事例も少なくありません。
まとめ:GPUの価値はメモリ次第
AI時代において、AIの性能はもはやGPUだけでは決まりません。 これまで以上に、メモリの役割が重要になっています。
十分な容量のDRAMが、GPUの近くで、十分な速度で、十分な量供給されなければ、GPUはこれからも「飢えた」状態になってしまいます。
コンポーザブルCXLメモリは、AIインフラ全体のバランスを再構築し、導入したすべてのGPUが最大限の性能を発揮できるようにします。
これは、企業がAIの潜在能力を完全に引き出し、計算ボトルネックに悩む部門を高性能AIエンジンへと変革するために必要なアーキテク チャの大きな転換です。