Azure Virtual Machine(VM)およびVM Scale Sets(VMSS)向けに、Ephemeral OS Disk with Full Cachingがパブリックプレビューとして公開された。一見地味なアップデートに見えるが、HPC(高性能計算)やゲームサーバー、大規模なAI推論ワークロードを扱うエンジニアにとっては見逃せない進化だ。

Ephemeral OS Diskとは何か、なぜ今「フルキャッシュ」が重要なのか

Ephemeral OS Diskは、VMのOSディスクをリモートの永続ストレージ(Azure Managed Disk)ではなく、VMホストのローカルストレージ上に展開する機能だ。VMが削除されるとディスクの内容も消える「一時的」な性質を持つが、その代わりにストレージI/Oがローカルで完結するため、マネージドディスクへのネットワーク越しのアクセスが不要になる

これまでのEphemeral OS Diskには「Disk Cache Placement」と「Temp Disk Placement」という2つの配置モードがあり、VMのキャッシュ領域またはTemp Diskを利用していた。今回パブリックプレビューとなったFull Cachingモードでは、OSディスク全体をVMのローカルキャッシュ領域に格納する。

具体的なメリットは2点に集約される。

1. ミリ秒単位の低レイテンシ

リモートストレージへのアクセスには、ネットワークレイテンシが必ず発生する。マネージドディスクの帯域幅やIOPSはSKUによって上限が決まっており、ストレージ帯域がボトルネックになるシナリオは珍しくない。Full CachingによってOSディスクのI/OがVM内のキャッシュで完結すれば、ストレージレイテンシはリモートディスク比で大幅に短縮される。ブート時間の短縮はもちろん、OSカーネルのページングやシステムファイルへの頻繁なアクセスが速くなる恩恵は、高負荷環境ほど顕著に出る。

2. リモートストレージ障害時の耐障害性向上

こちらはあまり語られないが、実運用では重要なポイントだ。Azureのマネージドディスクはリージョン内のストレージクラスターに依存しているため、そのクラスターに問題が発生すると、VMが起動していてもOSディスクへのI/Oが詰まりパフォーマンス劣化や応答不能に陥ることがある。Ephemeral OS Disk(Full Caching)であれば、リモートストレージクラスターに障害が発生してもOSディスクへのアクセスは継続できる。VMSSで大量のインスタンスを動かしているサービスにとって、これは可用性の観点で大きな差になり得る。

対象SKUと制約

Ephemeral OS Diskは特定のVMシリーズにのみ対応しており、Full Cachingを利用するにはVMのキャッシュ領域がOSディスクサイズ以上であることが条件になる。一般的にキャッシュ領域が大きいのはメモリ最適化・コンピューティング最適化系のSKUだ。VMSSのイメージ更新(ローリングアップグレード)との組み合わせも、Ephemeral OS DiskはVM再展開のたびに初期化されるため、ステートレスなワークロードと相性がよい

データの永続化が必要なワークロードには適さないという制約は変わらないが、コンテナホスト・AIモデル推論・Web/APIサーバーのような「OSイメージさえあればロールバックできる」構成では積極的に採用を検討できる。

実務への影響——日本のエンジニア・IT管理者にとっての意味

大規模VMSSを運用しているチームへ: スケールアウト時のインスタンス起動速度が改善される可能性がある。特にゲームサーバーやリアルタイム処理系で急激なトラフィック増加に対応する際、ブート時間の短縮は体感できる差になる。

HPC・AI推論ワークロードを扱うチームへ: GPUインスタンスのようにOS領域のストレージI/Oが相対的に軽い構成でも、マネージドディスクのスロットリングリスクを排除できる点は価値がある。ジョブのプリエンプト・再起動が頻繁なHPC環境では特に恩恵を受けやすい。

実際の移行手順として押さえておきたい点:

  • az vm create--ephemeral-os-disk-placement パラメーターに CacheDisk(Full Caching)を指定
  • VMの OSディスクサイズ ≤ VMキャッシュサイズであることを事前確認
  • VMSSのアップグレードポリシーとEphemeral OS Diskの組み合わせ動作をステージング環境で必ず検証
  • ステートフルなデータはData Diskまたは外部ストレージに分離する設計を徹底する

筆者の見解

このアップデートはAzureのコンピューティング基盤が着実に磨かれている証左であり、素直に評価したい。クラウドプラットフォームとしての信頼性を積み上げる地道な改善は、Azureが長期的な競争力を維持する上で欠かせない仕事だ。

一方で、「ローカルキャッシュにOSを乗せて速くする」というアプローチは、HPC・AI系ワークロードが爆増している現状では「もっと早く来てほしかった」という気持ちも正直なところある。GPUインスタンスの需要が拡大するにつれてストレージレイテンシのボトルネックが顕在化してきていたのは、現場のエンジニアなら誰もが感じていたはずだ。

注目したいのはVMSSとの組み合わせによる大規模展開シナリオだ。エージェントワークロードのインフラとして大量のVMを瞬時にスケールアウトするユースケースは今後加速する。そのとき、OSディスクのブート速度と可用性が実質的な競争力の差になってくる。Azureがこの領域を強化してきたことは、エージェント基盤としてのプラットフォーム戦略と一致している。

パブリックプレビューの段階で積極的に試し、フィードバックを蓄積しておくことが、GAになったときに即座に本番適用できる準備になる。まずはステートレスなワークロードから小さく試してほしい。


出典: この記事は Public Preview: Ephemeral OS Disk with full caching for VM/VMSS の内容をもとに、筆者の見解を加えて独自に執筆したものです。