Azure DatabricksはvLLMエンジンによるカスタム・ファインチューニングLLMのサービング(Beta)、Lakeflow Spark宣言的パイプラインのリアルタイムモード(パブリックプレビュー)、Anthropic Claude Opus 4.8のホスティング対応など、2026年5月に大型アップデートを一斉公開した。
vLLMカスタムモデルサービング(Beta)
vLLM(高効率LLM推論エンジン)を使ったカスタムLLMのサービングがBeta公開された。自社でファインチューニングしたモデルや独自の量子化済みモデルをAzure Databricks上で直接ホストし、APIエンドポイントとして提供できるようになる。
従来はManagedサービスのモデルか、自前のKubernetesクラスター上でのサービングが主流だったが、vLLMをDatabricksのModel Servingに統合することで、データとモデルの距離を縮め、レイテンシを最小化しながらセキュアな推論環境を構築できる。ファインチューニング済みモデルを扱う組織にとって、推論インフラの管理コスト削減は直接的なメリットだ。
Lakeflow Sparkリアルタイムパイプライン(パブリックプレビュー):5ms以下の世界
Lakeflow Spark宣言的パイプラインにリアルタイムモードが追加され、エンドツーエンドのレイテンシが5ms以下を実現するとのことだ。同時にupdate_flow APIもパブリックプレビューに入った。
金融取引のリアルタイム不正検知、IoTセンサーデータの即時分析、ライブダッシュボード更新など、これまでKafka+専用ストリーミング基盤が必要だったユースケースをLakeflowに統合できる可能性がある。update_flow APIの追加により、パイプラインの一部フローのみを選択的に更新・再実行するオペレーションも可能になり、本番環境での部分修正コストが大幅に下がることが期待される。
Anthropic Claude Opus 4.8がDatabricks-hostedモデルとして利用可能に
Databricks Model ServingにAnthropic Claude Opus 4.8が追加された。Foundation Model APIのpay-per-tokenとして利用でき、推論(Reasoning)モデルやビジョンモデルのクエリも対応している。
Databricksの統合環境内でClaude Opus 4.8を呼び出せることで、データパイプラインの結果をそのままLLMに渡す処理フローを、外部APIへのデータ転送なしに構築できる。データガバナンスの観点でも、データがDatabricks/Azure環境外に出ないという点は企業にとって重要な選択肢になる。
その他の主要アップデート
Databricks Appsの水平スケーリング(Beta): 単一のアプリURLの背後で複数インスタンスを起動可能に。ゼロダウンタイムデプロイとセッションアフィニティを実現する。
クロスエンジンABAC(Beta): 外部エンジンがUnity CatalogのDelta・IcebergテーブルへABACを適用した状態でアクセスできるようになった。行フィルター・列マスクのポリシーをUnity Catalogに一元化できる点が大きい。
Lakeflow Designerの強化: AI生成説明文の双方向編集、N-way Combine演算子、カスタムJOIN条件、マルチモーダル出力プレビューなど、データエンジニアリングUIが大幅に改善された。
実務への影響
ファインチューニング運用チームへ: vLLMサービングのBeta開始により、学習基盤と推論基盤をDatabricks上に統一するアーキテクチャが現実的になった。今のうちにPoC評価を始めておくことを推奨する。
データエンジニアへ: リアルタイムパイプラインの5ms以下レイテンシは、Kafkaベースの既存アーキテクチャの再評価トリガーになりうる。ただしBeta/PPの段階では、本番SLA要件との照合を慎重に行うこと。
セキュリティ・ガバナンス担当者へ: クロスエンジンABACとUnity Catalogの組み合わせは、マルチエンジン環境でのデータアクセス制御の標準化につながる。Databricksを中心にしたガバナンス設計の検討価値が上がった。
筆者の見解
今回のアップデートで最も注目したいのは、vLLMカスタムサービングとリアルタイムパイプラインの組み合わせが示す方向性だ。「データがある場所でAI推論も動かす」という思想が、着実にプラットフォームに実装されている。これはAzure全体のアーキテクチャ哲学とも一致する。データをどこか別の場所に送ってAIで処理するのではなく、データが存在するプラットフォームの上でAIも動かす——この考え方は、セキュリティとレイテンシの両面で理にかなっている。
Claude Opus 4.8がDatabricks-hostedで使えるようになったことも評価したい。Microsoft Foundry経由で各種モデルを選べる環境が広がることは、Azure基盤を維持しながら推論エンジンを柔軟に選択できるという現実的な解に近づく動きだ。
リアルタイムパイプラインの5ms以下レイテンシには正直驚いた。ストリーミング処理の文脈でDatabricksを語ることへの抵抗感が筆者にはあったが、この数字が本番環境でも安定するならば、専用ストリーミング基盤の存在意義を問い直す必要があるかもしれない。BetaからGAへの成熟を注視したい。
出典: この記事は Azure Databricks May 2026 Release Notes: vLLM Custom Serving & Real-Time Pipelines の内容をもとに、筆者の見解を加えて独自に執筆したものです。