国産医療LLMが商用AIに肉薄—オンプレ運用・患者情報保護も両立

PC Watchが2026年6月1日に報じたところによると、さくらインターネットや東京大学など10者は5月28日、医療業務支援向けの高性能日本語大規模言語モデル(LLM)の開発を発表した。新エネルギー・産業技術総合開発機構(NEDO)が推進する事業の一環として開発されたこのモデルは、医療現場が抱えるAI導入の構造的な課題に真正面から取り組んだ国産特化型AIとして注目されている。

なぜこのLLMが注目されるのか

医療現場でのAI活用には、一般的なクラウドサービスでは解決しづらい三重苦がある。①患者情報が国外サーバーや外部事業者に渡るリスク、②医療機関ごとに異なる用語・コード体系の壁、③LLM活用のための安全性基準の未整備——これらが重なり、医療機関が高性能なAIを導入しにくい状況が長らく続いてきた。

今回開発されたLLMは、オープンなLLMをベースに日本の診療ガイドライン・専門医試験問題・臨床事例を追加学習させており、医療機関のオンプレミス環境や国内クラウド環境での運用を前提に設計されている。

開発成果のポイント

性能:商用LLMに迫る90.8%の正答率

PC Watchの報道によると、今回公開されたモデルの中で最も優れた性能を示したのは東京大学が開発した「Weblab-MedLLM-GLM-4.7」だ。専門医試験を模した学術試験において、RAG(検索拡張生成)を組み合わせた場合に最大 90.8%の正答率 を達成した。比較対象とした主要商用LLMの正答率91.4%との差はわずか0.6ポイントであり、特化型モデルが汎用商用AIに実用水準で並んだことを示している。

安全性:患者情報の定量的リスク評価を確立

性能と同等以上に評価されるのが、安全性確保への体系的な取り組みだ。学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法を確立し、患者情報の自動検出・マスキング機能を実装。さらに 5万件超の対話型安全性ベンチマーク の策定と攻撃耐性評価試験も実施しており、「使えるかどうかわからない」という導入判断の障壁を下げる設計になっている。

実証済みのユースケース

実際の医療業務での検証では、以下のユースケースで高い精度と品質が確認された:

  • JLAC11コード変換(検査名称の標準コードへの自動変換)
  • 症例データの自動整理
  • 退院時サマリーの下書き作成

いずれも医療従事者の事務作業・文書作成を補助する目的であり、疾病の診断や治療そのものを行うものではない点が明示されている。

日本市場での注目点

本モデルは「患者情報の国内管理」という医療機関の要件を直接満たせる設計で、海外クラウドサービスでは対応が困難だった課題への現実解として機能する。現時点での商用サービス化・価格については未発表だが、NEDO事業として開発されており、今後は関係機関と連携した段階的な社会実装が予定されている。

電子カルテベンダーや医療機関のシステム担当者にとっては、オンプレミス・国内クラウド対応というポジショニングが導入検討の重要な軸になるだろう。競合としては汎用LLMに医療ファインチューニングを施した各社のモデルが挙げられるが、安全性評価の体系化と国内運用保証を同時に達成している点では、本モデルの取り組みは一歩先を行っている。

筆者の見解

今回の発表で特に評価したいのは、「禁止ではなく安全に使える仕組みを整備した」というアプローチだ。医療情報という最もセンシティブなデータを扱う領域で、「外部サービスを一律禁止する」方向ではなく、「国内運用可能な高性能モデルを作る」方向に舵を切ったことは理にかなっている。禁止アプローチは長期的に維持できない——現場は便利なツールを使いたがるし、事実使い続ける。

性能面では商用LLMとの差はわずか0.6ポイント。RAGを前提とした設計で実用水準に達したことは、特化型モデルの現実的な活用パスを示している。汎用モデルに全方位で勝てる必要はなく、「医療の文脈で十分機能すること」が判断基準であり、今回の成果はその基準をクリアした。

一方で課題も残る。5万件の安全性ベンチマーク策定は評価に値するが、医療現場での運用ガイドラインが業界全体として標準化されるかどうかが、今後の普及速度を左右する。個別機関が独自に判断できる問題ではなく、「このモデルはどの基準でどこまで使ってよいか」という共通指針の整備こそが、本当の意味での社会実装への道だろう。技術的な実現可能性は今回証明された。次は制度と運用体制の整備に期待したい。


出典: この記事は 医療現場の事務作業をLLMで支援、商用レベルに迫る特化型AI登場 の内容をもとに、筆者の見解を加えて独自に執筆したものです。