オンタリオ州監査報告：医療機関向けAI議事録システム20製品の60%が処方薬情報を誤記入—評価基準の欠陥が招いた医療リスク

カナダ・オンタリオ州の監査総長室（Office of the Auditor General of Ontario）は、州の医療機関向けに承認したAI議事録（AI Scribe）システム20製品を対象にした監査報告書を公表した。その結果、大多数の製品が処方薬の誤記入、架空情報の挿入、メンタルヘルス情報の脱落といった重大な誤りを犯していることが判明した。

監査の概要とAI Scribeとは

オンタリオ州保健省が主導するAI Scribeプログラムは、医師・ナースプラクティショナーなどの医療従事者が診察内容を効率的に記録するためのAI支援ツール群だ。診察中の会話を自動的にテキスト化し、カルテや処方記録として整形する機能を持つ。

監査では、模擬診察の音声録音を各AIシステムに処理させ、生成されたノートを医療専門家が原音声と照合して精度を評価する手法が採られた。

判明した問題：数字が示す深刻さ

評価結果は、医療AIへの信頼を根底から揺るがすものだった。

20製品中12製品（60%）が患者ノートに誤った薬情報を挿入
20製品中17製品（85%）が録音内で言及されたメンタルヘルス情報の重要な詳細を脱落させ、そのうち6製品はメンタルヘルスの問題を完全または部分的に見落とし
20製品中9製品（45%）が録音に存在しない情報を架空で生成し、治療計画への提案まで捏造

具体的な架空情報の例として、「腫瘤は見つからなかった」「患者が不安を示した」といった、実際の診察では一切言及されていない記述が報告書に記載されている。医師がこれを見落とせば、誤った診断・誤投薬・治療方針の誤りに直結する。

問題の根本：評価基準の著しい歪み

監査報告書が指摘するもう一つの重大な問題は、製品選定プロセスそのものの歪みだ。

採点基準の配点を見ると、構造的な問題が浮かび上がる：

評価項目配点

オンタリオ州内での事業拠点の有無 30%

医療ノートの精度 4%

バイアス制御 2%

脅威・リスク・プライバシー評価 2%

SOC 2 Type 2 準拠 4%

医療現場で最も重要なはずの「精度」が評価全体のたった4%しか占めず、一方で「州内に事業拠点があるか」という地域政策的な要素が30%を占める。精度・バイアス・セキュリティといった安全性に直結する項目を合算しても12%にも届かない。

この配点設計が、精度の低いシステムを正規承認ルートで通過させてしまった構造的な欠陥といえる。

OntarioMDの推奨と「任意レビュー」の限界

医師の技術導入を支援する組織「OntarioMD」は、AIが生成したノートを医師が手動でレビューするよう推奨している。しかし報告書は、承認されたいずれのシステムにも必須の確認・承認機能（Mandatory Attestation）が存在しないことを指摘している。

「推奨」と「必須」は天と地ほどの差がある。多忙な医療現場では、AIが生成したノートをそのまま確定してしまうリスクは十分に想定される。

実務への影響：日本のIT担当者・医療機関に伝えたいこと

医療AIを導入・検討している組織へ

精度を定量的に測定する評価プロセスを設けよ：今回の監査が示したように、精度評価ウェイトが低い調達基準は惨事を招く。「デモが良かった」「営業プレゼンが素晴らしかった」では不十分で、実際の業務と同等の条件での精度テストを義務付けること

架空情報（ハルシネーション）の検出機構を導入せよ：音声と生成テキストの突合を行う検証レイヤーや、医師が差分を確認できるUI設計が必須。「推奨」ではなく「必須」のワークフローとして組み込む

SOC 2やISO 27001は「最低ライン」であって「お墨付き」ではない：セキュリティ認証は情報保護の観点から重要だが、医療AIにおける最大リスクは「情報漏洩」ではなく「誤情報の生成」であることを認識する

エンジニア・システム開発者へ

医療・法律・金融のような「高リスクドメイン」でAIを活用する際のアーキテクチャ設計として、以下を検討すること：

Ground Truth Linkage（根拠リンク）：生成されたテキストの各クレームを元の音声・文書に紐付け、人間が検証しやすくする
Confidence Scoring：AIが確信を持って生成した部分と、推測・補完で生成した部分を明示的に区別する
Mandatory Human-in-the-Loop：高リスク情報（薬名・投与量・診断名）については、必ず人間の確認ステップを経てから確定するフローを強制する

筆者の見解

今回の報告書が衝撃的なのは、AIが間違えたという事実よりも、間違える可能性の高いシステムを正規ルートで承認してしまった評価プロセスが存在したことだ。

AIが医療現場で役立つ可能性があることは疑いようがない。記録作業の負担軽減は医師の集中力を患者に向けるための重要な取り組みだ。しかし「使えるかどうか」ではなく「安全に使えるかどうか」を担保する仕組みがないまま承認・展開してしまった点は、行政の責任として重く受け止めるべきだ。

「禁止」で解決しようとすれば、医師は非公式なツールに流れるだけで状況はむしろ悪化する。正しいアプローチは「安全に使える仕組みを義務化すること」だ。必須の確認ステップ、精度の定期的な第三者監査、そして調達基準における精度ウェイトの大幅な見直し——これらを組み合わせて初めて、医療AIは信頼できるインフラになる。

日本でも医療DXの文脈でAI活用が加速しており、同種のツールの検討・導入が始まっている組織は少なくない。オンタリオ州の失敗から学べることは多い。同じ轍を踏まないための「評価基準の設計」こそが、今日本のIT担当者・医療機関が最優先で取り組むべき課題だろう。

出典: この記事は Ontario auditors find doctors’ AI note takers routinely blow basic facts の内容をもとに、筆者の見解を加えて独自に執筆したものです。

監査の概要とAI Scribeとは#

判明した問題：数字が示す深刻さ#

問題の根本：評価基準の著しい歪み#

OntarioMDの推奨と「任意レビュー」の限界#

実務への影響：日本のIT担当者・医療機関に伝えたいこと#

医療AIを導入・検討している組織へ#

エンジニア・システム開発者へ#

筆者の見解#