IBMが企業向け軽量マルチモーダルモデル「Granite 4.0 3B Vision」を公開

IBMは、企業向け文書処理に特化した小型マルチモーダルAIモデル「Granite 4.0 3B Vision」をHugging Faceで公開した。約4Bパラメータという比較的コンパクトなサイズながら、画像とテキストを組み合わせて処理する「Image-Text-to-Text」タスクに対応しており、企業現場での実運用を強く意識した設計が特徴だ。

「小さく、賢く、使いやすく」——企業ユースケースへの最適化

Granite 4.0 3B Visionは、IBMのGraniteシリーズの最新世代にあたる。Graniteシリーズはもともとエンタープライズ向けに設計されており、コードベース解析や業務文書の要約・抽出など、実務に直結するユースケースへの対応を重視してきた。

今回のVisionモデルはその路線をマルチモーダル領域へと拡張したもので、請求書・契約書・技術図面といった「画像として届く企業文書」をそのまま読み解く能力を持つ。GPT-4oやGemini 1.5 Proなどの大規模モデルと同等の文書理解タスクを、はるかに少ないリソースで処理できる点が企業導入のハードルを下げると期待されている。

軽量モデルが注目される背景

生成AI活用が本格化するにつれ、クラウド経由のAPI利用ではなくオンプレミスやプライベートクラウドでの自前運用を求める企業が増えている。特に金融・医療・法務といった機密性の高い業種では、データを外部サービスに送信することへの抵抗感が強い。

3〜4Bクラスのモデルであれば、高性能GPUを大量に用意しなくても動作するケースが多く、既存のサーバーインフラへの統合が現実的になる。IBMがあえてこのサイズ帯でVisionモデルを投入した背景には、こうした「現場で動かせるAI」への需要がある。

オープンウェイトでの公開——透明性と再現性の担保

Granite 4.0 3B VisionはHugging Face上でウェイトが公開されており、研究者や開発者が自由にダウンロードして利用・評価できる。IBMはGraniteシリーズのトレーニングデータや使用許諾についても比較的透明性の高い情報開示を行っており、企業が導入審査を行いやすい点も強みのひとつだ。

公開からわずか約14時間で1,200件超のダウンロードを記録しており、エンタープライズAIコミュニティからの注目度の高さがうかがえる。

日本企業への示唆

日本では紙文書や複合機からスキャンしたPDFが業務の主役であり続けており、「画像として存在する文書」を自動処理するニーズは特に高い。Granite 4.0 3B Visionのような軽量マルチモーダルモデルは、DXを推進したい中堅・大企業にとって現実的な選択肢となりそうだ。IBM Japanを通じた商用サポートの提供も今後期待される。


元記事: Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents