スクリーンショットだけでWebを操る——MolmoWeb-4Bの衝撃

Allen Institute for AI(Ai2)が開発したオープンソースのマルチモーダルWebエージェント「MolmoWeb-4B」が注目を集めている。従来のWebスクレイピングやブラウザ自動化ツールがHTMLやDOM(Document Object Model)の解析に依存していたのに対し、MolmoWeb-4BはWebページのスクリーンショットだけを入力として受け取り、視覚情報のみから操作すべき要素を判断・実行するという、まったく異なるアプローチを採用している。

視覚駆動型エージェントの仕組み

MolmoWeb-4Bは、画像とテキストを同時に扱えるマルチモーダルモデルをベースに構築されている。エージェントはWebページの見た目をそのまま「見て」理解し、以下のようなアクション空間を通じてブラウザを操作する。

  • goto(url) — 指定URLへ遷移
  • click(x, y) — 正規化座標(0.0〜1.0)でのクリック
  • type("text") — フォーカスされた要素へのテキスト入力
  • scroll(dir) — ページスクロール
  • press("key") — キーボード操作

この設計により、JavaScriptで動的に生成されたコンテンツや、アクセシビリティ属性が整備されていないWebサイトでも、人間と同様に「見た目」から操作できるようになる。日本語サイトなど、DOM構造が複雑なページへの適用でも原理的に問題が生じにくい点は、日本の開発者にとっても注目すべき特徴だ。

4ビット量子化で一般GPUでも動作

モデルサイズは4Bパラメータ(40億パラメータ)と比較的コンパクトで、4ビットNF4量子化(bitsandbytes使用)を適用することで、約6GBのVRAMに収まる。Google Colab上でも動作確認されており、高性能なサーバーを持たない個人開発者や研究者でも試しやすい点が評価されている。

実装はHugging Faceのtransformersライブラリと互換性があり、以下のように標準的なAPIでモデルをロードできる。


元記事: MolmoWeb-4B: Building a Vision-Guided Web AI Agent Using Multimodal Reasoning and Action Prediction