軽量VLMがGUI操作AIに進化——Hugging Faceが「Smol2Operator」の訓練レシピを全公開

Hugging Faceは、ビジョン言語モデル(VLM)をGUI自動操作エージェントへと段階的に育て上げる手法「Smol2Operator」を発表し、訓練コード・データセット・モデルをすべてオープンソースとして公開した。

GUIエージェントとは何か

GUI(グラフィカルユーザーインターフェース)自動化とは、AIがスクリーンショットを「見て」、ボタンのクリックやテキスト入力といった操作を自律的に行う技術だ。モバイル・デスクトップ・Webの各プラットフォームをまたいで動作できれば、RPA(ロボティック・プロセス・オートメーション)の次世代形態として業務効率化に大きく貢献すると期待されている。国内でも業務自動化ニーズは高く、この分野の進展は注目に値する。

ベースモデルはたった2.2B

今回のアプローチでは、GUIへの接地(グラウンディング)能力をまったく持たないSmolVLM2-2.2B-Instructをベースモデルとして採用した。パラメータ数が2.2Bと小規模であるにもかかわらず、2段階の教師あり微調整(SFT)により、高レベルの指示を低レベルのGUI操作に変換できるエージェントへと成長させることに成功した。

2段階訓練プロセス

訓練は以下の2フェーズで構成される。

フェーズ1:知覚能力の習得 スクリーンショット内のUI要素を正確に認識・位置特定する「グラウンディング」能力を獲得させる段階。評価指標にはGUI理解ベンチマーク「ScreenSpot-v2」を用い、画像解像度や座標系の影響も詳細に分析した。

フェーズ2:認知・推論能力の向上 UI要素の認識にとどまらず、タスクの意図を理解して一連の操作を計画・実行できる「エージェント的推論」を付与する段階。AGUVISの研究成果とデータセットを活用し、段階的にモデルを強化した。

異種データ統合の課題を解決

複数のGUI自動化データセットを横断して学習させる際の大きな障壁が、アクション表現の非統一性だ。データセットごとに関数名・パラメータ名・操作の分類体系が異なるため、そのままでは統合的な訓練ができない。Smol2Operatorはこの問題を統一アクションスペースへの変換ツール(Action Space Converter)で解決し、高品質な訓練データを生成するパイプラインも合わせて公開している。

再現性を重視したフルオープンソース公開

Hugging Faceが今回特に強調しているのが、「最先端性能を目指すのではなく、プロセス全体を再現可能な形で示すこと」という姿勢だ。訓練レシピ・データ処理ツール・変換済みデータセット(smolagents/aguvis-stage-1smolagents/aguvis-stage-2)・最終モデルがすべて公開されており、研究者や開発者が独自のGUIエージェント開発の出発点として活用できる。

ソースコードはGitHub(huggingface/smol2operator)で公開中。


元記事: Smol2Operator: Post-Training GUI Agents for Computer Use