Qwen3 4Bでもgpt-4oレベルの出力ができているように見える。

Qwen3 4Bでもgpt-4oレベルの出力ができているように見える この記事の内容 話題のオープンソースLLM「Qwen3」をLM Studioで手軽に試す方法を紹介します GPUがGTX 1650(VRAM 4GB)というロースペック環境でも40億(4B)パラメータモデルが動作します 専門的な質問への回答品質をGPT-4oと比較し、その実力を検証します 2年前のローカルLLMと比較し、この分野の驚異的な進化を振り返ります 小規模モデルでも自然な日本語会話や絵文字を使いこなす能力を確認します はじめに:話題のLLM「Qwen3」を試してみる 最近、非常に高性能だと話題のLLM(大規模言語モデル)「Qwen3」が登場しました。その性能を確かめるべく、実際に試してみます。 ローカルでLLMを手軽に動かすには「LM Studio」というツールが非常に便利です。以前の動画ではGemma 3を試してその性能の高さに驚きましたが、Qwen3はさらに上回るという話を聞き、期待が高まります。 テスト環境:ロースペックPCでどこまで動くか 今回の検証に使用したPCは、決してハイスペックとは言えません。GPUはNVIDIA GeForce GTX 1650で、専用VRAMはわずか4GBです。現行モデルの中ではかなりローエンドに位置する環境です。 LM Studioで確認すると、モデルサイズごとの動作見込みは以下のとおりです。 パラメータ数 動作見込み 3B(30億)/ 4B(40億) 問題なく動作 8B(80億) メモリ要件(9GB以上)から厳しい 14B(140億) 動作困難 この環境でも快適に動作するであろう40億(4B)パラメータのモデルを選んで検証を進めます。 実践①:専門的な質問への回答能力 モデルのダウンロード完了後、早速ロードして試してみます。小規模なモデルのため、ロードは非常に高速です。GPU使用率は約3.7GBで、VRAM 4GBの範囲内に収まっています。 まずは専門的な質問を投げかけてみます。 質問:「量子化とは何ですか?」 Qwen3の回答: 量子化とは、様々な分野で異なる意味を持つ概念です。 物理学における量子化:物理的な量を離散的な単位(量子)で扱うこと コンピュータ科学・機械学習における量子化:連続的な値を離散的な値に変換するプロセス 非常に的確な回答です。比較のために同じ質問をChatGPT(GPT-4o)にも尋ねてみました。 GPT-4oの回答: 量子化とは、一般的に、連続的な量や無限の選択肢を持つものを、離散的な(飛び飛びの)値や有限個の選択肢に変換するプロセスを指します。 クラウドベースのGPT-4oは応答速度の面では圧倒的に優れていますが、Qwen3の回答の質はGPT-4oに匹敵するレベルと言っても過言ではないでしょう。 実践②:自然な会話能力の検証 次に、シンプルな挨拶を送り、自然な会話ができるかを確かめます。 入力:「おはようございます」 Qwen3の回答: おはようございます!☀️ あなたの言葉の力で、この朝が本当に素晴らしいものに感じられます。未来に繋がるひらめきが生まれるかもしれませんね。どの方向に進んでも大丈夫ですよ。 絵文字を交えながら、丁寧でポジティブな返答が返ってきました。こちらのトーンに合わせる「ミラーリング」のような能力も感じられます。40億パラメータという小規模モデルがここまで自然な日本語対話を実現できることには驚かされます。 2年前との比較:ローカルLLMの驚異的な進化 約2年前、同じPCで別のローカルLLMを動かした際には、次のような状況でした。 日本語で質問しても、回答は英語でしか返ってこなかった 応答速度が非常に遅く、実用的ではなかった 日本語をまともに扱うこと自体が困難だった それが今や、同じハードウェア上で、日本語での自然な対話はもちろん、絵文字まで使いこなすモデルが軽快に動作しています。2年間でのLLM分野の進歩の速さは、まさに驚異的です。 番外編:動画の締めをQwen3に考えてもらった 最後に、前提条件を何も与えずに「YouTube視聴者への挨拶を考えて」とお願いしてみました。Qwen3が生成した挨拶は以下のとおりです。 パターン1(丁寧なトーン): 皆様の視聴に感謝いたします。この動画が少しでも皆さんの1日を楽しくしていただけたなら、最高のエンディングです。今後ともどうぞよろしくお願いいたします。では、良い1日を。 パターン2(親しみやすいトーン): ありがとう!この動画が少しでも役に立ちましたら嬉しいです。次回も皆様のご期待に応えられるよう頑張ります。引き続きどうぞよろしくお願いします。 突然の要求にもかかわらず、状況に応じたトーン違いの挨拶を複数パターン生成してくれました。文脈理解と状況適応能力の高さが伺えます。 ...

May 2, 2025 · 1 min · 胡田昌彦

AIに、公開されているMCP Serverをあれこれつなげて遊んでみた

AIに、公開されているMCP Serverをあれこれつなげて遊んでみた この記事の内容 MCP(Model Context Protocol)の公開サーバーを使って、AIと外部サービスを連携させる実験を行いました Claude DesktopとPlaywright MCPサーバーを組み合わせ、自然言語によるブラウザ操作を試みました VS Code CopilotとAzure MCPサーバーを連携させ、Azureリソースの操作を試みました 基本操作は成功する一方、Webスクレイピングなど複雑な操作では限界も見えてきました 現時点での各MCPサーバーの実用性について、率直な考察をまとめています はじめに:MCPサーバーとは AIと外部の世界を繋ぐプロトコル「MCP(Model Context Protocol)」をご存知でしょうか。MCPの公式リポジトリには、リファレンスサーバーやサードパーティ製サーバーが数多く公開されており、以前よりも選択肢が増えています。 今回はその中から、ブラウザ操作を可能にする「Playwright」や「Azure」「Slack」のMCPサーバーをピックアップし、AIと連携させて何ができるのかをのんびり試していきます。 挑戦1:Claude DesktopとPlaywrightでブラウザ操作を自動化する 最初の挑戦として、Anthropic社のAI「Claude」のデスクトップアプリと、ブラウザ操作ツール「Playwright」をMCPで連携させてみます。無料プランのClaudeでどこまでできるのか、試していきましょう。 セットアップの手順 まずは環境構築から始めます。PlaywrightのMCPサーバーを動かすには、PC上でJavaScriptの実行環境である「Node.js」が必要です。Node.jsをインストールすると、npmというコマンドが使えるようになります。 今回は、npmパッケージを一時的にインストール・実行できるnpxコマンドを使ってみます。npxを使うと、グローバル環境を汚さずにツールを試せるので便利です。 npx @mcp/playwright-server しかし、この方法ではJSONのエラーが発生してしまいました。原因は不明でしたが、ひとまずnpmコマンドでグローバルにインストールする方法に切り替えます。 npm install -g @mcp/playwright-server 次に、Claude DesktopアプリにMCPサーバーを認識させます。設定ファイル(claude-desktop-config.json)に、インストールしたサーバーの起動コマンドを追記します。 { "mcp_servers": [ { "command": "npx", "args": [ "-y", "@mcp/playwright-server" ] } ] } 補足: -yオプションは、npxがパッケージをインストールする際の確認プロンプトに自動で「Yes」と答えるためのものです。 この設定を保存してClaude Desktopを再起動すると、チャット画面の右下に金槌のアイコンが表示され、MCPツールが利用可能になったことが確認できます。 実践:自然言語でブラウザを動かす セットアップが完了したので、早速Claudeにブラウザ操作を依頼してみます。 指示内容: google.comにアクセスして「(自分の苗字)」を検索し、1つ目のリンクをクリックしてそのサイトにアクセスしてください。 この指示に対し、ClaudeはPlaywrightツールを使い始めました。途中、ロボットでないことの証明(CAPTCHA)を求められましたが、AIが画像認識で信号機のタイルを選択し、無事にクリアしています。その後、検索結果の1番目のリンクをクリックし、目的のサイトへのアクセスに成功しました。 ...

April 28, 2025 · 1 min · 胡田昌彦