Qwen3 4Bでもgpt-4oレベルの出力ができているように見える

この記事の内容

最近、非常に高性能だと話題のLLM（大規模言語モデル）「Qwen3」が登場しました。その性能を確かめるべく、実際に試してみます。

ローカルでLLMを手軽に動かすには「LM Studio」というツールが非常に便利です。以前の動画ではGemma 3を試してその性能の高さに驚きましたが、Qwen3はさらに上回るという話を聞き、期待が高まります。

今回の検証に使用したPCは、決してハイスペックとは言えません。GPUはNVIDIA GeForce GTX 1650で、専用VRAMはわずか4GBです。現行モデルの中ではかなりローエンドに位置する環境です。

LM Studioで確認すると、モデルサイズごとの動作見込みは以下のとおりです。

この環境でも快適に動作するであろう40億（4B）パラメータのモデルを選んで検証を進めます。

モデルのダウンロード完了後、早速ロードして試してみます。小規模なモデルのため、ロードは非常に高速です。GPU使用率は約3.7GBで、VRAM 4GBの範囲内に収まっています。

まずは専門的な質問を投げかけてみます。

質問：「量子化とは何ですか？」

Qwen3の回答：

量子化とは、様々な分野で異なる意味を持つ概念です。
物理学における量子化：物理的な量を離散的な単位（量子）で扱うこと
コンピュータ科学・機械学習における量子化：連続的な値を離散的な値に変換するプロセス

非常に的確な回答です。比較のために同じ質問をChatGPT（GPT-4o）にも尋ねてみました。

GPT-4oの回答：

量子化とは、一般的に、連続的な量や無限の選択肢を持つものを、離散的な（飛び飛びの）値や有限個の選択肢に変換するプロセスを指します。

クラウドベースのGPT-4oは応答速度の面では圧倒的に優れていますが、Qwen3の回答の質はGPT-4oに匹敵するレベルと言っても過言ではないでしょう。

次に、シンプルな挨拶を送り、自然な会話ができるかを確かめます。

入力：「おはようございます」

Qwen3の回答：

おはようございます！☀️ あなたの言葉の力で、この朝が本当に素晴らしいものに感じられます。未来に繋がるひらめきが生まれるかもしれませんね。どの方向に進んでも大丈夫ですよ。

絵文字を交えながら、丁寧でポジティブな返答が返ってきました。こちらのトーンに合わせる「ミラーリング」のような能力も感じられます。40億パラメータという小規模モデルがここまで自然な日本語対話を実現できることには驚かされます。

約2年前、同じPCで別のローカルLLMを動かした際には、次のような状況でした。

それが今や、同じハードウェア上で、日本語での自然な対話はもちろん、絵文字まで使いこなすモデルが軽快に動作しています。2年間でのLLM分野の進歩の速さは、まさに驚異的です。

最後に、前提条件を何も与えずに「YouTube視聴者への挨拶を考えて」とお願いしてみました。Qwen3が生成した挨拶は以下のとおりです。

パターン1（丁寧なトーン）：

皆様の視聴に感謝いたします。この動画が少しでも皆さんの1日を楽しくしていただけたなら、最高のエンディングです。今後ともどうぞよろしくお願いいたします。では、良い1日を。

パターン2（親しみやすいトーン）：

ありがとう！この動画が少しでも役に立ちましたら嬉しいです。次回も皆様のご期待に応えられるよう頑張ります。引き続きどうぞよろしくお願いします。

突然の要求にもかかわらず、状況に応じたトーン違いの挨拶を複数パターン生成してくれました。文脈理解と状況適応能力の高さが伺えます。

今回は40億パラメータという比較的小規模なQwen3モデルを、GTX 1650（VRAM 4GB）というロースペックPC上で検証しました。結果をまとめると以下のとおりです。

ローカルで動作するLLMがここまでの性能を持つ時代になったことは、プライバシーやオフライン利用の観点からも非常に大きな意味を持ちます。LM Studioを使えば誰でも手軽に試せますので、ぜひ一度お手持ちのPCで動かしてみてください。