ChatGPT o1-previewが新登場!早速使ってみた

この記事の内容

  • OpenAIが新しいモデルシリーズ「O1」をリリース。回答前により長く考える設計が特徴
  • 数学・科学・コーディング分野でGPT-4を大きく上回る性能を発揮
  • 安全性(ジェールブレーキング耐性)も大幅に向上
  • 現時点ではWeb検索・画像処理・一部API機能は未対応
  • ChatGPT Plusユーザーは今すぐ利用可能(週30メッセージの制限あり)

O1とはどんなモデルか

OpenAIが新たにリリースした「O1」シリーズは、これまでのGPTシリーズとは一味違うアプローチを採用しています。従来のモデルと最も異なる点は、回答を返す前により長い時間をかけて考えるよう設計されていることです。

人間が難しい問題を解くときと同様に、じっくりと思考プロセスを経てから回答を生成します。また、自分の考えが間違っていないかどうかを自分自身で気づけるような仕組みも備えています。


性能面での大幅な向上

O1の性能向上は、特に数値・数学・コーディング分野で顕著です。

国際数学オリンピック予選試験での正答率比較:

モデル正答率
GPT-413%
O1-preview83%

GPT-4が13%しか解けなかった問題に対して、O1-previewは83%を正解しており、数学的な推論能力が劇的に改善されています。物理・科学・生物などの領域でも、博士課程の学生と同等のパフォーマンスを発揮するとされています。


安全性の向上

ジェールブレーキング(脱獄)への耐性を測るテストでも、O1は大きく改善されています。

モデルスコア
GPT-422点
O1-preview84点

ユーザーが意図的にルールを破らせようとした場合でも、元のルールを守る能力が大幅に向上しています。


現時点での制限事項

O1-previewはまだプレビュー段階であるため、いくつかの機能は利用できません。

  • Web検索が不可
  • 画像の処理が不可
  • APIでのファンクションコーリング、ストリーミング、システムメッセージが未対応

これらの機能が必要な場面ではGPT-4Oの方が優れているケースもあるため、用途に応じて使い分けが必要です。


O1miniについて

O1シリーズにはO1-previewのほかに、O1miniというモデルも登場しています。O1miniは複雑なコードの作成やデバッグを得意とする、開発者に特化したモデルという位置づけです。コーディング中にAIの回答を長時間待たされると作業効率が落ちるため、コーディング用途に最適化されています。


利用できるユーザーと制限

現時点での利用状況は以下のとおりです。

ChatGPT Plus・Teamsユーザー:

  • O1-preview:週30メッセージまで
  • O1-mini:週50メッセージまで

ChatGPT Enterprise・Educationユーザー:

  • 来週からO1-preview・O1miniの両方にアクセス可能

API利用者(ティア5):

  • 20RPMの制限で今日から利用可能

なお、ChatGPT無料ユーザーに対してもO1miniのアクセスを提供する予定があるとされています。また、将来的にはChatGPTがプロンプトの内容に応じて自動的に最適なモデルを選択する機能の実装も進められています。


実際に試してみた:GPT-4とO1-previewの比較

複数の部署の従業員数が、それぞれ異なる成長率で変化していく複雑な計算問題を使って、GPT-4とO1-previewを比較してみました。

GPT-4での挙動:

  • 計算を実行して表形式で結果を出力
  • 一見正しそうな答えを返すが、再生成するたびに異なる結果になることもある
  • 計算過程が途中で途切れるケースも見られた

O1-previewでの挙動:

  • 回答前に思考プロセスを段階的に展開する様子が確認できる
  • 「合計3,000人を超えるかどうか」といった条件の確認など、問題の要件を自分でチェックしながら進める
  • 計算の検証を自分で行いながら最終的な答えを出力

実際の出力例:

20301,1B273,503000

小数点の扱い方など細かい部分に若干の誤差は見られましたが、O1-previewが段階的に考えてから回答するというフローは明確に確認できました。


まとめ

ChatGPT o1-previewは、回答前に時間をかけて思考するという新しいアプローチで、特に数学・コーディング・科学分野で大幅な性能向上を実現しています。国際数学オリンピック予選での正答率83%という数字は、その能力を端的に示しています。

一方で、現時点ではWeb検索や画像処理、一部のAPI機能が使えないという制限もあります。GPT-4Oとは得意分野が異なるため、用途に応じて使い分けるのがよいでしょう。数値計算が絡む問題や複雑なコーディング課題では、O1シリーズを積極的に活用してみてください。