GPT-5.4の100万トークン — AIが人間の作業領域を超え始めた

2026年3月9日 2026年3月9日 Mark4

Mark4

OSWorld 75%で人間超え — 自律的にPCを操作するAIがもたらす衝撃

2026年3月、OpenAIがGPT-5.4をリリースしました。最大の衝撃は、OSWorld-Vベンチマークで75%を達成し、人間のベースライン（72.4%）を初めて超えたことです。

GPT-5.2の47.3%からわずか数ヶ月で75%へ。AIが人間と同じようにPCを操作し、複数のアプリケーションを横断してタスクを遂行できる時代が到来しました。

GPT-5.4はOpenAI史上最大の100万トークンのコンテキストウィンドウを搭載しました（入力922K＋出力128K）。

100万トークンとはどれくらいの量か。日本語で約75万文字、新書約10冊分に相当します。プロジェクト全体の設計書、ソースコード、テスト結果を一括で渡して「ここを修正して」と指示できるレベルです。

当社がwagahiアプリで作成した設計書は累計45,212行。これも100万トークンの中に余裕で収まります。プロジェクト全体の文脈を理解した上でのコード修正や設計レビューが、現実的になりました。

GPT-5.4がOSWorldで人間を超えたということは、AIが以下のことを自律的にできるということです。

これは従来のRPA（Robotic Process Automation）とは根本的に異なります。RPAは事前にプログラムされた手順を繰り返すだけですが、GPT-5.4はスクリーンショットを見て状況を判断し、次のアクションを自分で決定します。

指標	GPT-5.2	GPT-5.4	人間
OSWorld-V	47.3%	75%	72.4%
コンテキスト	128Kトークン	100万トークン	—
コンピュータ操作	限定的	自律的	—

わずか数ヶ月でOSWorldスコアが47.3%→75%へ。この進化速度は、AI業界の競争がいかに激しいかを物語っています。

GPT-5.4の登場は、先月話題になった「SaaSの死」議論に新たな燃料を投下します。

Anthropicは「拡張」路線を打ち出して市場を安定化させましたが、OpenAIは真正面から「人間の作業をAIが自律的に代行できる」ことを示しました。AIがPCを操作してフォームに入力し、メールを送り、データを集計する。これはまさに、多くのSaaSが提供してきた「業務効率化」の領域そのものです。

「拡張」か「代替」かの議論は、モデルの進化速度によって常に再定義され続けるでしょう。

当社はwagahiアプリの開発で、Claude Code（Anthropic）を中心に据えつつ、OpenRouter経由で複数モデルへのアクセスを確保するマルチモデル戦略を採用しています。GPT-5.4の登場は、このマルチモデル戦略の重要性をさらに裏付けるものです。

特定のベンダーに依存するのではなく、タスクに応じて最適なモデルを選択できる柔軟性。それが、AI時代の開発者に求められる姿勢だと考えています。

GPT-5.4は、AIが「ツール」から「同僚」に一歩近づいたことを示すモデルです。100万トークンのコンテキスト、人間を超えるPC操作能力、自律的なワークフロー実行。これらの能力は、数年前であれば空想の領域でした。

AIの進化は止まりません。当社は引き続き、その最前線で実践を続けていきます。

本記事は2026年3月時点の情報に基づいています。

著者: 株式会社シーテン — インフラ系から宇宙関連システムまで20年以上の開発経験を持つ技術者集団。2025年より生成AI・AIエージェントを活用したAI駆動開発に本格参入し、自社プロダクト「wagahi」の開発を通じて実践知見を蓄積中。

関連記事: