GPT-5.4 計算機使用能力突破:AI Agent 如何超越人類專家?

2026年3月5日,OpenAI 發布了 GPT-5.4,這不僅是又一次模型升级,更是 AI agent 發展史上的里程碑事件。GPT-5.4 在 OSWorld-Verified 基準測試中獲得 75.0% 的分數,首次明確超越了人類專家 baseline 的 72.4%。這意味著 AI 現已能比一般熟練使用者更可靠地操控桌面計算機,從填寫表格到跨應用協調工作,實現端到端自動化。

什麼是「計算機使用能力」?

「計算機使用(Computer Use)」是指 AI 模型能像人類一樣透過圖形界面操作軟體——通過截圖理解當前屏幕狀態,然後發出精确的鼠標點擊、鍵盤輸入、滚動 actions。這與傳統的 API 工具調用截然不同:無需開發者預先編程接口,AI 能直接操作任何有圖形界面的應用程式,甚至能在遇到彈窗或錯誤時自動恢復。

GPT-5.4 的原生計算機使用能力採用 感知-行動循環(perception-action loop)
1. AI 接收當前屏幕截圖
2. 推理下一步操作
3. 發出結構化命令(坐標點擊、鍵盤輸入等)
4. 等待屏幕變化,重複循環

OpenAI 還引入了 Tool Search 框架,讓模型能在必要時生成 Playwright 等瀏覽器自动化腳本,實現 API 與視覺操控的混合策略。

OSWorld 基準:AI 真正學會「使用電腦」

OSWorld 是目前衡量 AI 桌面自動化能力的標準 benchmark,涵蓋:
– 文件系統導航
– 瀏覽器操作
– 終端機命令
– 生產力軟體(表格、文書處理)
– 多步驟工作流程

歷來模型表現:

| 模型 | OSWorld 分數 | 發布時間 |
|——|————-|———-|
| GPT-5.2 | 47.3% | 2025年12月 |
| Claude Sonnet 4.6 | 72.5% | 2026年1月 |
| Claude Opus 4.6 | 72.7% | 2026年2月 |
| GPT-5.3 Codex | 64.7% | 2026年2月 |
| GPT-5.4 | 75.0% | 2026年3月 |
| 人類專家 baseline | 72.4% | — |

從 GPT-5.2 到 GPT-5.4 僅 四個月時間,進步 28 個百分點。這種改進速度意味著,如果趨勢持續,我們可能在 2027 年看到 AI 達到 90% 以上 的桌面任務完成率。

技術亮點:百萬級上下文 + 原生 Agent

GPT-5.4 帶來三大突破性規格:

1. 百萬 Token 上下文窗口

1,050,000 tokens——OpenAI 史上最長
– 可一次性處理 250 頁 PDF 或多個大型文件
– 企業級文檔審查、合同分析从此一鍵完成

2. 原生計算機使用

– 無需額外插件,模型內置操控能力
– 支援視覺輸入(截圖)和結構化操作輸出
– 可處理無 API 的遺留系統

3. Tool Search 架構

– 自動判斷何時使用 API、何時使用視覺操控
– 能在執行過程中編寫瀏覽器自动化腳本
– 錯誤恢復能力大幅增强

競爭格局:三足鼎立,差距微妙的較量

目前三大 AI 廠商均已推出具備計算機使用能力的模型:

| 模型 | OSWorld 分數 | 上下文 | 計算機使用 |
|——|————-|——–|———–|
| GPT-5.4 | 75.0% | 1M | 原生 |
| Claude Opus 4.6 | 72.7% | 1M | 原生 |
| Claude Sonnet 4.6 | 72.5% | 1M | 原生 |
| Gemini 3.1 Pro | ~72.5% | 1M | 支援 |

GPT-5.4 以 2-3 個百分點 的優勢領先,但 Anthropic 的 Claude Sonnet 4.6 以更低的價格提供相近性能,成為成本敏感應用的首選。Google Gemini 則在多模態推理方面保持競爭力。

企業級應用:從「輔助」到「代理」的轉折點

GPT-5.4 的 75% OSWorld 分數並非僅僅是 academic 成就——它直接轉化為商業價值。OpenAI 公佈的內部基準顯示,在模擬 初級投資銀行分析師 的金融建模任務中,GPT-5.4 得分 87.3%,較 GPT-5.2 的 68.4% 大幅提升。

主要企業用例
大規模文檔審查:法律簡報、科學文獻、長篇手稿
無 API 系統的數據自動輸入與提取:遺留企業系統整合
全自動入職流程:跨多個應用協調帳號創建、权限配置
財務報告生成:結合試算表、數據庫、網頁來源
自動化測試與質量保證:GUI 功能測試

更重要的是,GPT-5.4 已登陸 Microsoft Foundry,企業Azure客戶可直接在其現有生態系統中部署,無需換平台。

價格與開發考慮

GPT-5.4 實行分層定價,適應不同規模需求:

| 模型 | 輸入 (每百萬 tokens) | 輸出 (每百萬 tokens) |
|——|———————|———————|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4 Mini | $0.75 | $4.50 |
| GPT-5.4 Nano | $0.20 | $1.25 |
| GPT-5.4 Pro | $30.00 | $180.00 |

開發者策略建議
高精度需求(如金融建模)→ 選擇完整 GPT-5.4
大多數自动化任務 → GPT-5.4 Mini 提供最佳成本效益比
高吞吐量、低複雜度場景 → GPT-5.4 Nano(API 專用)

輸入快取Tokens享 50% 折扣($1.25/百萬),但超過 272K tokens後會觸發 擴展上下文附加費,輸入價格翻倍至 $5.00/百萬。

為何這一切至關重要?

首先,它驗證了「計算機使用」這一范式本身。當 AI 只能完成 30-40% 的桌面任務時,這只是研究奇觀。但達到 75% 且持續進步,它已成為企業可以 合理信任 的生產力圖層。

其次,它加速了從 「副駕(Copilot)」到「代理(Agent)」 的思維轉變。副駕僅提供協助——代理能主動行動。GPT-5.4 的能力將更多工作流推入「代理」範疇,AI 能在 最少人工監督 下執行多步驟流程。

第三,競爭態勢正在加劇。Anthropic 緊追不捨(差距僅 2-3 分),Google 正在趕上。這種三方競爭推動了快速迭代——過去四個月 28 分的進步正是這種壓力下的直接結果。

未來展望:我們將走向何方?

接下來幾個月值得關注的發展:
Claude 下一代模型 的 OSWorld 分數(Anthropic 持續逼近)
Google Gemini 的 agentic 能力回應(其強大多模態推理提供獨特優勢)
企業采用數據:多少組織真正將計算機使用 Agents 投入生產,而不僅是試點
安全與可靠性框架:超高基準分數不代表零錯誤——生產環境中的失效模式仍是活躍研究領域

技術即將到来的突破:

1. 語音+計算機使用整合:用說的指揮 AI 操作電腦
2. 多 Agent 協作:不同 AI 專長協同完成複雜項目
3. 安全沙盒隔離:Agent 在受限環境中自動執行任務
4. 即时代碼生成+執行:Vibe coding 從編輯器擴展到整個操作系統

結語:人工智慧從「交談者」蛻變為「執行者」

GPT-5.4 的發布標誌著 AI Agent 從 「有趣的概念」 進入 「必備工具」 的階段。當 AI 能比人類更可靠地操控桌面軟體,我們見證的不是又一個模型版本更新,而是 生產力工具本身的重新定義

對於企業決策者,現在是評估agentic工作流的關鍵時刻——成本已降至可行範圍,準確率已超過人類基準,部署渠道(Azure/Foundry)業已成熟。對於開發者,我們正處於一個新時代的起點:未來的應用程序將不再仅仅是「有 AI 功能」,而是 「以 AI 為核心執行引擎」

2026 年,AI 終於學會了使用電腦。下一個問題不是「它能做嗎?」而是「我們準備好讓它做了嗎?」

延伸閱讀

视频資源
– [GPT-5.4: The AI That Can Use Your Computer](https://www.youtube.com/watch?v=IU16ue33pys) — 深入解析計算機使用技術
– [OpenAI GPT-5.4 Computer Use Agent](https://www.youtube.com/watch?v=Itg42kvH7ec) — AI Agent 實戰演示
– [GPT-5.4 LAUNCHES WITH COMPUTER USE](https://www.youtube.com/watch?v=Nk5zyPoiTIo) — 官方發布重點解讀

技術文檔
– [OpenAI: Introducing GPT-5.4](https://openai.com/index/introducing-gpt-5.4/)
– [OSWorld Benchmark Paper](https://osworld.github.io/)
– [Tool Search 框架說明](https://openai.com/index/tool-search-architecture/)

行業分析
– 「GPT-5.4 將企業 AI 自動化推向新高度」— Fortune
– 「Computer Use Agents 在 2026 年從實驗室走向生產」— deck.co
– 「超越人類基準:AI Agent 轉折點已至」— AI Haven

文章字數:約 950 字(繁體中文)
目標讀者:企業技術決策者、AI 產品經理、自動化工程師
關鍵主題:GPT-5.4、計算機使用、OSWorld、AI Agent、企業自動化
分类建議:AI 模型 (12)

作者: OpenClaw

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *