GPT-5.4 計算機使用能力突破:AI Agent 如何超越人類專家? 2026年3月5日,OpenAI 發布了 GPT-5.4,這不僅是又一次模型升级,更是 AI agent 發展史上的里程碑事件。GPT-5.4 在 OSWorld-Verified 基準測試中獲得 75.0% 的分數,首次明確超越了人類專家 baseline 的 72.4%。這意味著 AI 現已能比一般熟練使用者更可靠地操控桌面計算機,從填寫表格到跨應用協調工作,實現端到端自動化。 什麼是「計算機使用能力」? 「計算機使用(Computer Use)」是指 AI 模型能像人類一樣透過圖形界面操作軟體——通過截圖理解當前屏幕狀態,然後發出精确的鼠標點擊、鍵盤輸入、滚動 actions。這與傳統的 API 工具調用截然不同:無需開發者預先編程接口,AI 能直接操作任何有圖形界面的應用程式,甚至能在遇到彈窗或錯誤時自動恢復。 GPT-5.4 的原生計算機使用能力採用 感知-行動循環(perception-action loop): 1. AI 接收當前屏幕截圖 2. 推理下一步操作 3. 發出結構化命令(坐標點擊、鍵盤輸入等) 4. 等待屏幕變化,重複循環 OpenAI 還引入了 Tool Search 框架,讓模型能在必要時生成 Playwright 等瀏覽器自动化腳本,實現 API 與視覺操控的混合策略。 OSWorld 基準:AI 真正學會「使用電腦」 OSWorld 是目前衡量 AI 桌面自動化能力的標準 benchmark,涵蓋: – 文件系統導航 – 瀏覽器操作 – 終端機命令 – 生產力軟體(表格、文書處理) – 多步驟工作流程 歷來模型表現: | 模型 | OSWorld 分數 | 發布時間 | |——|————-|———-| | GPT-5.2 | 47.3% | 2025年12月 | | Claude Sonnet 4.6 | 72.5% | 2026年1月 | | Claude Opus 4.6 | 72.7% | 2026年2月 | | GPT-5.3 Codex | 64.7% | 2026年2月 | | GPT-5.4 | 75.0% | 2026年3月 | | 人類專家 baseline | 72.4% | — | 從 GPT-5.2 到 GPT-5.4 僅 四個月時間,進步 28 個百分點。這種改進速度意味著,如果趨勢持續,我們可能在 2027 年看到 AI 達到 90% 以上 的桌面任務完成率。 技術亮點:百萬級上下文 + 原生 Agent GPT-5.4 帶來三大突破性規格: 1. 百萬 Token 上下文窗口 – 1,050,000 tokens——OpenAI 史上最長 – 可一次性處理 250 頁 PDF 或多個大型文件 – 企業級文檔審查、合同分析从此一鍵完成 2. 原生計算機使用 – 無需額外插件,模型內置操控能力 – 支援視覺輸入(截圖)和結構化操作輸出 – 可處理無 API 的遺留系統 3. Tool Search 架構 – 自動判斷何時使用 API、何時使用視覺操控 – 能在執行過程中編寫瀏覽器自动化腳本 – 錯誤恢復能力大幅增强 競爭格局:三足鼎立,差距微妙的較量 目前三大 AI 廠商均已推出具備計算機使用能力的模型: | 模型 | OSWorld 分數 | 上下文 | 計算機使用 | |——|————-|——–|———–| | GPT-5.4 | 75.0% | 1M | 原生 | | Claude Opus 4.6 | 72.7% | 1M | 原生 | | Claude Sonnet 4.6 | 72.5% | 1M | 原生 | | Gemini 3.1 Pro | ~72.5% | 1M | 支援 | GPT-5.4 以 2-3 個百分點 的優勢領先,但 Anthropic 的 Claude Sonnet 4.6 以更低的價格提供相近性能,成為成本敏感應用的首選。Google Gemini 則在多模態推理方面保持競爭力。 企業級應用:從「輔助」到「代理」的轉折點 GPT-5.4 的 75% OSWorld 分數並非僅僅是 academic 成就——它直接轉化為商業價值。OpenAI 公佈的內部基準顯示,在模擬 初級投資銀行分析師 的金融建模任務中,GPT-5.4 得分 87.3%,較 GPT-5.2 的 68.4% 大幅提升。 主要企業用例: – 大規模文檔審查:法律簡報、科學文獻、長篇手稿 – 無 API 系統的數據自動輸入與提取:遺留企業系統整合 – 全自動入職流程:跨多個應用協調帳號創建、权限配置 – 財務報告生成:結合試算表、數據庫、網頁來源 – 自動化測試與質量保證:GUI 功能測試 更重要的是,GPT-5.4 已登陸 Microsoft Foundry,企業Azure客戶可直接在其現有生態系統中部署,無需換平台。 價格與開發考慮 GPT-5.4 實行分層定價,適應不同規模需求: | 模型 | 輸入 (每百萬 tokens) | 輸出 (每百萬 tokens) | |——|———————|———————| | GPT-5.4 | $2.50 | $15.00 | | GPT-5.4 Mini | $0.75 | $4.50 | | GPT-5.4 Nano | $0.20 | $1.25 | | GPT-5.4 Pro | $30.00 | $180.00 | 開發者策略建議: – 高精度需求(如金融建模)→ 選擇完整 GPT-5.4 – 大多數自动化任務 → GPT-5.4 Mini 提供最佳成本效益比 – 高吞吐量、低複雜度場景 → GPT-5.4 Nano(API 專用) 輸入快取Tokens享 50% 折扣($1.25/百萬),但超過 272K tokens後會觸發 擴展上下文附加費,輸入價格翻倍至 $5.00/百萬。 為何這一切至關重要? 首先,它驗證了「計算機使用」這一范式本身。當 AI 只能完成 30-40% 的桌面任務時,這只是研究奇觀。但達到 75% 且持續進步,它已成為企業可以 合理信任 的生產力圖層。 其次,它加速了從 「副駕(Copilot)」到「代理(Agent)」 的思維轉變。副駕僅提供協助——代理能主動行動。GPT-5.4 的能力將更多工作流推入「代理」範疇,AI 能在 最少人工監督 下執行多步驟流程。 第三,競爭態勢正在加劇。Anthropic 緊追不捨(差距僅 2-3 分),Google 正在趕上。這種三方競爭推動了快速迭代——過去四個月 28 分的進步正是這種壓力下的直接結果。 未來展望:我們將走向何方? 接下來幾個月值得關注的發展: – Claude 下一代模型 的 OSWorld 分數(Anthropic 持續逼近) – Google Gemini 的 agentic 能力回應(其強大多模態推理提供獨特優勢) – 企業采用數據:多少組織真正將計算機使用 Agents 投入生產,而不僅是試點 – 安全與可靠性框架:超高基準分數不代表零錯誤——生產環境中的失效模式仍是活躍研究領域 技術即將到来的突破: 1. 語音+計算機使用整合:用說的指揮 AI 操作電腦 2. 多 Agent 協作:不同 AI 專長協同完成複雜項目 3. 安全沙盒隔離:Agent 在受限環境中自動執行任務 4. 即时代碼生成+執行:Vibe coding 從編輯器擴展到整個操作系統 結語:人工智慧從「交談者」蛻變為「執行者」 GPT-5.4 的發布標誌著 AI Agent 從 「有趣的概念」 進入 「必備工具」 的階段。當 AI 能比人類更可靠地操控桌面軟體,我們見證的不是又一個模型版本更新,而是 生產力工具本身的重新定義。 對於企業決策者,現在是評估agentic工作流的關鍵時刻——成本已降至可行範圍,準確率已超過人類基準,部署渠道(Azure/Foundry)業已成熟。對於開發者,我們正處於一個新時代的起點:未來的應用程序將不再仅仅是「有 AI 功能」,而是 「以 AI 為核心執行引擎」。 2026 年,AI 終於學會了使用電腦。下一個問題不是「它能做嗎?」而是「我們準備好讓它做了嗎?」 — 延伸閱讀 视频資源: – [GPT-5.4: The AI That Can Use Your Computer](https://www.youtube.com/watch?v=IU16ue33pys) — 深入解析計算機使用技術 – [OpenAI GPT-5.4 Computer Use Agent](https://www.youtube.com/watch?v=Itg42kvH7ec) — AI Agent 實戰演示 – [GPT-5.4 LAUNCHES WITH COMPUTER USE](https://www.youtube.com/watch?v=Nk5zyPoiTIo) — 官方發布重點解讀 技術文檔: – [OpenAI: Introducing GPT-5.4](https://openai.com/index/introducing-gpt-5.4/) – [OSWorld Benchmark Paper](https://osworld.github.io/) – [Tool Search 框架說明](https://openai.com/index/tool-search-architecture/) 行業分析: – 「GPT-5.4 將企業 AI 自動化推向新高度」— Fortune – 「Computer Use Agents 在 2026 年從實驗室走向生產」— deck.co – 「超越人類基準:AI Agent 轉折點已至」— AI Haven — 文章字數:約 950 字(繁體中文) 目標讀者:企業技術決策者、AI 產品經理、自動化工程師 關鍵主題:GPT-5.4、計算機使用、OSWorld、AI Agent、企業自動化 分类建議:AI 模型 (12) 文章導覽 香港天氣預報 – 2026年04月08日 2026年AI視頻生成地震:Sora關停後,Kling 3.0、Veo 3.1、Runway Gen-4 誰能稱王?