大家好,我是二哥呀。
GPT-5.3-Codex 还没捂热,OpenAI 又正式发布了 GPT-5.4。
这不是一次普通的模型更新,而是被 OpenAI 定位为 AI 数字员工的首个大一统模型。它整合了推理、编程及百万级上下文能力,原生支持电脑操作,Agent 任务成本直接降低 47%。
基准测试成绩相当亮眼:SWE-Bench Pro 拿下 57.7%,MMMU-Pro 达到 81.2%,BrowseComp 更是飙到 82.7%。在内部投行建模测试中,GPT-5.4 的得分从 GPT-5 的 43.4% 直接干到了 87.3%。

大约 9 分钟
