刚刚！Codex官方发声：Codex原生支持其他模型。

沉默王二约 2761 字大约 9 分钟

大家好，我是二哥呀。

这不。Codex 负责人 Tibo 发话了，Codex、以及 CLI 和 SDK 原生支持任何开源模型了，不限于 GPT-5.5。

这对我们国内用户是大大的利好啊。

这就意味着我们可以放心大胆的给Codex 接入其他国产模型，比如说 DeepSeek V4 Flash 和 Step 3.7 Flash。

这波，必须得给 OpenAI 点个大大的赞。

要知道，Codex和Claude Code就是目前最顶级的Agent工具。

没他们俩，我现在是真干不了一点活了。

01、Codex的模型自由

Codex 的官方文档里也有明确说明，可以将 Codex 指向任何支持 Chat Completions 或 Responses API 的模型。

并且强调，对 Chat Completions API 的支持已弃用，并将在未来版本的 Codex 中移除。

这个要求就会卡掉一批暂不支持 Responses API 的模型，比如说 DeepSeek V4。

那如果想要Codex支持 DeepSeek V4，就需要做一个中间代理做个协议转换。我的开源项目PaiSwitch就实现了。

当然了，如果模型本身兼容了 Responses API，那就直接接入就行了，Step 3.7 Flash 就是这样，成为首批原生适配 Codex 的非 OpenAI 模型。

配置方式有两种。

第一种，直接改配置文件。Codex 的配置在 ~/.codex/config.toml，写入 model_providers 块即可。Step 3.7 Flash 因为原生支持 Responses API，配置很简单。

model_provider = "stepfun"
model = "step-3.7-flash"
model_reasoning_effort = "high"

[model_providers.stepfun]
name = "StepFun"
base_url = "https://api.stepfun.com/v1"
wire_api = "responses"

第二种，用 PaiSwitch 或者 CC-Switch。前者是我做的一个模型控制台，选好模型、填入 API key 后，可以一键写入 Codex 的 config.toml 和 auth.json。

它内置了协议代理，DeepSeek 这种只支持 Chat Completions 的模型，PaiSwitch 会自动做 Responses API 到 Chat Completions 的转换。

当然了，不管是CC-Switch 还是 PaiSwitch，背后其实都是改的配置文件，原理是一样的。

不管怎么说，Codex 能把模型层解耦出来，等于放弃了模型锁定带来的短期粘性，换取了一个更大的可能，成为一个只负责 Agent 调度和跨模型协作的中立平台。

真的很open啊。

搞定 Codex 的国产模型配置后，我们来做一个横评，看看 DeepSeek V4 Flash 和 Step 3.7 Flash 在 Coding Agent、Search Agent、Tool-use Agent 三个场景下的表现。

02、参数对比

先把 DeepSeek V4 Flash 和 Step 3.7 Flash 参数摆出来对比一下。

维度	DeepSeek V4 Flash	Step 3.7 Flash
发布日期	2026 年 4 月 24 日	2026 年 5 月 29 日
总参数量	284B	198B（含 1.8B ViT 视觉编码器）
活跃参数量	13B	11B
架构	MoE + CSA/HCA 混合注意力	MoE（288 专家 × top-8）+ 滑窗/全局混合注意力
上下文窗口	1M tokens	256K tokens
最大输出	384K tokens	256K tokens
多模态	否	是（原生视觉）
开源协议	MIT	Apache 2.0

两个模型走的技术路线截然不同。

DeepSeek V4 Flash 在注意力机制上做了激进压缩。官方提到的核心是 token-wise compression + DSA（DeepSeek Sparse Attention），在 1M 上下文长度下显著降低计算和显存开销。284B 总参数、13B 活跃参数，用 FP4 量化 MoE 专家层，模型文件大约 160GB。

它的核心竞争力是“同样的活干完，硬件资源用得更少”。

Step 3.7 Flash 的思路是为 Agent 任务做专项优化。198B 参数里嵌入了一个 1.8B 参数的 ViT 视觉编码器，原生支持截图、设计稿、图表等视觉输入，视觉理解能力直接进 Agent 工作流，而不是作为单独的功能模块。

45 层语言层里有 42 层是路由 MoE 层，每层 288 个专家取 top-8 激活，加上 3-way Multi-Token Prediction，推理速度最高到 400 tokens/s。

DeepSeek V4 Flash 默认 1M 上下文，Step 3.7 Flash 是 256K。

03、写代码谁更利索

同一个 prompt 发给两个模型，各自独立生成代码，直接对比产出质量。

由于 Codex 切换模型后需要重启才能加载新的模型，所以这里我直接用 PaiCLI 来跑，我自己 Vibe Coding 出来的一个 Claude Code。

直接 /model 一键切换，非常方便。

我选了一个有一定复杂度的前端项目：在demo-step目录下，复刻 https://claude.nagdy.me/learn/slash-commands/ 这个网站，做成中文的，要求1：1还原。

这个网站要求三栏布局（左侧导航 + 中间教程内容 + 右侧仿终端交互演示），包含命令分类卡片、workflow 模板、选择题测验组件，以及右侧终端的逐字打字动画效果。最终输出一个能直接在浏览器打开的 HTML 文件。

这个任务的综合性比较强。

既要写 HTML 结构和 CSS 样式，又要写 JS 交互逻辑（打字动画、测验反馈、导航高亮），还要在视觉设计上做到位（暖白底色、橙色主色调、圆角卡片、monospace 命令标签）。

DeepSeek V4 Flash 的表现

Step 3.7 Flash 的表现

直接上对比数据：

维度	DeepSeek V4 Flash	Step 3.7 Flash
端到端用时	约 38 秒	约 42 秒
总 token 消耗	约 15K tokens	约 22K tokens
工具调用次数	12 次	14 次
三栏布局还原	结构基本正确，但右侧终端区域样式偏差较大	三栏比例、间距与原站高度一致
打字动画效果	未实现逐字打字动画	完整还原逐字打字 + 光标闪烁效果
配色还原度	主色调偏差明显，卡片圆角和阴影缺失	暖白底色、橙色主色调、圆角卡片均还原到位
交互逻辑完整度	测验组件缺少反馈提示	选择题测验、导航高亮、命令分类卡片交互完整