Codex 使用指南：从写代码助手，到长期协作的开发工作流

很多人第一次用 Codex，通常只会让它做三件事：检查代码、生成 diff、跑测试。

这当然没问题，写代码依然是 Codex 最直接的使用场景。但如果只把它当成”帮我补代码”的工具，其实有点可惜。真正好用的方式，是把 Codex 当成一个可以长期跟进任务的开发协作入口。

它不只是写代码，还可以帮你跑命令、查资料、读文档、整理反馈、生成文件、审查页面，甚至在同一个工作流里持续推进一个任务。

这篇指南不讲概念堆叠，只讲一件事：怎样把 Codex 用得更顺手。

1. 不要每次都开新对话：给重要任务保留固定线程

如果一个任务不是一次性完成的，就不要每次重新开一个新对话。

比如这些场景，很适合保留固定线程：

固定线程	适合处理什么
项目开发线程	长期跟进某个代码库的功能开发、测试、修复
发布线程	跟踪版本发布、变更记录、PR、部署事项
文档线程	持续维护 README、接口文档、方案文档
监控线程	定期检查某些外部信息、CI 状态、PR 评论

这样做的好处是，Codex 不需要每次重新理解背景。它可以沿着之前的上下文继续工作，包括你的偏好、已经做过的决定、当前卡点和后续计划。

我的建议：只要一个任务会持续超过一天，就给它单独开一个固定线程。

2. 语音输入适合”还没想清楚”的需求

很多时候，我们不是不会描述需求，而是还没整理好。

这时不要急着写一段完美 Prompt，可以直接用语音把想法说出来。语音输入的价值，不是让表达更正式，而是先把脑子里的原始信息倒出来。

比如你可以这样说：

我现在想做一个机器人控制 skill 的优化，主要问题是用户连续控制体验不好。现在每次只是调用一次接口然后 stop，感觉很机械。你先帮我从产品体验角度拆一下，不要急着写代码。

这类输入看起来很散，但对 Codex 反而有用——因为它能从你的描述里提取目标、约束和上下文。

适合语音输入的场景：

场景	说明
需求还不清晰	先说想法，再让 Codex 帮你整理
会议后复盘	直接口述会议结论、待办、分歧
Bug 描述	把现象、猜测、复现步骤先说出来
产品体验优化	用自然语言描述哪里”不顺手”

不要把语音输入当成正式文档，它更像草稿入口。

3. 学会中途纠偏，而不是等它做完再骂

用 Codex 做长任务时，不要一直等到最后才看结果。更好的方式是：边看边纠偏。

这里有两个核心概念：

能力	用法
Steering	任务执行中途，直接打断并调整方向
Queuing	当前任务完成后，把下一步排进去

举个例子：你让 Codex 改一个页面，它做到一半时你发现方向不对，可以直接说：

先停一下，不要继续改样式。现在的问题不是颜色，而是信息层级太乱。你先把页面结构重新拆一下。

这就是 Steering。

如果它正在跑测试，你不想打断它，可以说：

测试跑完后，顺便把这次改动整理成一份 review 说明。

这就是 Queuing。

两者的区别很简单：Steering 是改当前方向，Queuing 是安排下一步。这也是 Codex 和普通代码补全工具最大的不同之一——它不是一次问答，而是一个可以被你持续调度的工作线程。

4. 工具连接决定了 Codex 能做多远

只让 Codex 看代码库，它就是代码助手。让它连接浏览器、MCP、外部系统、桌面环境，它才会变成工作流助手。

工具	适合场景
`$browser`	在 Codex 侧边栏里预览网页、检查页面效果
`@chrome`	处理需要浏览器登录态的网页任务
`@computer`	处理只能通过桌面 GUI 完成的任务
MCP Server	连接本地工具、数据库、内部系统、文档源
Skills	把重复流程固化成可复用能力

所以，使用 Codex 时要先问一个问题：

这个任务需要它看到什么、操作什么、调用什么？

如果只是改代码，给代码库就够了。如果是做完整任务，就要把相关工具也接上。

5. 把重复流程沉淀成 Skill

如果一个流程你已经让 Codex 做过三次，就应该考虑把它写成 Skill。

比如：

代码 Review Skill
接口文档生成 Skill
发布说明生成 Skill
数据库变更检查 Skill
机器人控制能力检查 Skill
PR 风险扫描 Skill

Skill 的价值不是”让 Codex 更聪明”，而是让它少猜。

好的 Skill 应该明确告诉 Codex：

这个 Skill 解决什么问题
输入是什么
操作步骤是什么
输出格式是什么
哪些事情不能做
出错时怎么提示

例如代码 Review Skill 不应该只写”帮我 Review 代码”，而应该写成：

检查安全风险、并发问题、数据库事务、错误处理、日志、接口兼容性和测试覆盖。输出按 P0/P1/P2 分级，并给出修复建议。

6. 自动化适合”需要定期回来看看”的任务

有些任务不需要你一直盯着，但需要定期检查。

比如：

每天生成项目日报
每小时检查 PR 是否有新评论
定期查看 CI 是否失败
定期汇总 Slack / Gmail 里待处理事项
部署后每隔一段时间检查状态

这类任务适合用 Automation。

自动化分两种：

类型	适合场景
普通定时自动化	每次任务相对独立，比如日报、周报
Thread Automation	需要记住历史上下文，比如持续跟进一个 PR

举个例子：

每 30 分钟检查一次这个 PR。如果有新评论，先分析评论内容，再基于当前代码给出修改建议，但不要直接提交。

这类任务就很适合 Thread Automation，因为它需要记住之前做了什么。

7. Goals 适合有明确终点的长任务

不要把 Goals 用成”大愿望”。

❌ 不好的目标：

帮我把这个项目优化一下。

✅ 好的目标：

直到 npm test 全部通过，并且首页 Lighthouse Performance 不低于 90，才算完成。

Goals 的关键不是任务大，而是终点清楚。

适合 Goals 的验证标准：

验证器	示例
单元测试	`go test ./...` 全部通过
E2E 测试	登录、下单、支付流程跑通
性能指标	接口 P95 延迟低于 200ms
Bug 复现	原来的复现步骤不再出现问题
文档完整性	接口、参数、错误码全部补齐

一句话：没有验证器的 Goal，本质上只是一个愿望。

8. 侧边栏适合做”边看边改”的工作

侧边栏的价值在于：你不用在聊天窗口、编辑器、浏览器、文件预览之间来回切。

它适合处理这些内容：Markdown 文档、表格、PDF、幻灯片、网页预览、代码 diff、生成的 artifacts。

比较推荐的侧边栏使用场景：

场景	用法
改页面	打开预览，直接指出哪里不对
写文档	生成后边看边改，不满意直接标注
做幻灯片	先出版本，再逐页调整
Review 代码	看 diff，逐块反馈
数据分析	生成表格或图表后直接检查

尤其是前端页面，侧边栏会让反馈效率高很多。你可以直接说：

这里信息密度太高，先别改颜色，把卡片层级重新拆一下。

这种反馈比”帮我优化页面”有效得多。

9. 共享记忆不要只依赖聊天记录

长期任务最怕的问题是：上下文丢了。

所以重要信息不要只留在对话里，最好沉淀到一个可读、可维护的地方。比如建一个简单的知识库：

vault/
├── TODO.md
├── people/
├── projects/
├── decisions/
├── notes/
└── drafts/

然后在项目或知识库根目录放一份 AGENTS.md，告诉 Codex 应该怎么维护这些信息。可以这样写：

# AGENTS.md

把 ~/vault 作为长期工作记忆区。

当你了解到新的项目进展、关键决策、负责人、待办事项或阻塞问题时，
请更新对应文件。

要求：
- 不要随意创建碎片化文件
- 重要决策写入 decisions/
- 项目进展写入 projects/
- 待办事项写入 TODO.md
- 没有实质性变化时，不要修改文件

这一步很关键——真正长期使用 Codex 时，你会发现最贵的不是”让它写代码”，而是**“让它重新理解背景”**。

10. 推荐的一套 Codex 日常工作流

可以按这个顺序用：

1. 开一个固定 thread
    ↓
2. 用语音或文字把需求先倒出来
    ↓
3. 让 Codex 先整理目标、约束、风险和执行计划
    ↓
4. 确认后再让它改代码 / 写文档 / 跑测试
    ↓
5. 执行中随时 Steering 纠偏
    ↓
6. 当前任务结束后 Queuing 安排下一步
    ↓
7. 重复流程沉淀成 Skill
    ↓
8. 长期跟进任务交给 Automation
    ↓
9. 有明确验收标准的任务使用 Goal
    ↓
10. 关键上下文写入 AGENTS.md / vault

这套流程的核心是：不要把 Codex 当成一次性问答工具，而是把它当成一个可以持续协作的开发线程。

11. 最容易踩的坑

坑 1：一上来就让它改代码

更好的方式是先让它理解：

当前目标是什么
哪些文件相关
不能改什么
成功标准是什么
怎么验证

坑 2：Prompt 太空

❌ “优化一下这个项目。”

这类指令很容易跑偏。改成：

✅ “先检查接口层错误处理、日志、事务和单元测试覆盖，不要改业务逻辑。输出问题清单和修复计划。”

坑 3：没有验证标准

Codex 做完后，如果没有测试、命令、指标或人工验收标准，就很难判断它是不是真的完成了。

坑 4：所有任务都开新对话

这会导致上下文反复丢失。长期项目应该固定 thread。

坑 5：重复流程不沉淀

同样的 Review、部署检查、文档生成，如果每次都重新描述，就是浪费。

总结

Codex 的重点已经不只是”帮我写一段代码”。

更好的用法是：让它围绕一个真实任务，持续读取上下文、调用工具、产出文件、接受反馈、完成验证。

对于开发者来说，真正值得沉淀的不是某一个 Prompt，而是一套工作方式：

固定 thread 保存上下文
用语音捕捉原始想法
用 Steering 及时纠偏
用 Queuing 安排下一步
用 Tools 扩展操作范围
用 Skills 固化重复流程
用 Automation 定期回来检查
用 Goals 处理有明确终点的长任务
用侧边栏边看边改
用共享记忆保存长期上下文

当这些能力组合起来，Codex 就不只是代码生成器，而是一个可以参与完整开发流程的协作工具。