
很多人用 Codex CLI,但 OpenAI 在桌面 App 上下的功夫远不止命令行。我已经把自己日常写程序的场景从 CLI 搬到了 Codex App,更推荐 App 版本。等这种人机交互的模式摸清楚之后,设计良好的 GUI 终究会超越纯命令行的体验。

还有一个关键原因:CLI 的上手门槛对非工程师来说还是偏高。要开终端机、要记指令、要懂参数,这关就把很多设计师、产品经理、市场营销人员挡在外面了。Codex App 的 GUI 设计,等于把参与 AI 开发流程的门槛一口气拉低。
这篇文章就来系统梳理一下 Codex App 里那些「只有 GUI 才办得到」的功能——这些是 CLI 里根本想象不到的玩法。
Appshots:截图的同时,连画面外的文字也一起读进去
按住左右两个 Command 键,Codex 就会把你鼠标所在的窗口截图,自动塞进输入框。
但这不只是截图。它会同时把窗口里的文字——包括已经滚出画面的部分——一并传给 Codex。跟 computer use 一样的逻辑:拿得到 App 里的完整文字,不只是肉眼能看到的那一块。
实际用起来体验很明显:以前在浏览器看到一个 bug,得自己截图、粘贴、再打字补上下文。现在一个快捷键,完整上下文直接进去了。
官方文档:Appshots
Remote Control:手机也能控制另一台电脑上的 Codex
Codex 可以远端控制跑在另一台机器上的 Codex。手机的 ChatGPT App 能遥控,桌面版的 Codex 也能遥控另一台机器,甚至在屏幕锁定状态下也能跑。
有意思的是 Linux 上的 Codex 也能被远程控制——在那台 Linux 上跑 codex remote-control,它就起一个 Codex server,然后你用 Mac 或手机上的 Codex App 去遥控这台机器。据社区实测,拿 Ubuntu Desktop 来远程遥控、打开 Chrome 都没问题,比 SSH 还好用(以当前版本为准)。
实际场景:写代码写到一半要出门,掏出手机就能继续在那台开发机上跑任务、审 diff、改方向,不用带电脑。
官方文档:Remote connections
三种让 Agent 操作界面的方式:$browser / @chrome / @computer
Codex 提供了三种让 Agent 操作界面的模式,用途各不相同,选错会很别扭:
- 改 UI 用 $browser
- 需要登录状态用 @chrome
- 要操作桌面软件才用 @computer
$browser(内建浏览器)
侧边面板里直接嵌了一个浏览器。你和 Codex 看着同一个正在跑的页面,直接在元素上标注、留言、要求调整,它就照着改、即时刷新给你看。前端 UI 迭代用这个最顺手。
@chrome(接你已登录的 Chrome)
可以在后台同时跑多个标签页:每个任务开一个 tab group,做完自动清掉,只在需要你 review 时才把标签交还。你照常用浏览器,它不干扰你。适合在登录后的网站做 deep research、把数据批量搬进 CRM,或自动化内部后台操作。

官方文档:Chrome extension
@computer(桌面 GUI 操作)
后台跑,交代下去之后 Agent 在桌面背景执行,你继续手边的工作。能平行跑多个 Agent 各自有独立的鼠标指针,互不干扰。
官方文档:Computer use
语音输入:App 内建,不需要再装其他工具
Codex App 内建语音输入,不用另外买 Whisper Flow 之类的工具。设好快捷键,在任意地方直接口述。
最大的用法不是省力打字,而是在想法还没被压缩时先把它说出来——语音能捕捉到想法被整理成精致文字「之前」的那个粗糙原始版本。
「去找一下 Ben 在 Slack 里提过的那个东西」——这种带语感的指令,打字反而会懒得写完整。
Steering 和 Queuing:它还在跑,你就能先打字
Codex 还在输出、还在跑工具时,不必等它停下来。直接在输入框打字送出,分两种用法:
-
Steering(插队改方向):不等当前步骤做完,立刻打断,塞进新的指示。适合你看着它往歪的方向走、想即时纠正的时候:「等等,你在删别的文件?先停下」「先别动数据库」。
-
Queuing(排队接着做):不打断当前步骤,让这条消息排进队列,等它把手上这步做完再执行。适合已经想好下一步:「跑完记得开个 PR」「接着把测试补上」。
CLI 也做得到这两个,但得记住快捷键才能正确切换。GUI 把选项直接摊在界面上让你点,一看就知道该按哪个。
钉选 Threads:不让工作记录变成用完即丢
每一条重要的工作流,都值得保留一条钉选的对话串。这些 thread 会累积历史与决策,变成耐用的记录,不是用完即丢的对话。
以前大家觉得一条对话不应该越拖越长——上下文会越来越乱,越来越影响回答质量。但钉选 Thread 的思路是:只要你知道会用子任务分流,主线程拿来当记录本没问题。
Fork:从任意一条 AI 输出岔出一条新 thread
在 GUI 里可以对之前任意一条 AI 输出点「fork」,拆出一条新的 thread,从那个点接着走别的方向,原来那条对话原封不动。

最常见的用法:你在处理功能 A,半路发现一个 bug,与其在原本对话里插一段把上下文搅乱,不如直接从当下这条消息 fork 出去,在新 thread 里专心修 bug,而它先前累积的东西——摸熟的 codebase、讨论好的计划——全都带着走。
CLI 也有 /fork,但社区里就有人抱怨对话开头都长得一样,根本分不清该 fork 哪一条。GUI 把整条 transcript 摊在眼前,直接点那一条输出就能 fork,分叉点一目了然,不用靠记忆。
平行多工:一个窗口同时跑很多条任务
左侧栏就是 threads list,每一条 thread 是一个独立的任务。同一个窗口里同时跑多条 thread,各自独立推进,左栏扫一眼就知道每条跑到哪、哪条完成了、哪条卡住要你处理。
CLI 上这点特别痛:一个窗口就是一条对话,想平行就得自己开一堆终端机标签页、自己记哪个在做什么。也因此市面上冒出一大批工具专门来补这个洞,像 cmux、Claude Code 最近也补上了 Agent View。Codex App 则是一开始就把平行多工内建在界面里,不用外挂。
Thread Automations:你不在,它还在推进——定时唤醒同一条 thread
这个概念很像周期性的心跳调用:依排程回到同一个 Codex 线程继续推进,而不是每次都从头开一个新的。
支持分钟级的频繁轮询,也能设每日/每周的定时 check-in(以当前版本为准)。特别适合做反馈回路:监看 pull request 留言、Google Docs 留言或 Slack 回复,在你不在座位时持续推进周边工作。
写 automation prompt 时要交代清楚:每次醒来该做什么、怎么判断有没有重要发现、何时该停下来问人。
官方文档:Automations
侧边面板:你和 Agent 盯着同一份工件
侧边面板可以就地检视 Markdown、表格、数据表、文件和幻灯片,还有 terminal、浏览器、文件浏览。
关键是你和 Agent 看的是同一份工件:不用中断流程,就能检查、标注、修订。
配合进阶注记模式,可以在内建浏览器里直接拖拉、调整页面元素并留批注,多条修改攒成一批一起送。git diff 的 code review 也一样:右侧直接看变更、逐行留 inline 注解、挑 chunk 分段 commit,全程不离开 App。
CLI 的输出跑完就消散,你没法跟 Agent 盯着同一份表格、同一张幻灯片边看边改。这是结构上的差别,不是功能多少的问题。
影像生成:在同一条对话里直接生图
OpenAI 自家有影像模型(GPT-Image-2),Codex App 直接把它整合进来了:在对话里就能叫 Codex 生成或编辑图片,不用切到别的工具。

最直接的用法是做 UI 素材、banner、插图、游戏 sprite sheet、幻灯片 mockup——要几张生几张、要微调再让它改,整个过程在同一条 thread 里完成。
进阶玩法:先生 UI 图,再让 Codex 对照写 code。更有意思的玩法是反过来:先用 GPT-Image-2 生出一张 UI 设计图,再让 Codex 对照那张图去产生对应的 code。先有视觉、再有实作——而不是让 AI 直接生 code 把画面撞出来。
Goals + 侧边面板:长任务跑着,你随时能看到哪里卡了
/goal 给一个目标,Codex 就一路执行到完成,过程可能横跨数小时甚至数天。GUI 的差别在于「怎么看进度」可以做得很舒服。
一个好用法:让 goal 一边跑,一边产出一个 HTML 进度仪表板,直接用 Codex 内建浏览器开在侧边面板。左边是 Agent 在做事,右边是即时更新的图表和指标(完成度、匹配率、各 commit 的进展),一眼就看到跑到哪了。
还有一招:对一个跑很久的 goal,开一个 /side chat——不影响主任务,又带着完整上下文,直接问「目前进度如何?还要多久?」
目标的品质决定一切。弱的目标像「把这份 Markdown 实作出来」,强的目标带着可衡量的成功标准——比如直接拿现有的测试套件当验证标准。goal 写模糊,结果就会模糊。
官方文档:Follow goals
为什么这些是 GUI 才办得到的?
侧边面板让 Codex 不再只是一个聊天 App,而是变成了工作真正发生的地方。重点不只是 Codex 能产出工件,而是你能在不打断回路的情况下,当场检视并标注它。
CLI 的输出跑完就消散,你没法跟 Agent 盯着同一份表格边看边改。这是结构上的差别,不是功能多少的问题。
CLI 仍然有它的价值:轻快、可组合、好自动化,方便接进 CI 或排程脚本。但 GUI 把「对话」升级成了「工作台」,这是命令行怎么也塞不进来的。
如果你现在用 CLI,最快的入场是下载 Codex App 后先试 Appshots(双 Command 键截图)和侧边面板。其他功能按需取用,不必一次全开。
