Codex App作为目前最为强大的 AI Agent产品之一

一位年轻创业者坐在被数字信息包围的工作室里，左手边是一个巨大的发光AI聊天气泡（象征ChatGPT），右手边是一个正在操控真实电脑桌面的机械手臂机器人（象征Codex App），气泡里写着空洞的建议，而机械手正在真实地整理文件、敲击键盘，周围漂浮着各种工作文档和文件夹，整体表达AI从动嘴顾问到动手员工的转变。

说真的，前几天有个朋友问我，你有没有觉得现在的AI工具都挺鸡肋的，问啥都能聊两句，但真让它干点活就抓瞎了。

两个年轻人在咖啡馆对话，其中一人满脸困惑地看着手机屏幕上显示的各种AI对话界面，另一人无奈地摊开双手，桌上放着半凉的咖啡和一台打开的笔记本电脑，背景是模糊的城市街景和飘散的AI应用图标。

我懂他意思。

ChatGPT也好、Claude也好，用起来确实是方便，但你有没有发现，它们永远只能「告诉你怎么做」，而不会「替你去做」。让你写个文案，它能给你扔出来，但帮你把文案存到本地、命名好、再发到对应的平台？不好意思，这得你自己来。

怎么说呢，这种割裂感其实挺难受的。就好像你雇了个参谋，能力很强，但永远只动嘴不动手。

直到我开始用 Codex App。

坦白讲，最开始我没当回事，不就是个桌面应用吗，能有多神？但用了一段时间之后，我必须得说——这玩意是真的不一样。

怎么说呢，它不是来回答你问题的，它是来帮你把事情办成的。

这篇文章，我不打算写成说明书给你念功能列表。我想用最直白的大白话跟你聊聊，Codex App 到底是什么、能做什么、以及怎么用好它。

看完之后，你对AI Agent这件事的认知，可能会有一个质的飞跃。

一、Codex App 是什么？

先说个背景。Codex App 是 OpenAI 推出的 AI Agent 桌面应用。注意，不是网页版，不是浏览器插件，是一个真真切切装在你电脑里的桌面程序。

这里有个特别关键的认知转换。

过去的AI，比如ChatGPT，它本质上是一个「问答机器」。你问，它答，答案停留在聊天框里，你得自己拿走、自己执行。AI扮演的角色，是顾问。

但 Codex App 不一样。它是一个能「坐在你电脑前帮你干活」的员工。你给它一个目标，它自己拆解、自己执行、自己交付结果——中间几乎不需要你插手。

比如，你跟它说「帮我看看这个项目里哪些代码可以优化」，它会直接打开你的文件夹，读取代码文件，分析，生成改进建议，甚至直接帮你改掉。全程不需要你手动上传文件，不需要你复制粘贴，它就像一个真实的人类员工一样在操作你的电脑。

这种感觉，我跟你说，第一次体验的时候还是挺震撼的。

它具体能做到的事情，我大概列一下：

深度读写本地文件。 它可以直接查看、修改、整理你电脑里的文件夹与项目目录。绑定了项目之后，它知道你项目里有什么文件，结构是怎样的，可以直接读写。

联网搜索实时信息。 它有内置的全功能浏览器，不需要切出应用，就能在 App 内部搜索、浏览、汇总网页信息。

像人一样操控软件。 它拥有视觉感知能力，能实时识别复杂的软件界面，操作电脑上的各类 App。

生成多维工作成果。 自动生成文档、图片、网页、代码等各类结果，并支持实时预览。

无缝连接外部工具。 通过插件直接连接你的 Gmail 邮箱、Notion 笔记、Google Drive 网盘等应用。

后台自动化。 设置好定时任务后，可以在电脑后台自动帮你执行重复性工作。

你看，一个能做这么多事情的东西，它叫Agent，中文翻译过来就是「代理」或者「智能体」。简单理解，就是一个被AI驱动、可以自主行动的数字员工。

二、它和 ChatGPT 到底有什么区别？

其实这个问题可以用一句话回答——

ChatGPT住在云端，Codex住在你的电脑里。ChatGPT给你答案，Codex帮你办事。

但光说这句话可能还不够清晰，我展开讲讲。

第一个区别：本地化。

ChatGPT是云端应用，你想让它处理文件，必须手动上传，下载结果也得自己来。但Codex直接就在你本地运行，可以直接读写本地文件，不存在上传下载这个步骤。

打个比方，ChatGPT像是租了个服务器，你得把文件上传到那个服务器上去处理。Codex呢，就是在你家开了个办公室，所有事情就地解决。

第二个区别：执行能力。

这是最核心的区别。

ChatGPT能给你一个完美的方案，但方案的执行必须由你来完成。Codex不一样，它能直接把事情办了——写代码、保存代码、部署上线，全部自主完成，你只需要告诉它你想要什么。

所以我更愿意这么理解：ChatGPT是你最好的军师，而Codex是你最拼命的员工。军师给你出主意，员工帮你干活。

那有人可能会说，员工干活出错了怎么办？这个确实是需要考虑的问题，所以后面我会讲到它的权限控制系统，这是一个很聪明的设计。

三、先别急，在开始之前——安装这件事

安装其实非常简单，没啥坑，但我还是简单说两句，省得有人卡在第一步。

打开Codex官网（ https://developers.openai.com/codex/app ）进行下载，它支持 Mac 和 Windows，根据自己的电脑选对应的安装包就行。

一只手用鼠标点击浏览器中的Codex下载按钮，浏览器窗口显示OpenAI开发者官网界面，桌面背景是整洁的Mac风格工作界面，整个场景聚焦在下载安装这一关键动作上。

登录账号这里，用你的 ChatGPT 账号直接登录就行。免费版有少量额度，但坦率的讲，如果你真的想认真用起来，建议还是以 Plus 会员为起步——免费额度大概几次对话就用完了，不够玩的。

四、核心功能解析——界面和布局

进入 Codex App 之后，你看到的主界面大概长这样，主要分为两个区域：左侧导航栏和中间工作区。

[ ]

先说左侧导航栏，这里是你和 Codex 交互的核心入口。

顶部栏是两个重要功能：Plugins 和 Automations。Plugins（插件）里包括 plugin 和 skill，主要用于扩展 Codex 的能力边界。Automations（自动化）用于设置定时任务。

中间对话区分为两个部分：项目区域和普通对话区域。简单说，项目对应本地的一个文件夹，适合有明确目标的任务；普通对话不绑定文件夹，适合零散的问答和临时需求。

底部设置用于全局基础配置，这个后面会细说。

中间的工作区就是你跟 Codex 聊天的主战场了，所有任务都从这里发起。

五、核心功能解析——项目和对话

这里必须得说清楚一件事，因为很多人刚开始用的时候会困惑。

Codex 有两种开启会话的方式：项目和普通对话，它们本质上是不同的。

项目：绑定本地文件夹的会话。

当你创建一个项目的时候，你需要指定一个本地文件夹作为这个项目的「工作目录」。之后 Codex 在这个项目里产生的所有对话，都可以直接读写这个文件夹里的文件。

所以，项目更适合有明确目标的任务。比如你要开发一个网站，你建一个项目，绑定你的项目文件夹，Codex 就能直接帮你读写代码文件、改配置、跑测试——你告诉它你想做什么，剩下的它来。

开启方式很简单，点击左侧栏 projects 旁边的「+」图标，支持新建文件夹和选择现有文件夹两种方式。

[ ]

这里有个使用习惯的建议，来自于我自己的踩坑经验。

保持会话结构清晰非常重要，具体来说主要是两点：

本地文件夹清晰，不同文件夹对应不同主题。
同个项目下一个会话只推进一个方向。比如你要开发一个网站，不同的功能模块建议各开一个会话，不要混在一起。执行效果更好，也方便后期回溯查看。

你想想看，如果你一个会话里又是首页功能又是支付模块又是后台管理，聊到后面自己都分不清哪些改动对应哪个需求了，那叫一个乱。

普通对话：不绑定本地文件夹。

普通对话适合那些不需要操作文件的临时需求，比如查个资料、问个问题、让 Codex 帮你写一段文案之类的。没有文件夹绑定的负担，随用随开，用完即抛。

六、核心功能解析——Plugins 和 Skills

这是 Codex 扩展能力的关键功能。

点击左侧栏的 Plugins，你会看到两个概念：Plugins 和 Skills。

Plugins 是给 Codex 接外部工具的安装包。

简单理解，就是让 Codex 能够操控其他应用的接口。它本质上是一套工具连接器，让 Codex 有了「操作其他 App」的能力。

举例来说：

Gmail 插件：让 Codex 可以读取和管理你的邮件。
Google Drive 插件：让 Codex 可以读取和编辑你的 Docs、Sheets、Slides。
Vercel 插件：让 Codex 可以直接将你的项目部署上线。

[ ]

当你安装了对应的插件之后，你就可以在对话里直接让 Codex 去操作这些服务了，比如「帮我把最近的邮件按重要程度排个序」「把这个项目部署到 Vercel 上」，它真的会去执行，不需要你手动操作。

Skills 是可复用的任务指令。

如果说 Plugins 是帮 Codex 装上了手和脚，那 Skills 就是教它遇到某类任务时该怎么做。它是可复用的指令模板，Codex 学会之后，遇到类似任务就能自动调用。

比如内置的 Image Gen skill，就是让 Codex 直接具备生成或编辑图片的能力。你不需要每次都详细描述图片生成流程，告诉它「帮我生成一张图」就够了，它知道该怎么做。

[ ]

七、核心功能解析——自动化

这个功能我觉得是被很多人低估了的。

自动化让 Codex 按照你设定的时间在后台自动执行任务。它特别适合那些需要定期执行的重复性工作——比如每天早上的邮箱汇总、定时信息监控、股票日报生成，这些事情你以前得每天手动去做，现在设置一次就行了。

设置方式巨简单，你甚至不需要去翻什么文档或者教程，直接用自然语言跟 Codex 说就行。

比如你可以跟它说：

新建一个自动化，每天早上 9 点查看我的 Gmail 邮箱，把重要邮件总结到目前的聊天会话里。

它就会自己把这件事记下来，到点自动执行。你人不在电脑前也没事，它在后台跑，跑完了通知你。

[ ]

这个功能对于做自媒体、做运营的人来说其实特别实用。比如你可以设置一个自动化，每天下午 5 点自动抓取你关注的几百个热点新闻，汇总成一份简报发给你。每天省下来二三十分钟是有的。

八、核心功能解析——聊天区的那些功能按钮

Codex 在对话输入这块做了很多细节设计，很多人第一次用的时候可能直接忽略了，这里我帮你们过一遍最重要的几个。

Codex App的对话界面特写，展示多个智能提示气泡和快捷指令标签浮在输入框上方，像小鱼一样游动的小图标代表各种快捷方式，光标在输入框中闪烁，整体呈现流畅的对话交互设计。

1. Plan Mode：先想清楚再动手

这个功能简单说，就是让 Codex 先给你制定一个详细的执行方案，等你确认之后再去执行。

适合任务较复杂的情况下开启。比如一个任务涉及多个文件的改动，或者你需求本身还没完全想清楚，从零开发某个功能的时候——先开个 Plan Mode 让 Codex 给你画个路线图，确认没问题了再让它动手，避免走弯路。

[ ]

怎么用呢？开启之后，Codex 会先输出它的执行计划，列出每一步要做什么，然后等你点确认，才会真正开始执行。这个交互设计其实挺聪明的，它解决了一个根本矛盾——AI 自动执行效率高，但风险也高；人审核确认安全，但频繁打断又影响效率。Plan Mode 就在两者之间找了个平衡。

2. 权限模式：决定它能走多远

每次发起对话前，在输入框左下角可以选择权限级别，共三档。我一个个说：

Default 默认模式： 仅限当前工作区，Codex 如果需要越界（比如访问网络或工作区外的文件），会暂停并询问你确认。

Auto-review： 边界与默认模式相同，但越界请求由 AI 自动审查决策，不需要你手动确认，不打断工作流。这个模式我日常用得最多。

Full access： 移除所有边界限制，Codex 可以访问任意文件和网络，直接执行，不做任何中断。

[ ]

日常使用的话，我推荐选 Auto-review。怎么说呢，安全相对可控，也不会频繁被打断影响进度。如果你刚开始用，心里没底，用 Default 也没问题，就是可能会多一些确认弹窗。

3. 模型和推理程度选择

Codex 支持不同模型和推理程度的选择，这个大家应该比较熟悉了。

推荐的用法是：日常任务用 GPT 5.5 Medium，复杂任务用 GPT 5.5 Extra High。这个不用多解释，复杂任务需要更深度推理的时候就调高，简单任务没必要浪费额度。

[ ]

4. 输入框快捷符号

这个是很多人会忽略但非常好用的功能。在对话输入框里，有三个符号可以快速触发不同功能：

「@」符号： 支持选择调用已安装的插件，或者引用具体文件作为上下文。输入 @ 会弹出一个列表，直接选就行，不需要你记住插件的名字。

[ ]

「/」符号： 唤出命令菜单，可执行内置命令。你已经安装的 Skills 也会出现在这个列表里。相当于一个快捷启动器。

[ ]

「$」符号： 显式调用某个 Skill。比如输入 $imagegen 就可以直接触发图片生成功能。这是最直接的方式。

[ ]

这三个符号用熟练了之后，交互效率会高很多。尤其是 @ 和 /，我基本每次对话都会用。

九、推荐设置——正式使用前必做的配置

好了，前面都在讲功能和概念，接下来是实战部分。

我建议你在正式开始使用之前，把下面这4个基础设置配好，配好之后用起来才会顺。

点击左下角的设置图标进入配置页面。

第一，权限设置里勾选 Auto-review 和 Full access。

这个主要是为了方便你在不同对话里随时调整权限模式。提前勾选好，后面切换起来不用再回来改设置。

[ ]

第二，开启「防止电脑在 Codex 运行时睡眠」选项。

这个太重要了。如果你用的是笔记本电脑，或者电脑设置了息屏休眠，当 Codex 正在执行一个需要一定时间的任务时，如果电脑突然睡眠了，任务就会被中断。

开启这个选项之后，Codex 运行期间你的电脑会保持唤醒状态，不会因为超时而打断任务。

[ ]

第三，配置全局指令（Agents.md）。

在个性化设置的自定义指令里，你可以写一段你希望 Codex 长期遵守的背景信息和规则。相当于给它一个「永久记忆」，让它每次对话的时候都知道你是谁、你有什么偏好、你应该怎么工作。

建议的内容包括：

你的身份与偏好： 比如你的日常工作角色、常用的软件工具。
输出内容的格式要求： 比如「回答一律使用中文」「文风保持简洁克制」。
行事准则： 比如「避免过度设计，只做必要改动」。

[ ]

这个东西配置好之后，你的 Codex 会变得特别懂你。用得越久，它对你的理解就越深，后面越来越顺手。

第四，开启记忆功能。

在个性化设置里找到记忆功能开关，开启它。开启之后 Codex 会自动从对话中学习你的偏好，在使用过程中变得越来越懂你。

[ ]

这个功能某种程度上有点像你在训练一个专属的AI助手。给它时间让它了解你，它会用得越来越顺手。

十、超级实用技巧推荐

好了，基础部分说完了，下面是一些真正能让你效率翻倍的技巧。

技巧一：学会用好 Plan Mode

我前面已经提过 Plan Mode，但这里还是要再说一遍，因为它真的太重要了。

任务越复杂，越值得先开 Plan Mode 确认方案再执行。具体来说，这些场景特别适合：

任务涉及多个文件的改动
需求本身还没想清楚
从零开发某个功能或 Skill

[ ]

你想想看，如果你让 Codex 直接开干，干到一半发现方向跑偏了，你还得让它停下来、调整、再重新开始——这其实比一开始就用 Plan Mode 花的时间更多。

Plan Mode 的本质是一个「决策缓冲」，它帮你省下的不是几分钟，而是一次方向性错误的返工时间。

一个分叉的思维导图式画面，左侧多条路径逐渐变淡消失并标记错误符号，右侧一条清晰的主路径闪闪发光延伸向前，整个场景是一个AI助手正在帮助用户做出关键决策的瞬间。

技巧二：多任务并行执行

Codex 支持同时开启多个任务，甚至可以跨项目并行推进。每个对话的状态都会在侧边栏实时显示，任务完成后会出现蓝点提示。

[ ]

这个怎么用呢？比如你同时在跑一个网站开发项目和一个数据分析项目，你可以开两个窗口各自跑，中间不需要等待，它们各自独立执行。

甚至同一个项目里，你也可以同时开多个会话分别处理不同的功能模块——前面我说建议一个会话只推进一个方向，但没说只能开一个会话啊，多个会话同时跑，效率自然就上去了。

技巧三：4个宝藏命令

Codex 内置了几个特别有意思的命令，用好它们体验会完全不一样。

/side——侧边对话。

在项目级会话的主线程正在运行时，开启一个临时的侧边对话，用于快速提问或确认某个细节。不需要中断主线程的进度，随时开随时关。

[ ]

比如主线程正在帮你开发一个功能模块，突然你想确认一下之前某个函数的逻辑细节，直接开一个 /side 问一句就行，问完关掉，主线程继续跑，两不耽误。

/pet——桌面宠物。

这个是我最喜欢的功能之一。在电脑屏幕上开启一个桌面宠物，它会实时显示当前任务的执行状态，让你在做其他事情的同时也能随时掌握 Codex 的进展。

[ ]

怎么说呢，这个功能虽然听起来有点可爱得过分了，但用起来是真的方便。尤其是你在 Codex 跑一个长任务的时候，你不需要一直盯着对话窗口，宠物会告诉你进度。

/status——状态查询。

在会话里随时查询你的上下文使用情况和额度消耗情况。帮你搞清楚当前会话消耗了多少、还剩多少，不至于跑到一半发现额度用完了。

[ ]

/goal——目标驱动。

设定一个明确的目标，让 Codex 自己朝着目标不断努力。这是最强大的命令之一，它本质上把 Codex 从一个「听话的工具」变成了一个「有自主判断能力的代理」。

一个好的 /goal 提示词应该包含这些要素：

/goal 达成 <你希望 Codex 最终完成的目标>，并通过 <具体可验证的证据> 来确认结果有效，同时保持 <必须遵守的限制条件> 不被破坏。只能使用 <允许使用的输入、工具、文件范围或操作边界>。在每一轮迭代之间，Codex 需要根据 <如何判断下一步最优行动> 来选择下一步。如果遇到阻塞，或者已经没有有效路径可以继续尝试，Codex 必须停止，并报告 <已经尝试过的方法、已获得的证据、当前阻塞点，以及还需要什么信息或权限才能继续推进>。

你看，这套框架其实就是一套完整的 Agent 运行逻辑。给它目标，给它边界，给它判断标准，然后放手让它干。

技巧四：Steer 插入机制

这个技巧解决了一个很实际的痛点：Codex 正在执行任务的时候，你突然想加个指令或者微调一下需求，怎么办？

普通做法是等它跑完再说，但如果有即时需求呢？输入新指令后点击 Steer（或者 Mac 快捷键 Cmd + Enter），指令会立即插入当前任务的上下文，而无需中断正在进行的工作。

[ ]

这个特别适合运行途中发现需要微调的场景。比如 Codex 正在帮你整理一个文档，你突然想加一个章节，直接 Steer 插入，它就会把这个需求合并到当前的执行计划里，灵活调整，而不是从头开始。

写在最后

好了，基础部分到这里就差不多了。

怎么说呢，Codex App 这东西，你说它是工具，我觉得不太准确。它更像是你电脑里的一个超级员工——能读文件、能上网、能操控软件、能自动干活。

它不是一个在云端飘着的聊天机器人，而是一个真真切切坐在你电脑前帮你工作的数字助手。

这篇文章的目的是帮你建立对 Codex 的基本认知，把界面、功能、设置、技巧这些框架性的东西梳理清楚。看完之后你应该能顺利上手用它了。

但说实话，这只是开始。

Agent 这个方向的东西，入门靠的是教程，深入靠的是自己用。不同的使用场景、工作流程、需求组合，每个人的玩法都不一样。

这篇文章是一个起点。

我自己用了这段时间下来最大的感受是——AI Agent 这件事真的在从「玩具」变成「工具」了。以前我们说AI能做什么，好像都是在说AI的「智力」部分，但现在Codex展示的是AI的「行动力」——它不只帮你想，它还帮你做。

一位年轻女性创作者在工作台前专注工作，左边角落有一个可爱的玩具机器人（代表过去的AI玩具时代），右边工作台上是各种真实工具如扳手和螺丝刀（代表真正的AI工具能力），她的双手正在键盘上敲打，周围环绕着正在被创建的数字作品。

这个转变，我觉得是接下来几年里最值得关注的事情之一。

好了，以上就是今天的分享。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

/ 作者：卡兹克 / 投稿或爆料，请联系邮箱：wzglyay@virxact.com