← 返回文章列表
查看 ↗

Codex App作为目前最为强大的 AI Agent产品之一

一位年轻创业者坐在被数字信息包围的工作室里,左手边是一个巨大的发光AI聊天气泡(象征ChatGPT),右手边是一个正在操控真实电脑桌面的机械手臂机器人(象征Codex App),气泡里写着空洞的建议,而机械手正在真实地整理文件、敲击键盘,周围漂浮着各种工作文档和文件夹,整体表达AI从动嘴顾问到动手员工的转变。

说真的,前几天有个朋友问我,你有没有觉得现在的AI工具都挺鸡肋的,问啥都能聊两句,但真让它干点活就抓瞎了。

两个年轻人在咖啡馆对话,其中一人满脸困惑地看着手机屏幕上显示的各种AI对话界面,另一人无奈地摊开双手,桌上放着半凉的咖啡和一台打开的笔记本电脑,背景是模糊的城市街景和飘散的AI应用图标。

我懂他意思。

ChatGPT也好、Claude也好,用起来确实是方便,但你有没有发现,它们永远只能「告诉你怎么做」,而不会「替你去做」。让你写个文案,它能给你扔出来,但帮你把文案存到本地、命名好、再发到对应的平台?不好意思,这得你自己来。

怎么说呢,这种割裂感其实挺难受的。就好像你雇了个参谋,能力很强,但永远只动嘴不动手。

直到我开始用 Codex App。

坦白讲,最开始我没当回事,不就是个桌面应用吗,能有多神?但用了一段时间之后,我必须得说——这玩意是真的不一样。

怎么说呢,它不是来回答你问题的,它是来帮你把事情办成的。

这篇文章,我不打算写成说明书给你念功能列表。我想用最直白的大白话跟你聊聊,Codex App 到底是什么、能做什么、以及怎么用好它。

看完之后,你对AI Agent这件事的认知,可能会有一个质的飞跃。


一、Codex App 是什么?

先说个背景。Codex App 是 OpenAI 推出的 AI Agent 桌面应用。注意,不是网页版,不是浏览器插件,是一个真真切切装在你电脑里的桌面程序。

这里有个特别关键的认知转换。

过去的AI,比如ChatGPT,它本质上是一个「问答机器」。你问,它答,答案停留在聊天框里,你得自己拿走、自己执行。AI扮演的角色,是顾问。

但 Codex App 不一样。它是一个能「坐在你电脑前帮你干活」的员工。你给它一个目标,它自己拆解、自己执行、自己交付结果——中间几乎不需要你插手。

比如,你跟它说「帮我看看这个项目里哪些代码可以优化」,它会直接打开你的文件夹,读取代码文件,分析,生成改进建议,甚至直接帮你改掉。全程不需要你手动上传文件,不需要你复制粘贴,它就像一个真实的人类员工一样在操作你的电脑。

这种感觉,我跟你说,第一次体验的时候还是挺震撼的。

它具体能做到的事情,我大概列一下:

深度读写本地文件。 它可以直接查看、修改、整理你电脑里的文件夹与项目目录。绑定了项目之后,它知道你项目里有什么文件,结构是怎样的,可以直接读写。

联网搜索实时信息。 它有内置的全功能浏览器,不需要切出应用,就能在 App 内部搜索、浏览、汇总网页信息。

像人一样操控软件。 它拥有视觉感知能力,能实时识别复杂的软件界面,操作电脑上的各类 App。

生成多维工作成果。 自动生成文档、图片、网页、代码等各类结果,并支持实时预览。

无缝连接外部工具。 通过插件直接连接你的 Gmail 邮箱、Notion 笔记、Google Drive 网盘等应用。

后台自动化。 设置好定时任务后,可以在电脑后台自动帮你执行重复性工作。

你看,一个能做这么多事情的东西,它叫Agent,中文翻译过来就是「代理」或者「智能体」。简单理解,就是一个被AI驱动、可以自主行动的数字员工。


二、它和 ChatGPT 到底有什么区别?

其实这个问题可以用一句话回答——

ChatGPT住在云端,Codex住在你的电脑里。ChatGPT给你答案,Codex帮你办事。

但光说这句话可能还不够清晰,我展开讲讲。

第一个区别:本地化。

ChatGPT是云端应用,你想让它处理文件,必须手动上传,下载结果也得自己来。但Codex直接就在你本地运行,可以直接读写本地文件,不存在上传下载这个步骤。

打个比方,ChatGPT像是租了个服务器,你得把文件上传到那个服务器上去处理。Codex呢,就是在你家开了个办公室,所有事情就地解决。

第二个区别:执行能力。

这是最核心的区别。

ChatGPT能给你一个完美的方案,但方案的执行必须由你来完成。Codex不一样,它能直接把事情办了——写代码、保存代码、部署上线,全部自主完成,你只需要告诉它你想要什么。

所以我更愿意这么理解:ChatGPT是你最好的军师,而Codex是你最拼命的员工。军师给你出主意,员工帮你干活。

那有人可能会说,员工干活出错了怎么办?这个确实是需要考虑的问题,所以后面我会讲到它的权限控制系统,这是一个很聪明的设计。


三、先别急,在开始之前——安装这件事

安装其实非常简单,没啥坑,但我还是简单说两句,省得有人卡在第一步。

打开Codex官网( https://developers.openai.com/codex/app )进行下载,它支持 Mac 和 Windows,根据自己的电脑选对应的安装包就行。

一只手用鼠标点击浏览器中的Codex下载按钮,浏览器窗口显示OpenAI开发者官网界面,桌面背景是整洁的Mac风格工作界面,整个场景聚焦在下载安装这一关键动作上。

登录账号这里,用你的 ChatGPT 账号直接登录就行。免费版有少量额度,但坦率的讲,如果你真的想认真用起来,建议还是以 Plus 会员为起步——免费额度大概几次对话就用完了,不够玩的。


四、核心功能解析——界面和布局

进入 Codex App 之后,你看到的主界面大概长这样,主要分为两个区域:左侧导航栏和中间工作区。

[ ]

先说左侧导航栏,这里是你和 Codex 交互的核心入口。

顶部栏是两个重要功能:Plugins 和 Automations。Plugins(插件)里包括 plugin 和 skill,主要用于扩展 Codex 的能力边界。Automations(自动化)用于设置定时任务。

中间对话区分为两个部分:项目区域和普通对话区域。简单说,项目对应本地的一个文件夹,适合有明确目标的任务;普通对话不绑定文件夹,适合零散的问答和临时需求。

底部设置用于全局基础配置,这个后面会细说。

中间的工作区就是你跟 Codex 聊天的主战场了,所有任务都从这里发起。


五、核心功能解析——项目和对话

这里必须得说清楚一件事,因为很多人刚开始用的时候会困惑。

Codex 有两种开启会话的方式:项目普通对话,它们本质上是不同的。

项目:绑定本地文件夹的会话。

当你创建一个项目的时候,你需要指定一个本地文件夹作为这个项目的「工作目录」。之后 Codex 在这个项目里产生的所有对话,都可以直接读写这个文件夹里的文件。

所以,项目更适合有明确目标的任务。比如你要开发一个网站,你建一个项目,绑定你的项目文件夹,Codex 就能直接帮你读写代码文件、改配置、跑测试——你告诉它你想做什么,剩下的它来。

开启方式很简单,点击左侧栏 projects 旁边的「+」图标,支持新建文件夹和选择现有文件夹两种方式。

[ ]

这里有个使用习惯的建议,来自于我自己的踩坑经验。

保持会话结构清晰非常重要,具体来说主要是两点:

  • 本地文件夹清晰,不同文件夹对应不同主题。
  • 同个项目下一个会话只推进一个方向。比如你要开发一个网站,不同的功能模块建议各开一个会话,不要混在一起。执行效果更好,也方便后期回溯查看。

你想想看,如果你一个会话里又是首页功能又是支付模块又是后台管理,聊到后面自己都分不清哪些改动对应哪个需求了,那叫一个乱。

普通对话:不绑定本地文件夹。

普通对话适合那些不需要操作文件的临时需求,比如查个资料、问个问题、让 Codex 帮你写一段文案之类的。没有文件夹绑定的负担,随用随开,用完即抛。


六、核心功能解析——Plugins 和 Skills

这是 Codex 扩展能力的关键功能。

点击左侧栏的 Plugins,你会看到两个概念:PluginsSkills

Plugins 是给 Codex 接外部工具的安装包。

简单理解,就是让 Codex 能够操控其他应用的接口。它本质上是一套工具连接器,让 Codex 有了「操作其他 App」的能力。

举例来说:

  • Gmail 插件:让 Codex 可以读取和管理你的邮件。
  • Google Drive 插件:让 Codex 可以读取和编辑你的 Docs、Sheets、Slides。
  • Vercel 插件:让 Codex 可以直接将你的项目部署上线。

[ ]

当你安装了对应的插件之后,你就可以在对话里直接让 Codex 去操作这些服务了,比如「帮我把最近的邮件按重要程度排个序」「把这个项目部署到 Vercel 上」,它真的会去执行,不需要你手动操作。

Skills 是可复用的任务指令。

如果说 Plugins 是帮 Codex 装上了手和脚,那 Skills 就是教它遇到某类任务时该怎么做。它是可复用的指令模板,Codex 学会之后,遇到类似任务就能自动调用。

比如内置的 Image Gen skill,就是让 Codex 直接具备生成或编辑图片的能力。你不需要每次都详细描述图片生成流程,告诉它「帮我生成一张图」就够了,它知道该怎么做。

[ ]


七、核心功能解析——自动化

这个功能我觉得是被很多人低估了的。

自动化让 Codex 按照你设定的时间在后台自动执行任务。它特别适合那些需要定期执行的重复性工作——比如每天早上的邮箱汇总、定时信息监控、股票日报生成,这些事情你以前得每天手动去做,现在设置一次就行了。

设置方式巨简单,你甚至不需要去翻什么文档或者教程,直接用自然语言跟 Codex 说就行。

比如你可以跟它说:

新建一个自动化,每天早上 9 点查看我的 Gmail 邮箱,把重要邮件总结到目前的聊天会话里。

它就会自己把这件事记下来,到点自动执行。你人不在电脑前也没事,它在后台跑,跑完了通知你。

[ ]

这个功能对于做自媒体、做运营的人来说其实特别实用。比如你可以设置一个自动化,每天下午 5 点自动抓取你关注的几百个热点新闻,汇总成一份简报发给你。每天省下来二三十分钟是有的。


八、核心功能解析——聊天区的那些功能按钮

Codex 在对话输入这块做了很多细节设计,很多人第一次用的时候可能直接忽略了,这里我帮你们过一遍最重要的几个。

Codex App的对话界面特写,展示多个智能提示气泡和快捷指令标签浮在输入框上方,像小鱼一样游动的小图标代表各种快捷方式,光标在输入框中闪烁,整体呈现流畅的对话交互设计。

1. Plan Mode:先想清楚再动手

这个功能简单说,就是让 Codex 先给你制定一个详细的执行方案,等你确认之后再去执行。

适合任务较复杂的情况下开启。比如一个任务涉及多个文件的改动,或者你需求本身还没完全想清楚,从零开发某个功能的时候——先开个 Plan Mode 让 Codex 给你画个路线图,确认没问题了再让它动手,避免走弯路。

[ ]

怎么用呢?开启之后,Codex 会先输出它的执行计划,列出每一步要做什么,然后等你点确认,才会真正开始执行。这个交互设计其实挺聪明的,它解决了一个根本矛盾——AI 自动执行效率高,但风险也高;人审核确认安全,但频繁打断又影响效率。Plan Mode 就在两者之间找了个平衡。

2. 权限模式:决定它能走多远

每次发起对话前,在输入框左下角可以选择权限级别,共三档。我一个个说:

Default 默认模式: 仅限当前工作区,Codex 如果需要越界(比如访问网络或工作区外的文件),会暂停并询问你确认。

Auto-review: 边界与默认模式相同,但越界请求由 AI 自动审查决策,不需要你手动确认,不打断工作流。这个模式我日常用得最多。

Full access: 移除所有边界限制,Codex 可以访问任意文件和网络,直接执行,不做任何中断。

[ ]

日常使用的话,我推荐选 Auto-review。怎么说呢,安全相对可控,也不会频繁被打断影响进度。如果你刚开始用,心里没底,用 Default 也没问题,就是可能会多一些确认弹窗。

3. 模型和推理程度选择

Codex 支持不同模型和推理程度的选择,这个大家应该比较熟悉了。

推荐的用法是:日常任务用 GPT 5.5 Medium,复杂任务用 GPT 5.5 Extra High。这个不用多解释,复杂任务需要更深度推理的时候就调高,简单任务没必要浪费额度。

[ ]

4. 输入框快捷符号

这个是很多人会忽略但非常好用的功能。在对话输入框里,有三个符号可以快速触发不同功能:

「@」符号: 支持选择调用已安装的插件,或者引用具体文件作为上下文。输入 @ 会弹出一个列表,直接选就行,不需要你记住插件的名字。

[ ]

「/」符号: 唤出命令菜单,可执行内置命令。你已经安装的 Skills 也会出现在这个列表里。相当于一个快捷启动器。

[ ]

「$」符号: 显式调用某个 Skill。比如输入 $imagegen 就可以直接触发图片生成功能。这是最直接的方式。

[ ]

这三个符号用熟练了之后,交互效率会高很多。尤其是 @ 和 /,我基本每次对话都会用。


九、推荐设置——正式使用前必做的配置

好了,前面都在讲功能和概念,接下来是实战部分。

我建议你在正式开始使用之前,把下面这4个基础设置配好,配好之后用起来才会顺。

点击左下角的设置图标进入配置页面。

第一,权限设置里勾选 Auto-review 和 Full access。

这个主要是为了方便你在不同对话里随时调整权限模式。提前勾选好,后面切换起来不用再回来改设置。

[ ]

第二,开启「防止电脑在 Codex 运行时睡眠」选项。

这个太重要了。如果你用的是笔记本电脑,或者电脑设置了息屏休眠,当 Codex 正在执行一个需要一定时间的任务时,如果电脑突然睡眠了,任务就会被中断。

开启这个选项之后,Codex 运行期间你的电脑会保持唤醒状态,不会因为超时而打断任务。

[ ]

第三,配置全局指令(Agents.md)。

在个性化设置的自定义指令里,你可以写一段你希望 Codex 长期遵守的背景信息和规则。相当于给它一个「永久记忆」,让它每次对话的时候都知道你是谁、你有什么偏好、你应该怎么工作。

建议的内容包括:

  • 你的身份与偏好: 比如你的日常工作角色、常用的软件工具。
  • 输出内容的格式要求: 比如「回答一律使用中文」「文风保持简洁克制」。
  • 行事准则: 比如「避免过度设计,只做必要改动」。

[ ]

这个东西配置好之后,你的 Codex 会变得特别懂你。用得越久,它对你的理解就越深,后面越来越顺手。

第四,开启记忆功能。

在个性化设置里找到记忆功能开关,开启它。开启之后 Codex 会自动从对话中学习你的偏好,在使用过程中变得越来越懂你。

[ ]

这个功能某种程度上有点像你在训练一个专属的AI助手。给它时间让它了解你,它会用得越来越顺手。


十、超级实用技巧推荐

好了,基础部分说完了,下面是一些真正能让你效率翻倍的技巧。

技巧一:学会用好 Plan Mode

我前面已经提过 Plan Mode,但这里还是要再说一遍,因为它真的太重要了。

任务越复杂,越值得先开 Plan Mode 确认方案再执行。具体来说,这些场景特别适合:

  • 任务涉及多个文件的改动
  • 需求本身还没想清楚
  • 从零开发某个功能或 Skill

[ ]

你想想看,如果你让 Codex 直接开干,干到一半发现方向跑偏了,你还得让它停下来、调整、再重新开始——这其实比一开始就用 Plan Mode 花的时间更多。

Plan Mode 的本质是一个「决策缓冲」,它帮你省下的不是几分钟,而是一次方向性错误的返工时间。

一个分叉的思维导图式画面,左侧多条路径逐渐变淡消失并标记错误符号,右侧一条清晰的主路径闪闪发光延伸向前,整个场景是一个AI助手正在帮助用户做出关键决策的瞬间。

技巧二:多任务并行执行

Codex 支持同时开启多个任务,甚至可以跨项目并行推进。每个对话的状态都会在侧边栏实时显示,任务完成后会出现蓝点提示。

[ ]

这个怎么用呢?比如你同时在跑一个网站开发项目和一个数据分析项目,你可以开两个窗口各自跑,中间不需要等待,它们各自独立执行。

甚至同一个项目里,你也可以同时开多个会话分别处理不同的功能模块——前面我说建议一个会话只推进一个方向,但没说只能开一个会话啊,多个会话同时跑,效率自然就上去了。

技巧三:4个宝藏命令

Codex 内置了几个特别有意思的命令,用好它们体验会完全不一样。

/side——侧边对话。

在项目级会话的主线程正在运行时,开启一个临时的侧边对话,用于快速提问或确认某个细节。不需要中断主线程的进度,随时开随时关。

[ ]

比如主线程正在帮你开发一个功能模块,突然你想确认一下之前某个函数的逻辑细节,直接开一个 /side 问一句就行,问完关掉,主线程继续跑,两不耽误。

/pet——桌面宠物。

这个是我最喜欢的功能之一。在电脑屏幕上开启一个桌面宠物,它会实时显示当前任务的执行状态,让你在做其他事情的同时也能随时掌握 Codex 的进展。

[ ]

怎么说呢,这个功能虽然听起来有点可爱得过分了,但用起来是真的方便。尤其是你在 Codex 跑一个长任务的时候,你不需要一直盯着对话窗口,宠物会告诉你进度。

/status——状态查询。

在会话里随时查询你的上下文使用情况和额度消耗情况。帮你搞清楚当前会话消耗了多少、还剩多少,不至于跑到一半发现额度用完了。

[ ]

/goal——目标驱动。

设定一个明确的目标,让 Codex 自己朝着目标不断努力。这是最强大的命令之一,它本质上把 Codex 从一个「听话的工具」变成了一个「有自主判断能力的代理」。

一个好的 /goal 提示词应该包含这些要素:

/goal 达成 <你希望 Codex 最终完成的目标>,并通过 <具体可验证的证据> 来确认结果有效,同时保持 <必须遵守的限制条件> 不被破坏。只能使用 <允许使用的输入、工具、文件范围或操作边界>。在每一轮迭代之间,Codex 需要根据 <如何判断下一步最优行动> 来选择下一步。如果遇到阻塞,或者已经没有有效路径可以继续尝试,Codex 必须停止,并报告 <已经尝试过的方法、已获得的证据、当前阻塞点,以及还需要什么信息或权限才能继续推进>

你看,这套框架其实就是一套完整的 Agent 运行逻辑。给它目标,给它边界,给它判断标准,然后放手让它干。

技巧四:Steer 插入机制

这个技巧解决了一个很实际的痛点:Codex 正在执行任务的时候,你突然想加个指令或者微调一下需求,怎么办?

普通做法是等它跑完再说,但如果有即时需求呢?输入新指令后点击 Steer(或者 Mac 快捷键 Cmd + Enter),指令会立即插入当前任务的上下文,而无需中断正在进行的工作。

[ ]

这个特别适合运行途中发现需要微调的场景。比如 Codex 正在帮你整理一个文档,你突然想加一个章节,直接 Steer 插入,它就会把这个需求合并到当前的执行计划里,灵活调整,而不是从头开始。


写在最后

好了,基础部分到这里就差不多了。

怎么说呢,Codex App 这东西,你说它是工具,我觉得不太准确。它更像是你电脑里的一个超级员工——能读文件、能上网、能操控软件、能自动干活。

它不是一个在云端飘着的聊天机器人,而是一个真真切切坐在你电脑前帮你工作的数字助手。

这篇文章的目的是帮你建立对 Codex 的基本认知,把界面、功能、设置、技巧这些框架性的东西梳理清楚。看完之后你应该能顺利上手用它了。

但说实话,这只是开始。

Agent 这个方向的东西,入门靠的是教程,深入靠的是自己用。不同的使用场景、工作流程、需求组合,每个人的玩法都不一样。

这篇文章是一个起点。

我自己用了这段时间下来最大的感受是——AI Agent 这件事真的在从「玩具」变成「工具」了。以前我们说AI能做什么,好像都是在说AI的「智力」部分,但现在Codex展示的是AI的「行动力」——它不只帮你想,它还帮你做。

一位年轻女性创作者在工作台前专注工作,左边角落有一个可爱的玩具机器人(代表过去的AI玩具时代),右边工作台上是各种真实工具如扳手和螺丝刀(代表真正的AI工具能力),她的双手正在键盘上敲打,周围环绕着正在被创建的数字作品。

这个转变,我觉得是接下来几年里最值得关注的事情之一。

好了,以上就是今天的分享。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

/ 作者:卡兹克 / 投稿或爆料,请联系邮箱:wzglyay@virxact.com

查看文章页 ↗