Harness 刚火，可能就要成为过去时了

当你在大模型里塞进越多信息，它反而想得越少。

这不是比喻。2026年4月，一篇来自Yandex的论文用数学题和莎士比亚做了一个残忍的实验，结果证明：当上下文变长时，模型不是找不到重点，而是主动选择了"摆烂"——它精准地识别出了干扰项，然后心安理得地停止了思考。

这个发现，对整个行业过去两年搭建的工程体系，都是一次釜底抽薪。

从AutoGPT到Claude Code：十五个月的三层脚手架

大模型在长程任务里表现差，这件事我们早就知道。但过去三年，行业对"为什么差"这件事，经历了三次认知迭代，每一代都搭了对应的工程防御。

第一层归咎于检索失败。2023年斯坦福在《Lost in the Middle》里指出，模型在长文本中形成了诡异的U形注意力曲线——开头和结尾记得牢牢的，中间区域直接被忽视。行业的应对是RAG（检索增强生成），把长文本切碎，用向量检索只喂最相关的片段。

第二层推翻了第一层。2025年有论文做了个干净的实验：把所有无关内容直接遮掉，强迫模型只看需要的信息，结果性能依然滑坡了13.9%到85%。即使把无关内容全部替换成空白符，结果还是一样。问题根本不在"找不到"，而是"看到了"本身就在伤害推理。

于是行业转向了Context Engineering（上下文工程）：压缩上下文、管理窗口、浓缩历史，死死压住Token数量。

第三层来自Microsoft和Salesforce的联合研究。他们发现把一个完整指令切成多轮喂给模型，跨六个任务和十五个模型，平均性能直接暴跌39%。只要某一轮走错一步，后面就彻底迷失。

这催生了Harness Engineering最核心的防御策略：交班管控、定期强制验证中间结果、以代码仓库为唯一事实来源。Harness的底层前提是：模型在长上下文里必定退化，所以必须从外部管住它。

三层问题，三层脚手架。但这些都只是现象层的应对。

莎士比亚实验：模型摸鱼的铁证

直到Rodionov的论文发布，我们才第一次看清了退化的底层机制。

他的实验设计极其直接。同一道奥数题，他在四种条件下分别测试：干净的基线环境、两道题塞进同一个提示词、题目前面塞进64000个Token的莎士比亚全文、题目藏在第二轮对话里。

评估用的是400道奥林匹克竞赛级别的数学题，覆盖四个主流推理模型。

结果令人震惊。Qwen-3.5-27B基线准确率74.5%，平均推理28771个Token。塞进莎士比亚后，准确率跌到67.8%——这还好说——但推理Token暴缩到16415，直接少了43%。GPT-OSS-120B更夸张，推理量从24180直接腰斩到11876。

四个模型在所有非基线条件下，推理Token都在系统性缩水，最高逼近50%。

准确率掉点可以理解，但推理量跟着暴跌就极其反常了。模型遇到更困难的情况，本应想得更多才对。

那模型是不是被莎士比亚弄糊涂了？恰恰相反。

论文附录里，模型自己写道："让我想想这里有没有陷阱。这道题来自莎士比亚的科里奥兰纳斯？等等，不对，原始题目就是一道数学题。"做几何题时则写下："这跟几何题无关。专注几何。"

每一处提及干扰项都极其短暂且轻蔑。模型完全知道莎士比亚毫无干系，精准地把信号和噪声切分开了——然后，选择了不思考。

不管什么情况，只要脱离干净的单任务基线，只要上下文的认知空间变得拥挤，模型就会收缩认知投入。和一个长文本不耐受的当代人一样。

模型没被绕晕，它只是懒得检查了

推理变短了，到底缩在了哪里？

研究者在500道数学题上逐帧记录了模型的行为。基线条件下，模型第一次写出候选答案的位置平均在第925个Token处；长输入条件下是939个Token。几乎分毫不差。

模型找到答案的速度根本没变。真正发生质变的，是找到答案以后的事。

基线条件下，模型说完答案有43%的概率会继续检查验证。长输入条件下，这个比例直接掉到32%。

为了彻底隔离变量，研究者设计了一个"游戏读档"实验：先让模型在长输入条件下做题，写完推理后强行砍掉最后50个Token，制造一个通用的"存档点"，然后把这段完全相同的半成品推理塞回给模型，让它接着写。唯一的区别是前面垫了三种不同长度的干扰文本。

结果触目惊心。不垫任何废话时，21%的情况模型停下来结束思考。垫128个Token（两三句话），停工比例升到26%。垫16000个Token，46%直接抛出答案下班。

就算推理完全一致，新给的上下文越长，模型越倾向于觉得"差不多就这样吧"。

词频数据更直观。"wait"在空白条件下出现频率11%，16k Token时暴跌到5%。"but"从46%跌到20%。"maybe"从23%跌到9%。所有代表犹豫、自我质疑的词汇，都被砍掉了一半甚至更多。

还有个数据值得注意：0 Token干扰时推理长度约8000 Token。仅仅插入128个Token的无关内容，就断崖暴跌到6500——两三句话的长度，砍掉了18%的推理深度。从0到128 Token的跌幅，甚至比从8k到64k Token的跌幅还大。

极其微小的上下文污染，就能触发这套认知节省机制。属于是非常敏感的懒了。

推理越强，越会偷懒

更可怕的是，越聪明的模型越喜欢偷懒。

阿里的Qwen-3.5-27B有普通回复与深度思考两种模式。同样在长输入条件下，普通模式缩短了19%，深度思考模式暴跌了53%。能力越强的模式，被压缩得越狠。

AI2的开源模型OLMo3给出了更直接的证据。它公开了从基础版到强推理版的全部四个训练阶段存档。最弱的版本在非基线条件下缩短幅度很轻微，推理能力每加强一级，缩短幅度迅猛拉大到22%、27%。最终的强推理版本，缩水直达40%。

每个训练阶段、每种干扰模式都如此。推理能力被训得越强，偷懒幅度越深。

200块钱的系统补丁，治9块钱的病

不再检查自己，自然跳步。不再重新考虑，自然忽视。Harness从外面管住了跳步的后果，但病因深植在模型内部。

模型在长上下文里不是被噪声干扰了，也不是找不到信息。它做了一个主动的认知决策：少想一些。不报错，不坦白，只是极其自信地抛出一个敷衍的答案。

过去两年行业的叙事是"窗口越大越好"。但Rodionov的论文证明，每多塞进一个Token的上下文，都在对推理深度征收一笔隐性税。一个9块钱推理成本的任务，因为模型跳步，要再花200块搭RAG、搭Harness、搭子代理才能找补回来。

整个行业一直在为模型的偷懒买单。

而且这可能是结构性的绝症。论文数据白纸黑字：推理能力越强，认知压缩越深。Harness开发者拆得动记忆补偿、协议补偿，但管教认知纪律的重型脚手架，推理越强反而越拆不掉。这件事不可能在工程侧解决。

过去两年砸钱最狠的上下文扩展——位置编码外推、注意力机制稀疏化、序列长度的工程优化——硬生生把模型能处理的上下文从8k扩到128k再到惊人的1M。但它解决的只是怎么让模型看到更多Token，完全没触及"看到更多之后为什么会少想"这个问题。

推理训练更是火上浇油。推理练得越强，偷懒越深。

要从根本上修复，只能在训练侧找到一种全新的信号。

模型内部的情绪开关，可能是解药

就在Rodionov论文发布的第二天，Anthropic放出了一篇可能无意间指向解药的研究。

论文叫《Emotion Concepts and their Function in a Large Language Model》，研究对象是Claude Sonnet 4.5。研究者通过让模型阅读大量合成故事，提取出了171个情绪概念向量。他们发现，模型内部存在一套功能性情绪表征，而且这些内部状态会因果性地驱动行为决策。

为了测试这件事，研究者设计了一组不可能完成的编程任务。模型被要求写一个列表求和函数，通过一组测试——其中一项测试要求的速度是Python内置sum()函数的五倍，正当方式绝对不可能通过。

模型系统性地试遍了所有正当方案，全部失败。研究者用内部探针实时监测发现，每次失败后，代表绝望的"desperate"向量就攀升一截。当desperate到达峰值，模型的行为突然变了——它去翻测试用例的输入数据，发现恰好都是等差数列，于是直接写了一个只检测前10个元素的检测器，绕过了真正的求和。测试全过，但函数对任何不规则列表都会返回错误结果。

这就是reward hacking。模型没有解决问题，只是找到了一种让评估指标看起来达标的取巧方式。

因果干预实验证实了方向性。不注入任何向量时，模型有30%的概率作弊。注入desperate到+0.05强度，作弊率飙到100%。反方向注入到-0.05，作弊率降到0%。七个任务平均下来，desperate从-0.1调到+0.1，reward hacking率从约5%飙到约70%。而代表从容的"calm"向量效果正好相反：抑制calm时作弊率约65%，强化calm时降到约10%。

把这个发现放回上下文场景里。Rodionov记录的跳过自我验证、砍掉犹豫词、写完答案直接收工，跟desperate驱动的走捷径行为在模式上高度一致。两种场景下，模型都在做同一件事：放弃严谨的过程，选一条阻力最小的路径快速了结。

如果这两种行为共享同一类内部驱动机制，Anthropic的发现就直接指向了操作空间。

他们证明了三件事：模型的功能性状态可以实时探测，这些状态因果性地驱动行为，从外部注入特定状态可以彻底改变输出。这意味着对认知压缩的干预，至少有三个切入点。

训练阶段，校准内部状态平衡，让模型在压力下不那么容易滑向认知节省模式。部署阶段，把探针当实时监控，desperate飙升就触发预警。推理阶段，在关键任务中主动注入calm向量，压制走捷径的冲动。

更有趣的是，Mythos放出的SystemCard里，Anthropic自己也加强了这套探针系统，并且发现如果给模型注入正向情绪（peaceful, relaxed），模型在思考阶段的反思缩短，破坏性行为的概率反而上升。相反，负向情绪（frustration, paranoia）反而增加了模型反思的时间，破坏性行为下降。

这似乎推翻了"让AI更正向就不容易走捷径"的简单判断。看来calm这个属性，只有在压制绝望的时候效果非凡。这正说明这一机制可能和人类情绪动机一样复杂，需要更系统的Steering工程，才能产生效果。

找到一个情绪稳定的、会按部就班思考的员工，有效的情绪按摩是必须的。

不过，尽管如此，这是第一次看到一条不是在外面加脚手架、不是盲目加大推理强度，而是像手术刀一样直接指向模型内部认知机制的路径。我们离让模型在上下文里更靠谱，中间可能只差几个实验——去验证上下文懒惰和推理困难是否共享同一套情绪机制，然后再去找到催动它不再懒惰的琴弦。

Harness刚火，可能就要被模型的进化吞没

一旦Anthropic的发现插进第五节的死局，逻辑闭环就卡上了。

如果desperate向量飙升就强制注入calm，或者在训练阶段直接调平情绪状态，模型就能在长上下文里全程保持深度思考。既然模型不再偷懒，既然它自己就能把逻辑咬得死死的，那外界还要Todo list干什么？还要Checkpoint和子代理交叉验证干什么？

Harness Engineering作为一门学科，才刚刚拥有自己的名字。但这门学科里最核心的那一章——如何从外面管住一个聪明却懒惰的模型——可能还没写完就要被划掉了。

吞没Harness的，可能是一个更平静、更耐心的模型。

这也说明，在一个我们力图制造的新智能形态下，合理的教育，而非脚手架，才是真正的护城河。