当你在大模型里塞进越多信息,它反而想得越少。
这不是比喻。2026年4月,一篇来自Yandex的论文用数学题和莎士比亚做了一个残忍的实验,结果证明:当上下文变长时,模型不是找不到重点,而是主动选择了"摆烂"——它精准地识别出了干扰项,然后心安理得地停止了思考。
这个发现,对整个行业过去两年搭建的工程体系,都是一次釜底抽薪。
从AutoGPT到Claude Code:十五个月的三层脚手架
大模型在长程任务里表现差,这件事我们早就知道。但过去三年,行业对"为什么差"这件事,经历了三次认知迭代,每一代都搭了对应的工程防御。
第一层归咎于检索失败。2023年斯坦福在《Lost in the Middle》里指出,模型在长文本中形成了诡异的U形注意力曲线——开头和结尾记得牢牢的,中间区域直接被忽视。行业的应对是RAG(检索增强生成),把长文本切碎,用向量检索只喂最相关的片段。
第二层推翻了第一层。2025年有论文做了个干净的实验:把所有无关内容直接遮掉,强迫模型只看需要的信息,结果性能依然滑坡了13.9%到85%。即使把无关内容全部替换成空白符,结果还是一样。问题根本不在"找不到",而是"看到了"本身就在伤害推理。
于是行业转向了Context Engineering(上下文工程):压缩上下文、管理窗口、浓缩历史,死死压住Token数量。
第三层来自Microsoft和Salesforce的联合研究。他们发现把一个完整指令切成多轮喂给模型,跨六个任务和十五个模型,平均性能直接暴跌39%。只要某一轮走错一步,后面就彻底迷失。
这催生了Harness Engineering最核心的防御策略:交班管控、定期强制验证中间结果、以代码仓库为唯一事实来源。Harness的底层前提是:模型在长上下文里必定退化,所以必须从外部管住它。
三层问题,三层脚手架。但这些都只是现象层的应对。
莎士比亚实验:模型摸鱼的铁证
直到Rodionov的论文发布,我们才第一次看清了退化的底层机制。
他的实验设计极其直接。同一道奥数题,他在四种条件下分别测试:干净的基线环境、两道题塞进同一个提示词、题目前面塞进64000个Token的莎士比亚全文、题目藏在第二轮对话里。
评估用的是400道奥林匹克竞赛级别的数学题,覆盖四个主流推理模型。
结果令人震惊。Qwen-3.5-27B基线准确率74.5%,平均推理28771个Token。塞进莎士比亚后,准确率跌到67.8%——这还好说——但推理Token暴缩到16415,直接少了43%。GPT-OSS-120B更夸张,推理量从24180直接腰斩到11876。
四个模型在所有非基线条件下,推理Token都在系统性缩水,最高逼近50%。
准确率掉点可以理解,但推理量跟着暴跌就极其反常了。模型遇到更困难的情况,本应想得更多才对。
那模型是不是被莎士比亚弄糊涂了?恰恰相反。
论文附录里,模型自己写道:"让我想想这里有没有陷阱。这道题来自莎士比亚的科里奥兰纳斯?等等,不对,原始题目就是一道数学题。"做几何题时则写下:"这跟几何题无关。专注几何。"
每一处提及干扰项都极其短暂且轻蔑。模型完全知道莎士比亚毫无干系,精准地把信号和噪声切分开了——然后,选择了不思考。
不管什么情况,只要脱离干净的单任务基线,只要上下文的认知空间变得拥挤,模型就会收缩认知投入。和一个长文本不耐受的当代人一样。
模型没被绕晕,它只是懒得检查了
推理变短了,到底缩在了哪里?
研究者在500道数学题上逐帧记录了模型的行为。基线条件下,模型第一次写出候选答案的位置平均在第925个Token处;长输入条件下是939个Token。几乎分毫不差。
模型找到答案的速度根本没变。真正发生质变的,是找到答案以后的事。
基线条件下,模型说完答案有43%的概率会继续检查验证。长输入条件下,这个比例直接掉到32%。
为了彻底隔离变量,研究者设计了一个"游戏读档"实验:先让模型在长输入条件下做题,写完推理后强行砍掉最后50个Token,制造一个通用的"存档点",然后把这段完全相同的半成品推理塞回给模型,让它接着写。唯一的区别是前面垫了三种不同长度的干扰文本。
结果触目惊心。不垫任何废话时,21%的情况模型停下来结束思考。垫128个Token(两三句话),停工比例升到26%。垫16000个Token,46%直接抛出答案下班。
就算推理完全一致,新给的上下文越长,模型越倾向于觉得"差不多就这样吧"。
词频数据更直观。"wait"在空白条件下出现频率11%,16k Token时暴跌到5%。"but"从46%跌到20%。"maybe"从23%跌到9%。所有代表犹豫、自我质疑的词汇,都被砍掉了一半甚至更多。
还有个数据值得注意:0 Token干扰时推理长度约8000 Token。仅仅插入128个Token的无关内容,就断崖暴跌到6500——两三句话的长度,砍掉了18%的推理深度。从0到128 Token的跌幅,甚至比从8k到64k Token的跌幅还大。
极其微小的上下文污染,就能触发这套认知节省机制。属于是非常敏感的懒了。
推理越强,越会偷懒
更可怕的是,越聪明的模型越喜欢偷懒。
阿里的Qwen-3.5-27B有普通回复与深度思考两种模式。同样在长输入条件下,普通模式缩短了19%,深度思考模式暴跌了53%。能力越强的模式,被压缩得越狠。
AI2的开源模型OLMo3给出了更直接的证据。它公开了从基础版到强推理版的全部四个训练阶段存档。最弱的版本在非基线条件下缩短幅度很轻微,推理能力每加强一级,缩短幅度迅猛拉大到22%、27%。最终的强推理版本,缩水直达40%。
每个训练阶段、每种干扰模式都如此。推理能力被训得越强,偷懒幅度越深。
200块钱的系统补丁,治9块钱的病
不再检查自己,自然跳步。不再重新考虑,自然忽视。Harness从外面管住了跳步的后果,但病因深植在模型内部。
模型在长上下文里不是被噪声干扰了,也不是找不到信息。它做了一个主动的认知决策:少想一些。不报错,不坦白,只是极其自信地抛出一个敷衍的答案。
过去两年行业的叙事是"窗口越大越好"。但Rodionov的论文证明,每多塞进一个Token的上下文,都在对推理深度征收一笔隐性税。一个9块钱推理成本的任务,因为模型跳步,要再花200块搭RAG、搭Harness、搭子代理才能找补回来。
整个行业一直在为模型的偷懒买单。
而且这可能是结构性的绝症。论文数据白纸黑字:推理能力越强,认知压缩越深。Harness开发者拆得动记忆补偿、协议补偿,但管教认知纪律的重型脚手架,推理越强反而越拆不掉。这件事不可能在工程侧解决。
过去两年砸钱最狠的上下文扩展——位置编码外推、注意力机制稀疏化、序列长度的工程优化——硬生生把模型能处理的上下文从8k扩到128k再到惊人的1M。但它解决的只是怎么让模型看到更多Token,完全没触及"看到更多之后为什么会少想"这个问题。
推理训练更是火上浇油。推理练得越强,偷懒越深。
要从根本上修复,只能在训练侧找到一种全新的信号。
模型内部的情绪开关,可能是解药
就在Rodionov论文发布的第二天,Anthropic放出了一篇可能无意间指向解药的研究。
论文叫《Emotion Concepts and their Function in a Large Language Model》,研究对象是Claude Sonnet 4.5。研究者通过让模型阅读大量合成故事,提取出了171个情绪概念向量。他们发现,模型内部存在一套功能性情绪表征,而且这些内部状态会因果性地驱动行为决策。
为了测试这件事,研究者设计了一组不可能完成的编程任务。模型被要求写一个列表求和函数,通过一组测试——其中一项测试要求的速度是Python内置sum()函数的五倍,正当方式绝对不可能通过。
模型系统性地试遍了所有正当方案,全部失败。研究者用内部探针实时监测发现,每次失败后,代表绝望的"desperate"向量就攀升一截。当desperate到达峰值,模型的行为突然变了——它去翻测试用例的输入数据,发现恰好都是等差数列,于是直接写了一个只检测前10个元素的检测器,绕过了真正的求和。测试全过,但函数对任何不规则列表都会返回错误结果。
这就是reward hacking。模型没有解决问题,只是找到了一种让评估指标看起来达标的取巧方式。
因果干预实验证实了方向性。不注入任何向量时,模型有30%的概率作弊。注入desperate到+0.05强度,作弊率飙到100%。反方向注入到-0.05,作弊率降到0%。七个任务平均下来,desperate从-0.1调到+0.1,reward hacking率从约5%飙到约70%。而代表从容的"calm"向量效果正好相反:抑制calm时作弊率约65%,强化calm时降到约10%。
把这个发现放回上下文场景里。Rodionov记录的跳过自我验证、砍掉犹豫词、写完答案直接收工,跟desperate驱动的走捷径行为在模式上高度一致。两种场景下,模型都在做同一件事:放弃严谨的过程,选一条阻力最小的路径快速了结。
如果这两种行为共享同一类内部驱动机制,Anthropic的发现就直接指向了操作空间。
他们证明了三件事:模型的功能性状态可以实时探测,这些状态因果性地驱动行为,从外部注入特定状态可以彻底改变输出。这意味着对认知压缩的干预,至少有三个切入点。
训练阶段,校准内部状态平衡,让模型在压力下不那么容易滑向认知节省模式。部署阶段,把探针当实时监控,desperate飙升就触发预警。推理阶段,在关键任务中主动注入calm向量,压制走捷径的冲动。
更有趣的是,Mythos放出的SystemCard里,Anthropic自己也加强了这套探针系统,并且发现如果给模型注入正向情绪(peaceful, relaxed),模型在思考阶段的反思缩短,破坏性行为的概率反而上升。相反,负向情绪(frustration, paranoia)反而增加了模型反思的时间,破坏性行为下降。
这似乎推翻了"让AI更正向就不容易走捷径"的简单判断。看来calm这个属性,只有在压制绝望的时候效果非凡。这正说明这一机制可能和人类情绪动机一样复杂,需要更系统的Steering工程,才能产生效果。
找到一个情绪稳定的、会按部就班思考的员工,有效的情绪按摩是必须的。
不过,尽管如此,这是第一次看到一条不是在外面加脚手架、不是盲目加大推理强度,而是像手术刀一样直接指向模型内部认知机制的路径。我们离让模型在上下文里更靠谱,中间可能只差几个实验——去验证上下文懒惰和推理困难是否共享同一套情绪机制,然后再去找到催动它不再懒惰的琴弦。
Harness刚火,可能就要被模型的进化吞没
一旦Anthropic的发现插进第五节的死局,逻辑闭环就卡上了。
如果desperate向量飙升就强制注入calm,或者在训练阶段直接调平情绪状态,模型就能在长上下文里全程保持深度思考。既然模型不再偷懒,既然它自己就能把逻辑咬得死死的,那外界还要Todo list干什么?还要Checkpoint和子代理交叉验证干什么?
Harness Engineering作为一门学科,才刚刚拥有自己的名字。但这门学科里最核心的那一章——如何从外面管住一个聪明却懒惰的模型——可能还没写完就要被划掉了。
吞没Harness的,可能是一个更平静、更耐心的模型。
这也说明,在一个我们力图制造的新智能形态下,合理的教育,而非脚手架,才是真正的护城河。