原文标题:The Untrainable
原文作者:Sarah Guo,Conviction
原文编译:Peggy,欧意交易所
编者按:当 AI 能力持续跃迁,投资圈正在出现一种新的悲观判断:如果模型越来越强,所有应用公司终将被 Anthropic、OpenAI、Nvidia 这类模型与算力层吞噬,市场最后只剩下前沿模型、算力和少数基础设施。但 Sarah Guo 认为,这种判断只说对了一半。那些「thin wrapper」(薄包装,即简单套壳模型的应用)确实会被吸收,凡是能够被 benchmark(基准测试)衡量、被公开数据训练、被低成本验证的任务,也都会逐渐商品化。
真正的问题是:AI 吞噬一切可训练之物后,什么仍然不可训练?
本文的答案,是那些存在于真实组织内部、无法从外部轻易复制的价值:企业私有数据、复杂工作流、用户信任、系统权限、行业判断、合规责任,以及长期运行中积累出的经验。模型可以更聪明,却不能自动进入银行的生产系统;可以生成医疗答案,却不能直接获得医生的信任和医院的决策流程;可以写出法律文本,却不能替资深律师承担责任,也不能凭空定义什么才是合格的法律工作。
因此,未来真正有护城河的 AI 公司,不是简单地比通用模型更聪明,而是深入某个行业内部,完成艰难但关键的「翻译」工作:把客户的私有现实、工具、流程和判断标准整理成模型可以行动的系统,并在长期服务中逐渐写下「什么才算好结果」的定义。AI 越强,越会让可衡量、可复制的任务贬值;也越会凸显那些带有历史、关系、权限和专业判断的「不可训练之物」。这才是模型吞噬之后,仍然可能保留下来的真正价值。
以下为原文:
2026 年中,投资者版本的「AI 精神错乱」,是一种认为已经没有任何东西值得投资的绝望感:我们好像应该把所有钱都投给 Anthropic 和 Nvidia,然后回家睡觉。但我从来没有这种感觉。过去好几个小版本以来,我一直确信模型已经比我更聪明;如果按市场价格买入 Anthropic 和 Nvidia,我也会很乐意;我身边最聪明的朋友也都相当确信,模型的自我改进很快就会真正跑通——但我仍然没有这种绝望感。
这种绝望并不愚蠢。它的逻辑是这样的:如果模型在所有事情上都持续变强,那么所有建立在模型之上的公司,都只是等待被模型吸收的薄薄一层外壳;最终能保留下来的价值,只剩算力和前沿模型权重。
以软件为例,这是这种绝望感最依赖的案例。Devin 在 2024 年发布时,只能解决标准软件基准测试中 13% 的任务,因此大体上被市场轻视。一年半之后,最强的 Agent 已经能达到 80% 多的高分,并且开始在高盛和美国陆军内部处理真实工作。几乎所有人都得出了同一个错误结论:模型吞掉了软件工程。
但当模型吞下了软件工程中最容易被衡量的那部分之后,我们也在重新认识许多团队早就知道的一点:工程本来就一直抗拒衡量,而最容易被衡量的部分,未必就是唯一重要的部分。
MIT 的 Mert Demirer 及其合作者终于把这件事量化了:在超过 10 万名开发者中,最新一代编码 Agent 让代码编写量大约提升了 180%,但真正交付上线的代码量只提升了约 30%。写代码变便宜了,但剩下的环节仍然要经过人,而且这些环节很重要。当然,整体净影响依然惊人。
基准测试,是一种你可以衡量的东西;而任何可以被衡量的东西,都可以被拿来训练。因此,编码 Agent 最先成熟:编译器是免费的验证器,测试套件也是免费的验证器。当答案几乎可以零成本地自我检查时,你就可以围绕这个检查信号不断打磨,直到把它打穿。
但通过测试从来不意味着这个改动对一个已经运行了十年的代码库来说就是正确的。那个模块之所以存在,背后可能有三个没人写进文档的原因;部署流水线可能靠一个没人愿意承认是自己写的 cron job 勉强维持着。
这种正确性无法从排行榜上读出来,甚至也无法真正从任何东西里直接读出来。你只能让一个如此复杂的系统在真实世界里运行足够久,才能知道它是否真的有效。而更聪明的模型,并不会让真实世界运行得更快。没有人会给一个像 Google 这么大的系统跑完单元测试、看到绿色勾就完全放心。你之所以信任它,是因为它已经承受了多年真实负载。
这种正确性不仅是私有的,而且是一种缓慢形成的护城河,是资本无法直接压缩时间的护城河。即便是乐观派也承认,这个时钟无法跳过。OpenAI 推理模型的先驱 Noam Brown 最近写道:评估一个 Agent 在一年周期里的表现,唯一可靠的方法可能就是让它真的运行一年。
正如 Gabe Pereyra 所说,真正的自动化并不只是模型变得更强。它是产品、模型、工作流和公司组织一起变化,而这四者之中,有三个都按照组织的速度前进。
让人动起来,是任何基准测试都触及不到的部分:说服一个持怀疑态度的合伙人改变她处理事务的方式,让一支团队在重建过程中保持凝聚力。这也是为什么我们在招聘 CEO 时,看重其处理人的能力,至少不亚于分析能力。模型变得更聪明,并不会改变这个权重。
这里的反馈是模糊的,时间跨度是以年为单位的,而信任属于某个具体的人。我认识的每家公司,都已经让每位工程师使用前沿编码模型,但没有一家公司的工程组织以接近模型进步的速度发生变化。采用工具只花了一个季度,而那是多么神奇的一个季度 token 增长期!但真正的重建需要数年。
可被看清的工作,正在离开。真正有价值的工作,在结构上就是不可读的:任何你能放到排行榜上的东西,都可以被拿来训练;因此,任何可衡量之物,都已经在走向商品化。这个过程需要时间,也永远不会彻底完成,但方向从不会逆转。
用我朋友、Rippling 的 Matt MacInnis 的说法,把它换成金钱语言就是:一个 token 如果只是用来回答一个通用问题,几乎一文不值,因为任何人的模型都能回答;但一个 token 如果是在你的公司数据之上进行推理,就值钱得多,因为它做的是你真正想要的事,而不只是生成一个看起来合理的答案。
可读的工作会从两个方向被吞掉。
从下方看,任务会饱和:一旦某项工作可以被低成本检查,买家就不再关心是哪一个模型完成了它,而是开始问它要多少钱。于是,这项工作就会落到当周最便宜的开源模型或蒸馏模型手里。只要利润率能够发挥作用,最终它就一定会发挥作用。
从上方看,实验室正在尝试让模型吞掉自己的脚手架。检索、便宜调用与昂贵调用之间的路由、工具使用,甚至推理策略——所有曾经包裹在模型外面的装置,都正在被拉进模型权重之中,直到「外壳」本身变成模型。这就是吸收边界。
利润压力也会从另一个方向发挥作用:一个通用 Agent 必须随时准备处理任何事情,因此成本很高;而一个聚焦型应用可以把一个工作流调优到极致,让它只消耗一小部分 token。并且,与出售这些 token 的实验室不同,应用公司可以把中间的差额留下来。
因此,我们可以向任何一种工作提出两个问题:它的正确性是不是私有的、昂贵的,是否是一种只存在于某家公司数据内部的真相?它是否被隔离在一个外人无法进入的系统之内?再把这些问题与任务的饱和程度放在一起,就会得到一个 2×2 矩阵。
已经饱和、答案公开的工作,是商品化 token 的地盘,开源模型会占据它。前沿但答案公开的工作,比如编码基准测试,是实验室会赢的地方,因为当评估是免费的,拥有它本身就不值钱。
真正的奖品,是最后一个角落,也就是「不可训练」的角落:前沿工作,但其正确性只存在于私有环境之中。你可以在为 AI 原生先行者提供服务的推理云上看到这一点:绝大多数 token 都是由定制模型生成的,而不是由通用开源模型生成的。
通往这个最后角落的墙,有高有低。一个开发者的玩具代码库是可迁移、标准化的,所以爬进去并不难。但一家银行的生产系统既不可迁移,也不标准化。你不会因为在 SWE-Bench Verified 上聪明了 2%,就获得它的 root 权限。
能力会吞掉很多东西,但更好的模型不会让私有的真实标准变成公开标准。它不会持有许可证,不会为责任签字,也不拥有公司的文件;当答案出错时,它也不能成为被起诉的一方。这里的瓶颈不是智能,而是权限,也是责任。你可以想象一个远比任何人都聪明的模型,但它仍然必须被允许进门,而且仍然必须有人为它做的事情签上自己的名字。
那扇门有一道锁,还有一道门闩。
那道锁是环境:只有在一个系统内部获得信任之后,经过安全审查、完成集成、签下带有结果责任的合同,你才能验证 AI 是否真的做了有用的事。
那道门闩是用户。如今,大多数美国医生每天都会打开 OpenEvidence,这不是任何算力都能买来的。一家实验室明天就可以训练出一个完美的医疗模型,但它依然没有办法进入医生的使用习惯,也没有办法进入 UCSF 的决策流程。因为信任是慢慢建立起来的,靠关系、靠用户的默许,而不是靠梯度下降把这些东西抹掉。
这也正是应用公司的工作。一款应用之所以能在「不可训练」的角落里占据位置,靠的是那些并不光鲜的工作:整理一家公司的私有现实,让模型能够基于它行动;把行动工具交给模型;与客户一起改变其劳动力的实际运作方式。
一家能够完成这种「翻译」的公司很难被复制,而且这种翻译永远不会结束。集成和维护会随着客户关系一直持续下去。赢下这件事的,是那些把领域专精工程师和工具放到客户身边的团队。
举个例子,在一家顶级老牌律所里,光是并购业务每年就接近一千宗交易。你不能让几百名律师助理分别把客户文件下载到桌面,然后交给一个通用 Agent 去通读。保密原因就已经不允许这样做,更不用说还有十几个其他问题。即便可以这样做,你学到的也只是碎片:一个助理一次纠正一点,没有人能看见一整宗交易是如何流动的。
真正重要的信号,存在于交易这个层级。一宗交易有自己的形状:对并购来说,是 NDA、条款清单、尽职调查、购买协议、附属文件、交割清单;对知识产权诉讼来说,是动议、证据开示、现有技术、更多动议。每个业务领域都有自己的结构,律师和工具都不能随意互换。
而这家律所真正要解决的问题,还在更高一层:如何同时运行每一个业务领域,就像顶级合伙人一边并行管理数百个事项,一边引入新案源、培养助理律师。改造这样一家公司,并不是一个你可以写出评测任务的单一问题。它需要一位操盘手像打「数据棒球」一样处理它:中间目标极其模糊,反馈不完整,周期极长,而且环境本身也不会静止。
不幸的是,不可读的价值也很难销售,原因和它难以商品化一样:一家公司无法从外部判断,AI 到底能不能像基准测试显示的那样改造它的运营。因此,最强的公司会停止试图在外部证明自己,而是先进入客户内部,然后为结果定价。
Sierra 只有在它的 Agent 解决了客户问题时才收费;如果问题被转交给人类,它就不收费。因此,价格本身变成了评估机制。而这之所以成立,是因为 Sierra 拥有「已解决」的定义权。Cognition 的 Devin 在软件领域做了同样的事,推出「性能保证」。只有当你被信任地进入一个系统内部时,才有资格为结果提供这种保证。
即便是在提供 token 服务这一层——也就是所有人都喜欢称之为纯商品的那一层——它的表现也并不像商品。最好的 AI 原生公司会把服务集中在一到两家供应商那里,比如 Baseten 或 Fireworks。因为每 token 成本会按时走向商品化,但真实流量下的可靠性,以及对稀缺算力的稳定获取,并不会商品化。在哪里提供推理服务,与使用哪些模型,是两个不同的选择。推理中唯一真正像商品的部分,是价格。
一个常见反驳是:实验室是你的供应商,为什么它不会用自家第一方产品低于成本倾销,把你拖死?或者直接撤销你的 API 访问权限,自己拿走这个市场?这才是那种绝望感的真实版本。但它只有在模型层是单人游戏时才成立。
很明显,事实并非如此。模型层更像是一场三家半玩家的死亡竞赛,旁边还有一批训练进度落后大约六个月的国际玩家,以及一个规模是去年的五倍的发展联盟。客户希望自己的供应商之间存在竞争,而实验室想要市场份额,胜过想要杀死任何一个具体应用。
你可以在实验室正面竞争的市场里看到这一点。在消费者聊天场景里,最好的模型从来没有简单地赢下全部市场。ChatGPT 在多年真实竞争中一直保持领先;它现在失去的份额,流向的是 Gemini,而原因是 Android 和搜索的分发能力,并不是模型更好。Anthropic 目前在预测市场和互联网氛围中被认为拥有最好的模型,但它在消费者聊天中几乎不是主要玩家,而是在企业和编码场景中建立了自己的业务。
如果一个更好的模型都无法在最核心的应用中夺走竞争对手的用户,它也不会轻易通过集成吃下一家医院的病历系统,或一家银行的责任体系。今天,公众选择产品依据的东西,不只是编码能力。如果前沿模型层依然拥挤,那么它上方的应用层就会有价值。
如果一项工作无法从外部评分,那么内部就必须有人来决定什么才算是好答案。而这个决定,就是整个游戏本身。足够多这样的决定被写下来,就会变成基准测试。Harvey 发布了法律领域的基准测试,Sierra 发布了语音 Agent 的基准测试。你之所以有权定义一个领域里的「好」是什么意思,是因为这个领域已经在使用你。而这些公司,是通过真实采用过程中的艰难斗争赢得这种权利的。
真正决定金钱流向的评估,是私有的、逐公司形成的:这家公司,在这种事项上,会接受什么作为好工作。而这件事远远没有完成,因为法律的深度远远超过任何公开测试。OpenEvidence 正在沉淀什么才是安全的临床答案。
这一切其实都不是真正意义上的「测量」,而是关于什么是真的、什么是好的判断。这些判断被写下来,直到变成其他所有人都要接受衡量的标准。无论基础模型实验室变得多聪明,它都无法凭空写出这些标准,因为这种地位只存在于领域内部。
这种权威往往会落在它原本就存在的地方。资深律师写下法律基准。定义安全临床答案的是医生。「已解决」意味着什么,则由那个已经拥有客户关系的公司来决定。
吸收边界还会继续上升,因为我们会不断学会衡量更多工作,而可衡量之物会被吞掉。不可训练的地面会在站在上面的人脚下不断缩小,所以你不能找到一个可防守的位置就停下来。你必须不断走向那些还无法被评分的地方,并且持续重新承保、重新判断风险。
在一个狭窄任务上,凭借你的私有数据和你自己的评估体系,你可以训练到前沿水平,并在关键场景中击败通用模型;这个专用模型会成为护城河的一部分。另一方面,如果你是在通用模型能力上竞争,那就是一场资本战争,你会输给拥有最多算力的人。这也是那些只有浅层访问权限、任务又高度可读的公司最容易落入的陷阱。
当一家公司为了生存而决定在一大片通用任务上训练出超过前沿模型的能力时,胜负看起来通常已经由数据中心规模决定。最后的结局往往不是出现一个独立冠军,而是被卖给某个算力充足的玩家。
以上都是防守。更难的是进攻:首先决定到底要建什么。这就是我这一年一直在寻找的东西,而我大概只找到了三次。模型在这件事上帮不上忙。你把它指向哪里,它就会做什么;但它无法告诉你什么值得被指向。你无法为此建立基准测试,因此也无法训练它。
这也是为什么既有巨头不会拿走一切:它们会守住自己已经拥有的地盘,而下一个东西来自某个在其他人之前发现用途的人。也许,意图是一种比算力更加稀缺的输入。
这种绝望感有一半是对的。薄外壳层确实正在被吸收,而今天很多看起来像公司的东西,确实只是薄外壳。但它对于「吸收之后还剩下什么」的判断是错的。机制是清楚的,终点却不是。
我愿意下注的是这个方向:智能会继续变得更便宜,而价值会继续滑向少数几个模型无法抵达的地方。不可训练之物,是带有历史的价值。
所以,进入其中一个这样的领域,去做那些并不光鲜的翻译工作,然后开始写下那里「好」的定义。因为总有人会这么做。今年最常被引用的基准测试分数,其实是一张即将变得一文不值的领地图,也是一份通知:通知某些人,他们即将失去定义什么才算「好」的权利。
原文链接
原文链接:https://www.odaily.news/zh-CN/post/5211296
