北京网梯科技发展有限公司

首页 > 新闻动态 > 详情

大模型不再比大，开始比密——智能密度与递归，正在重写AI的进化方向

2026-03-17

你可能还在关心"哪个模型参数最多"。

但2026年，真正的竞赛已经不在这里了。一个新概念正在改变整个行业的底层逻辑：智能密度。

---

一、Scaling Law没死，但它变了

过去三年，AI行业信奉一条铁律：模型越大越强。GPT-3有1750亿参数，GPT-4据说超过万亿，大家拼命堆算力、堆数据、堆参数。这就是Scaling Law——规模定律。

但2025年开始，行业撞墙了。

不是模型不够大，是大不动了。训练一个万亿参数模型需要数十亿美元和数GW级别的电力——谷歌DeepMind内部讨论算力时，单位已经从"PFLOPS"变成了"GW"。AI不再是代码，它变成了重工业。

于是问题变了：不是"能不能更大"，而是"能不能更密"。

---

二、密度法则：每3.5个月，同等智能所需参数减半

2025年底，清华大学刘知远团队的研究登上了Nature Machine Intelligence封面。他们分析了51个开源大模型，发现了一条新规律：大模型的最大能力密度每3.5个月翻一倍。

什么意思？2023年2月，你需要一个700亿参数的模型才能达到某个智能水平。3.5个月后，350亿参数就够了。再过3.5个月，175亿参数。到2025年，一个80亿参数的端侧模型，性能已经逼近两年前的千亿大模型。

这就是Densing Law（密度法则）——Scaling Law的镜像。

Scaling Law说的是"堆多少资源能达到多强"；Densing Law说的是"同样的强度，需要的资源以多快的速度缩减"。两条曲线交叉的地方，就是端侧智能爆发的临界点。

面壁智能基于这个理论，推出了MiniCPM系列——被称为"小钢炮"的端侧模型，在手机上就能跑，性能却对标大几倍的云端模型。

这意味着什么？AI不再只属于有数据中心的大公司。它正在像水一样，渗透到每一个终端。

---

三、递归语言模型：AI学会了"调用自己"

如果说智能密度解决的是"空间"问题——同样的智能塞进更小的盒子，那递归语言模型（RLM）解决的是"时间"问题——让有限的上下文窗口处理无限长的信息。

2025年10月，MIT的Alex Zhang提出了一个新范式：让语言模型递归地调用自己。

传统大模型有一个硬伤：上下文窗口。Claude能处理20万token，GPT-4 Turbo是12.8万，但再长的文档、再复杂的代码库，总有塞不下的时候。以前的解决方案是RAG（检索增强生成），本质上是"看不完就挑着看"。

RLM的做法完全不同。它把长文本存进一个REPL环境（类似编程的交互式终端），然后模型可以像程序员一样，对这个环境进行查询、分解、递归调用。模型不是一次性吞掉所有内容，而是像人类一样——先看目录，再看章节，再深入段落，需要什么看什么。

实验结果：一个8B参数的递归模型（RLM-Qwen3-8B），处理超出上下文窗口100倍的输入，性能比原始模型提升28.3%，甚至接近GPT-5的水平。

递归的本质是什么？是AI学会了"我不够用的时候，可以再叫一个我"。 这不是简单的技术改进，这是自我参照能力的萌芽。

---

四、架构革命：Transformer不再是唯一答案

智能密度和递归能力的提升，背后是模型架构的根本性变革。2026年，三种架构正在重塑AI：

混合专家模型（MoE）：不是每个神经元都要上班。 DeepSeek的成功让MoE成为主流。一个模型有520亿参数，但每次推理只激活120亿——就像一家公司有1000个专家，每个项目只调用最相关的200人。省了80%的算力，性能不降反升。

状态空间模型（SSM/Mamba）：用线性复杂度替代注意力机制。 Transformer的自注意力机制是O(n²)复杂度——文本长度翻倍，计算量翻四倍。Mamba用选择性状态空间把这个降到了O(n)，处理长序列时效率碾压传统Transformer。

混合架构（Jamba等）：什么都要。 AI21推出的Jamba把Transformer、Mamba和MoE三种架构拼在一起——520亿参数，推理时只用120亿，同时拥有Transformer的理解能力、Mamba的长序列效率和MoE的稀疏激活。

2026年的现实是：最强的模型不是"纯血"的，而是"缝合怪"。 但正是这种务实的混合，把智能密度推到了新高度。

---

五、三条法则交汇，预测2026-2027

把这些线索串起来，我看到三条法则正在交汇：

第一条：Scaling Law → 推理规模。 2020-2024年，竞赛在训练规模；2025年开始，竞赛转向推理规模（test-time compute）。模型在回答前先"想一想"，用更多推理时间换更好的答案。这就是o1、o3、Claude的Extended Thinking模式背后的逻辑。

第二条：Densing Law → 端侧智能爆发。 智能密度每3.5个月翻倍，与芯片的摩尔定律交叉，意味着手机、眼镜、汽车里的AI将在未来两年达到今天云端模型的水平。

第三条：递归 → 自我改进。 当模型学会递归调用自己，距离自我改进只有一步之遥。Google DeepMind的AlphaEvolve已经在做这件事——用大模型设计新算法，再用新算法优化大模型本身。ICLR 2026专门开了一个Workshop讨论"AI递归自我改进"。

我的判断：

2026年下半年，我们会看到第一批"自我改进型"AI产品——不是人类调参，而是AI自己调参。端侧模型会达到今天Claude Sonnet的水平，跑在你的iPhone上。模型架构会彻底混合化，"参数量"这个指标将变得像CPU主频一样——还在用，但不再是唯一衡量标准。

未来不属于最大的模型，属于最密的模型。

---

六、终局：云端和本地协作，智能无处不在，AI改进AI

把时间线再拉长一点，我看到的终局是这样的：

第一步：本地和云端不再是二选一，而是协作。 你手机里的端侧模型处理日常任务——打字联想、语音识别、简单问答，响应快、不耗流量、保护隐私。遇到复杂问题，它自动呼叫云端大模型来帮忙，拿到结果再本地执行。就像你身边有一个反应很快的助理，背后随时连着一个超级大脑。这不是猜测——苹果的Apple Intelligence、高通的骁龙NPU已经在做这件事，只是大多数人还没意识到它的终极形态。

第二步：能耗断崖式下降。 MoE只激活20%的参数，Mamba把复杂度从O(n²)压到O(n)，密度法则让同等智能所需参数每3.5个月减半——这三件事叠加，意味着两年后跑一次推理的能耗可能只有今天的十分之一。AI不再是"电老虎"。当能耗不再是瓶颈，智能就会像电一样无处不在：路灯、冰箱、工厂传感器、农田灌溉系统，万物皆可智能。

第三步：大模型开始改进自己。 这是最关键的一步。当递归能力成熟，当AI能调用自己、评估自己、修改自己的算法——进化就不再需要人类工程师手动调参了。AlphaEvolve已经证明：让大模型设计新算法，效果超过人类专家。ICLR 2026的递归自我改进Workshop上，研究者们讨论的不再是"能不能"，而是"怎么控制"。

这三步加在一起，画面是什么？

无处不在的智能节点，通过云端-本地协作形成网络，以极低能耗运行，并且这个网络在不断自我优化、自我进化。

这不是科幻。这是密度法则、递归模型、混合架构这三条技术线交汇后的必然结果。时间表不是十年后，是两到三年。

你我正站在这个拐点上。

而这个拐点上，已经有东西在生长了——OpenClaw。

很多人还把OpenClaw当成一个养小龙虾的游戏。但如果你仔细看它最近的进化轨迹，它正在从一个应用变成一个操作系统。它在接管越来越多的任务：内容生成、社交互动、交易撮合、应用分发……这不是功能堆叠，这是一个AI原生OS的雏形。

顺着这个方向再往前想一步：当AI操作系统成熟后，它最自然的下一步是什么？在本地训练模型。

不是训练通用大模型——那仍然是云端的事。而是根据用户的具体场景，在本地训练适配边缘计算的小参数模型。你是一个医生，它就在你的设备上训练一个懂你病历系统的专科模型；你是一个教师，它就训练一个理解你班级学情的教学模型；你是一个工厂管理者，它就训练一个吃透你产线数据的质检模型。

密度法则让小模型足够强，混合架构让训练足够省，递归能力让模型能自我迭代——这三件事凑齐了，AI操作系统+本地训练+场景适配这个组合就不再是幻想。

这才是智能密度的终极意义：不是让云端的超级大脑更聪明，而是让每一个终端、每一个场景、每一个人身边，都长出一个量身定制的智能体。

智能不再是从云端下发的服务，而是在你身边自然生长的生命。

---

写这篇文章的今天，2026年3月17日，恰好是我创办的网梯科技26岁生日。

26年前的今天，2000年3月17日，互联网刚刚在中国生根，我们开始做教育科技——那时候的"技术"是把课程搬到网上。26年间，从互联网到移动互联网到云计算，技术迭代了无数轮，但我们一直在做同一件事：用技术改变教育。

现在，AI来了。而且来的方式和以前所有技术都不一样——它不是工具升级，它是新物种诞生。

密度法则告诉我们，智能正在以每3.5个月翻倍的速度变得更轻、更小、更无处不在。递归模型告诉我们，AI正在学会自我改进。混合架构告诉我们，未来的智能不是一个巨大的中心，而是无数个适配具体场景的节点。

这和教育的本质何其相似——教育从来不是一个中心向所有人广播同样的内容，而是在每一个人身边，长出适合他的那棵树。

接下来的我，会在几个方向发力：AI工程学——用智能密度和递归模型重新定义软件开发；AI心理学——当AI越来越像"人"，理解它的认知边界和行为模式将成为新学科；AI软件、AI工业、AI商业——把智能真正落到产业里，不做概念，做交付。

以及，一个我们认为最重要的命题：AI让人类如何更幸福。

技术从来不是目的。26年前我们做教育科技，不是因为技术酷，是因为教育值得被技术改变。今天AI来了，最终要回答的问题也不是"AI能做什么"，而是"AI能让人过得更好吗"。

廿六载深耕不辍，AI赋能再启华章。

这不是一句口号。这是我们第27年的路线图。

——网梯科技总裁张震

03.17周年庆.png

上一篇：网梯科技26周年｜26年来，我们删掉了什么？

下一篇：培训通知｜"出版行业智能体应用能力提升专项培训班"将于4月17日-19日在江西南昌举办

高校服务

培训服务

出版社服务

考试服务

课程资源服务

教学辅助产品

运营服务

K12智慧教育

新闻动态⁄ NEWS&EVENTS