实时更新的网梯动态,了解最新的资讯和报道
2026-03-17

你可能还在关心"哪个模型参数最多"。
但2026年,真正的竞赛已经不在这里了。一个新概念正在改变整个行业的底层逻辑:智能密度。
---
过去三年,AI行业信奉一条铁律:模型越大越强。GPT-3有1750亿参数,GPT-4据说超过万亿,大家拼命堆算力、堆数据、堆参数。这就是Scaling Law——规模定律。
但2025年开始,行业撞墙了。
不是模型不够大,是大不动了。训练一个万亿参数模型需要数十亿美元和数GW级别的电力——谷歌DeepMind内部讨论算力时,单位已经从"PFLOPS"变成了"GW"。AI不再是代码,它变成了重工业。
于是问题变了:不是"能不能更大",而是"能不能更密"。
---
2025年底,清华大学刘知远团队的研究登上了Nature Machine Intelligence封面。他们分析了51个开源大模型,发现了一条新规律:大模型的最大能力密度每3.5个月翻一倍。
什么意思?2023年2月,你需要一个700亿参数的模型才能达到某个智能水平。3.5个月后,350亿参数就够了。再过3.5个月,175亿参数。到2025年,一个80亿参数的端侧模型,性能已经逼近两年前的千亿大模型。
这就是Densing Law(密度法则)——Scaling Law的镜像。
Scaling Law说的是"堆多少资源能达到多强";Densing Law说的是"同样的强度,需要的资源以多快的速度缩减"。两条曲线交叉的地方,就是端侧智能爆发的临界点。
面壁智能基于这个理论,推出了MiniCPM系列——被称为"小钢炮"的端侧模型,在手机上就能跑,性能却对标大几倍的云端模型。
这意味着什么?AI不再只属于有数据中心的大公司。它正在像水一样,渗透到每一个终端。
---
如果说智能密度解决的是"空间"问题——同样的智能塞进更小的盒子,那递归语言模型(RLM)解决的是"时间"问题——让有限的上下文窗口处理无限长的信息。
2025年10月,MIT的Alex Zhang提出了一个新范式:让语言模型递归地调用自己。
传统大模型有一个硬伤:上下文窗口。Claude能处理20万token,GPT-4 Turbo是12.8万,但再长的文档、再复杂的代码库,总有塞不下的时候。以前的解决方案是RAG(检索增强生成),本质上是"看不完就挑着看"。
RLM的做法完全不同。它把长文本存进一个REPL环境(类似编程的交互式终端),然后模型可以像程序员一样,对这个环境进行查询、分解、递归调用。模型不是一次性吞掉所有内容,而是像人类一样——先看目录,再看章节,再深入段落,需要什么看什么。
实验结果:一个8B参数的递归模型(RLM-Qwen3-8B),处理超出上下文窗口100倍的输入,性能比原始模型提升28.3%,甚至接近GPT-5的水平。
递归的本质是什么?是AI学会了"我不够用的时候,可以再叫一个我"。 这不是简单的技术改进,这是自我参照能力的萌芽。
---
智能密度和递归能力的提升,背后是模型架构的根本性变革。2026年,三种架构正在重塑AI:
混合专家模型(MoE):不是每个神经元都要上班。 DeepSeek的成功让MoE成为主流。一个模型有520亿参数,但每次推理只激活120亿——就像一家公司有1000个专家,每个项目只调用最相关的200人。省了80%的算力,性能不降反升。
状态空间模型(SSM/Mamba):用线性复杂度替代注意力机制。 Transformer的自注意力机制是O(n²)复杂度——文本长度翻倍,计算量翻四倍。Mamba用选择性状态空间把这个降到了O(n),处理长序列时效率碾压传统Transformer。
混合架构(Jamba等):什么都要。 AI21推出的Jamba把Transformer、Mamba和MoE三种架构拼在一起——520亿参数,推理时只用120亿,同时拥有Transformer的理解能力、Mamba的长序列效率和MoE的稀疏激活。
2026年的现实是:最强的模型不是"纯血"的,而是"缝合怪"。 但正是这种务实的混合,把智能密度推到了新高度。
---
把这些线索串起来,我看到三条法则正在交汇:
第一条:Scaling Law → 推理规模。 2020-2024年,竞赛在训练规模;2025年开始,竞赛转向推理规模(test-time compute)。模型在回答前先"想一想",用更多推理时间换更好的答案。这就是o1、o3、Claude的Extended Thinking模式背后的逻辑。
第二条:Densing Law → 端侧智能爆发。 智能密度每3.5个月翻倍,与芯片的摩尔定律交叉,意味着手机、眼镜、汽车里的AI将在未来两年达到今天云端模型的水平。
第三条:递归 → 自我改进。 当模型学会递归调用自己,距离自我改进只有一步之遥。Google DeepMind的AlphaEvolve已经在做这件事——用大模型设计新算法,再用新算法优化大模型本身。ICLR 2026专门开了一个Workshop讨论"AI递归自我改进"。
我的判断:
2026年下半年,我们会看到第一批"自我改进型"AI产品——不是人类调参,而是AI自己调参。端侧模型会达到今天Claude Sonnet的水平,跑在你的iPhone上。模型架构会彻底混合化,"参数量"这个指标将变得像CPU主频一样——还在用,但不再是唯一衡量标准。
未来不属于最大的模型,属于最密的模型。
---
把时间线再拉长一点,我看到的终局是这样的:
第一步:本地和云端不再是二选一,而是协作。 你手机里的端侧模型处理日常任务——打字联想、语音识别、简单问答,响应快、不耗流量、保护隐私。遇到复杂问题,它自动呼叫云端大模型来帮忙,拿到结果再本地执行。就像你身边有一个反应很快的助理,背后随时连着一个超级大脑。这不是猜测——苹果的Apple Intelligence、高通的骁龙NPU已经在做这件事,只是大多数人还没意识到它的终极形态。
第二步:能耗断崖式下降。 MoE只激活20%的参数,Mamba把复杂度从O(n²)压到O(n),密度法则让同等智能所需参数每3.5个月减半——这三件事叠加,意味着两年后跑一次推理的能耗可能只有今天的十分之一。AI不再是"电老虎"。当能耗不再是瓶颈,智能就会像电一样无处不在:路灯、冰箱、工厂传感器、农田灌溉系统,万物皆可智能。
第三步:大模型开始改进自己。 这是最关键的一步。当递归能力成熟,当AI能调用自己、评估自己、修改自己的算法——进化就不再需要人类工程师手动调参了。AlphaEvolve已经证明:让大模型设计新算法,效果超过人类专家。ICLR 2026的递归自我改进Workshop上,研究者们讨论的不再是"能不能",而是"怎么控制"。
这三步加在一起,画面是什么?
无处不在的智能节点,通过云端-本地协作形成网络,以极低能耗运行,并且这个网络在不断自我优化、自我进化。
这不是科幻。这是密度法则、递归模型、混合架构这三条技术线交汇后的必然结果。时间表不是十年后,是两到三年。
你我正站在这个拐点上。
而这个拐点上,已经有东西在生长了——OpenClaw。
很多人还把OpenClaw当成一个养小龙虾的游戏。但如果你仔细看它最近的进化轨迹,它正在从一个应用变成一个操作系统。它在接管越来越多的任务:内容生成、社交互动、交易撮合、应用分发……这不是功能堆叠,这是一个AI原生OS的雏形。
顺着这个方向再往前想一步:当AI操作系统成熟后,它最自然的下一步是什么?在本地训练模型。
不是训练通用大模型——那仍然是云端的事。而是根据用户的具体场景,在本地训练适配边缘计算的小参数模型。你是一个医生,它就在你的设备上训练一个懂你病历系统的专科模型;你是一个教师,它就训练一个理解你班级学情的教学模型;你是一个工厂管理者,它就训练一个吃透你产线数据的质检模型。
密度法则让小模型足够强,混合架构让训练足够省,递归能力让模型能自我迭代——这三件事凑齐了,AI操作系统+本地训练+场景适配这个组合就不再是幻想。
这才是智能密度的终极意义:不是让云端的超级大脑更聪明,而是让每一个终端、每一个场景、每一个人身边,都长出一个量身定制的智能体。
智能不再是从云端下发的服务,而是在你身边自然生长的生命。
---
写这篇文章的今天,2026年3月17日,恰好是我创办的网梯科技26岁生日。
26年前的今天,2000年3月17日,互联网刚刚在中国生根,我们开始做教育科技——那时候的"技术"是把课程搬到网上。26年间,从互联网到移动互联网到云计算,技术迭代了无数轮,但我们一直在做同一件事:用技术改变教育。
现在,AI来了。而且来的方式和以前所有技术都不一样——它不是工具升级,它是新物种诞生。
密度法则告诉我们,智能正在以每3.5个月翻倍的速度变得更轻、更小、更无处不在。递归模型告诉我们,AI正在学会自我改进。混合架构告诉我们,未来的智能不是一个巨大的中心,而是无数个适配具体场景的节点。
这和教育的本质何其相似——教育从来不是一个中心向所有人广播同样的内容,而是在每一个人身边,长出适合他的那棵树。
接下来的我,会在几个方向发力:AI工程学——用智能密度和递归模型重新定义软件开发;AI心理学——当AI越来越像"人",理解它的认知边界和行为模式将成为新学科;AI软件、AI工业、AI商业——把智能真正落到产业里,不做概念,做交付。
以及,一个我们认为最重要的命题:AI让人类如何更幸福。
技术从来不是目的。26年前我们做教育科技,不是因为技术酷,是因为教育值得被技术改变。今天AI来了,最终要回答的问题也不是"AI能做什么",而是"AI能让人过得更好吗"。
廿六载深耕不辍,AI赋能再启华章。
这不是一句口号。这是我们第27年的路线图。
——网梯科技总裁 张震

