十万台机器人在街边打工,背后是一家清华大学世界模型公司——千诀科技数亿元A轮融资,具身智能的’大脑革命’到底改变了什么?

AI前线

十万台机器人在街边打工,背后是一家清华大学世界模型公司——千诀科技数亿元A轮融资,具身智能的”大脑革命”到底改变了什么?

关注 xlb.baby
2026年6月11日

📌核心要点

  • 千诀科技完成数亿元A轮融资,由京铭资本领投,山东新动能、山东财金资本、元禾厚望等机构参投,投资方阵容汇集国家队、产业方及市场化基金
  • 分布式预测世界模型采用与生成式路线截然不同的思路:不靠像素重构预测未来,而是像人类打球一样直接预判物理状态的低维演化轨迹
  • 搭载千诀世界模型的机器人已在酒店保洁、商用服务、精密室内作业等场景部署,终端设备规模达十万台,是目前业内规模最大的具身智能落地
  • CTO章天任指出,生成式世界模型面临“特征污染”问题——模型把有效特征和光影纹理等噪声强行绑定,导致内部表征不纯净,泛化能力受限
  • 千诀将”具身大脑”与”小脑”解耦,同一世界模型可快速迁移到轮式、四足、双足人形、无人机、清扫机器人等多种本体

当 Yann LeCun 的世界模型理论遇上十万台打工机器人

2023年6月,一群来自清华大学类脑研究中心的研究人员创办了千诀科技。三年后,这家公司已经悄悄完成了中国具身智能领域规模最大的落地之一——超过十万台搭载其世界模型系统的机器人,正在酒店、餐厅、清洁公司里真实地工作

与此同时,千诀科技刚完成了一轮数亿元的A轮融资。京铭资本领投,山东新动能、山东财金资本、元禾厚望、芯能创投、英诺天使基金、尚势资本、仁爱集团、玄素投资等机构共同参投——投资方阵容之豪华,几乎覆盖了当前中国创投圈的所有主要玩家。

这笔钱将用于自研世界模型的架构搭建、算法迭代与场景落地。但在讨论”下一个大模型”的叙事中,千诀科技做了一件反共识的事:它不打算生成视频,它打算预测物理

生成式路线的”特征污染”陷阱

当前世界模型的主流路线是生成式——让模型学会从像素级重构来预测下一帧画面。OpenAI 的 Sora、各类视频生成模型都走的是这条路径:输入一段视频,让模型预测接下来会发生什么,然后用像素拼接出”未来”。

但千诀科技CTO章天任提出了一个被许多人忽视的问题:特征污染

💡什么是”特征污染”?

真实物理世界的图像输入信息量极大,包含大量与任务无关的噪声——光影变化、纹理细节、背景杂物。生成式模型为了追求像素级的无损重构,不得不把这些有效特征和无效信息强行绑定在一起。结果就是模型内部表征不再”纯净”,它确实能从现实数据中提取泛化性特征,但这些特征里混入了干扰项。

“人看一张图时,不会平均分配注意力在每个像素上,而是快速锁定与任务相关的区域。”章天任说,”但生成式模型与其说是理解世界,却更容易发生复刻表象的情况。”

这种污染会直接影响模型对物理世界的理解能力。世界模型的本意是让机器学会符合物理规律的预测,而不是单纯地拟合图像。一旦特征被污染,模型就很难提炼出真正的因果关系和物理不变性。

预测式世界模型:像人类打球一样预判物理

面对生成式路线的局限,千诀科技选择了另一条路:预测式世界模型

其核心逻辑非常直观——让机器人真正理解物理世界,不是靠还原每一帧像素,而是靠预测物理状态的低维演化轨迹。

千诀科技CEO高海川用一个案例解释了两者的本质区别:人在打球时,不会在脑中想象一帧帧清晰的画面,而是直接挥拍,依靠对球轨迹的低维预测。这种预测不包含像素信息,只包含物理规律的状态演化。”人类在物理世界中玩球类游戏,不可能去想象清晰完整的像素画面,来不及,而且这种信息不稳定。”

同样的逻辑适用于具身智能。执行任务时,机器人需要的不是”未来会长什么样”的想象,而是”下一个状态该往哪走”的预判。预测式模型的核心输出不是视频帧,而是低维抽象特征,这些特征可以直接解码为动作轨迹或规划指令,从而绕开像素重构带来的计算负担。

分布式预测架构:模仿人脑的”分而治之”

在预测式路线的基础上,千诀科技还提出了一个更具创新性的概念:分布式预测架构

这个架构采用了类人脑的脑区连接方式——大脑不同区域各司其职,连接紧密的区域内部协同,区域之间则相对独立。对比传统方法把所有信息揉在一起压缩处理,分布式预测架构会先把信息分到不同的区域里,再分别压缩和预测。

1000→100
训练数据量减少
0.5s
模型响应时间
10万+
部署终端设备

“同样一个任务,从零开始可能需要1000个’状态-动作’对;有了好的表征,100个就够了。”章天任说。这意味着机器人适应新场景所需的示教数据大幅减少,在真实场景落地中尤为关键。

十万台终端的数据飞轮

千诀科技最让人印象深刻的数字不是融资额,而是十万台

搭载千诀世界模型的机器人已适配轮式、四足、双足人形、无人机、清扫机器人等多品类硬件,落地酒店保洁、商用服务、精密室内作业等实景项目。依托这些海量终端持续产生的真实交互数据,千诀正在构建一个“数据飞轮”——机器人用得越多,数据越多,模型越强,又吸引更多客户部署。

更重要的是,千诀将”具身大脑”与”小脑”解耦:由其世界模型负责感知、预测与规划,不绑定具体的执行动作空间。只要共享同一模态,模型就能将其观察到的环境变化作为统一的数据来源进行训练。这意味着同一个”大脑”可以快速迁移到不同本体上,解耦设计有效降低了迁移成本。

💡”眼里有活”比”指令精确”更重要

高海川分享了市场反馈中超出预期的两点发现:一是对响应速度的敏感度——生成式模型4秒级的响应在机器人场景中基本不可用,而预测式模型可以在0.5秒内返回结果;二是”主动性”的价值——客户并不希望机器人只是被动执行指令的工具,而是期待它能”眼里有活”——主动感知环境、自主决策。

具身智能的”大脑革命”才刚刚开始

千诀科技的故事揭示了一个正在发生的范式转变:当行业还在为”谁的世界模型能生成更逼真的视频”而争论时,已经有一家公司把世界模型部署到了十万台真实运行的机器人中。

这背后是两条赛道的分化——生成式世界模型追求的是”看起来像真的”,而预测式世界模型追求的是”用起来真的”。在具身智能这个以物理交互为核心的领域,后者显然更贴近本质。

当然,世界模型的能力上限挑战依然在于完全开环的超长时规划——比如机器人还没开始行动,就要一次性规划好未来几百步的所有细节。千诀CTO章天任坦言,这种场景在真实任务中很少见,更自然的做法还是”边做边看”,发现问题随时调整。

但即使如此,十万台机器人的真实数据反馈已经足以让预测式世界模型在迭代速度上拉开差距。当生成式路线还在纠结像素级还原时,预测式路线已经在用真实场景中的”眼里有活”重新定义什么是智能。

📌小结

  • 千诀科技完成数亿元A轮融资,投资方涵盖国家队、产业方与市场化基金
  • 其分布式预测世界模型不走生成式路线,而是像人类一样预判物理状态的低维演化
  • 十万台终端设备部署规模、具身大脑与小脑解耦设计、0.5秒响应速度——这些数字勾勒出一个正在成型的具身智能基础设施
  • 生成式 vs 预测式:是”看起来像真的”还是”用起来真的”,这场范式之争将决定谁能在物理世界中真正落地

本文综合自36氪硬氪报道,信息来源:千诀科技官方提供、硬氪访谈节选。

🔥 关注 xlb.baby

我们每天为你精选全球AI与科技领域最值得关注的深度故事。从融资动态到技术突破,从行业趋势到商业模式,用数据和事实还原真实的科技图景。

订阅 xlb.baby,不错过每一个改变世界的瞬间。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注