世界模型从论文到深海:具身智能的’大脑革命’正在如何改变物理世界?

AI前线

世界模型从论文到深海:具身智能的”大脑革命”正在如何改变物理世界?

2026年6月16日 · xlb.baby 编译

📌核心要点

  • 智源研究院院长王仲远将世界模型比作”深度学习的2012年”——数据孤岛、路线未定、Benchmark打架,但ChatGPT时刻正在到来
  • 海洋具身智能公司世航智能完成超10亿元A轮融资,摩尔线程、昆仑芯产业基金、新加坡Vertex Growth联合投资,朱啸虎第五次加码
  • 世航智能发布”沧穹CEORION”海洋具身大模型,基于百万小时级商业作业数据构建海洋世界模型,仿真测试任务成功率超90%
  • 世界模型正从学术概念走向产业化——从”能识别物体但不懂物理规律”到”能在深海中自主完成清洗、切割、焊接”,具身智能的”大脑”正在进化

如果把2012年看作深度学习从实验室走向产业化的起点,那么今天的“世界模型”(World Model),正站在同样的十字路口。

过去几个月,”世界模型”这个词从学术黑话迅速膨胀为AI和机器人行业的核心关键词。但真正让行业焦虑的,不是这个词有多火,而是具身智能暴露出的致命短板:机器人能识别杯子,却不懂”推杯子会掉”;能听懂”拧瓶盖”的指令,却无法预判需要多大的力。

世界模型的使命,就是补上这一课——让AI学会物理世界的规律和因果。

而在这一轮浪潮中,一个意想不到的战场正在成为世界模型落地的最佳试验田:深海。

世界模型的”四条分岔路”与”第五种可能”

在智源研究院院长王仲远看来,当前全球围绕世界模型的探索,正被撕扯成四条截然不同的路径:

路径 代表 核心思路 局限
语言为中心 VLM、VLA 在文本空间中预测下一个词 学到的是语言描述的世界,不理解物理后果
像素为中心 Sora、Seedance 在视觉空间学习视频或图像 学到的是像素描述的世界,而非物理规律
三维结构为中心 World Labs Marble 3D重建与空间理解 几何结构不等于物理状态
视觉表征为中心 杨立昆 JEPA系列 预测视觉表征的压缩 视觉嵌入演化不等于物理规律演化

而智源研究院尝试的第五种路径,是以语言和视觉为中心,融合进统一的”潜空间表征”——所有模态被压缩进同一个潜空间(latent space),再由不同的”解码器”按需还原。

王仲远用了一个形象的比喻:这个”潜空间”就像给机器人大脑准备了一张”万能草稿纸”,不管是看到的画面、听到的文字指令,统统先在”纸”上压缩成一种只有AI能懂的”密语笔记”,等需要时,机器人将根据同一份笔记,”画”出接下来的场景,”演”出机器人的动作,或者”算”出物体的位置和力度。

但王仲远对这股热潮保持着难得的冷静。他认为,世界模型接下来要打几场硬仗:不能只生成”真实但不符合物理规律”的画面(比如”会飞的猪”),还要具备长时序一致性;必须进行因果逻辑推断(要明白盖着盖子和没盖子的杯子同时掉落会发生什么);需要作为基座模型应用到多种场景,而不是只服务某个Demo或单一任务。

深海:世界模型的终极考场

如果说实验室里的机器人还能在恒温恒湿的环境中优雅地拧瓶盖,那么深海则是世界模型真正接受考验的终极考场。

6月15日,海洋具身智能公司世航智能宣布完成超过10亿元人民币的A轮融资——这是目前全球海洋机器人领域规模最大的单轮融资。金沙江创投创始人朱啸虎在此轮追加投资,这已是他第五轮投资世航智能;新加坡主权基金Vertex Growth、摩尔线程和昆仑芯的产业投资方上河动量基金、上市公司大洋电机等共同参与。

这笔钱的背后,是一个令人惊叹的商业故事:世航智能2026年上半年订单金额已超10亿元。其”虎鲸机器人”已在招商轮船、中远散货等头部航运企业投入应用,累计完成超千艘大型船舶养护作业。

但比订单更引人注目的,是世航智能在底层技术上做出的选择——他们不做遥控机器人,而做”有大脑”的海洋具身智能体。

沧穹CEORION:百万小时数据炼成的海洋世界模型

今年4月,世航智能发布了海洋具身大模型”沧穹CEORION”。与传统水下机器人依赖人工遥控或预设程序不同,沧穹试图让机器人具备感知、理解和自主执行能力。

其核心技术架构采用统一端到端设计,将环境感知、任务理解和动作生成集成在同一个模型中,并结合真实作业数据与仿真数据进行训练。截至目前,沧穹已基于百万小时级商业作业数据,构建了一个海洋世界模型。

这意味着,搭载沧穹的海洋机器人已经无需针对不同任务切换多个模型,即可覆盖巡检、检测、清洗、抓取、切割、焊接、勘探、搜救、应急等12大类水下作业场景

一组数据值得注意:在仿真测试中,沧穹的任务成功率超过90%,精细控制定位抓取成功率同样超过90%——达到专业潜水操作员的操控水平。面对从未见过的海域环境、水质条件、光照变化,模型零样本适应能力超过70%

📊 沧穹CEORION 核心指标

90%+任务成功率
90%+精细抓取成功率
70%+零样本适应能力
-80%碰撞事故率降低
12类覆盖水下作业场景
百万小时训练数据规模

更关键的是,世航智能将物理推理模块内置到大模型架构中,使模型能够在动作执行前预判潜在风险并优化决策——即便在弱通信甚至无通信环境下,机器人仍可自主完成任务规划与执行。这对于深海作业而言,不是锦上添花,而是生死攸关的能力。

从”遥控”到”自主”:具身智能的代际跨越

世航智能的故事,折射出的是整个具身智能行业的范式转变。过去的机器人是”手”,靠人指挥;未来的机器人是”身体+大脑”,能自己判断。

这种转变的背后,是三个关键要素的 convergence(交汇):

  1. 世界模型——让AI理解物理世界的因果关系,而非仅仅识别物体
  2. 端侧算力——摩尔线程、昆仑芯等国产芯片厂商的入局,为具身智能提供低成本推理能力
  3. 真实场景数据——百万小时的商业作业数据,构成了模型训练的”燃料”

值得注意的是,世航智能本轮融资的投资方中,摩尔线程和昆仑芯这两家芯片公司并非偶然。它们的逻辑很清晰:具身智能是AI芯片的下一个超级赛道——当机器人从实验室走向真实世界,需要的是能在边缘端高效运行的推理能力,而这正是国产GPU的机会。

与此同时,世航智能还入选了新加坡海事及港务管理局国家水下船体检测与清洗计划,成为该国家级项目的核心技术合作伙伴。这标志着海洋具身智能正在从商业验证走向国家级基础设施

世界模型商业化:还在”2012年”,但曙光已现

回到王仲远的判断——世界模型大约处在深度学习的2012年前后。那一年,AlexNet刚刚在ImageNet竞赛中一鸣惊人,但没人知道深度学习会在接下来十年重塑整个AI行业。

今天的世界模型同样如此:数据孤岛严重、路线未定、Benchmark还在打架。但世航智能用10亿元融资、10亿元订单和90%的任务成功率证明了一件事——世界模型不是PPT里的概念,它已经在深海中自主完成了上千次船舶清洗作业。

当具身智能的”大脑”终于开始理解物理世界的因果,”身体”能做什么,就不再取决于工程师能写多少行代码,而取决于这个世界模型的泛化能力能走多远。

深海只是一个开始。下一个考场,可能是工厂、仓库、医院,甚至是每一个家庭的厨房。

💡 行业洞察

世界模型的商业化进程正在加速,但距离”通用物理智能”仍有较长距离。当前的核心瓶颈不在于算法本身,而在于高质量物理世界数据的获取——百万小时的数据积累需要真实的场景投入,而非仿真模拟。世航智能的”作业—数据—模型”闭环模式,为这一难题提供了可复制的路径。

📌小结

  • 世界模型正处于”深度学习的2012年”——路线未定,但拐点已至
  • 世航智能以10亿元A轮、百万小时数据和90%任务成功率,证明了世界模型在极端场景下的可行性
  • 摩尔线程、昆仑芯等芯片厂商入局,标志着具身智能正成为AI算力的下一个超级赛道
  • 从”遥控机器人”到”自主具身智能体”,世界模型正在重塑物理世界的交互范式
本文综合自36氪、硬氪报道,资料来源:世航智能官方、智源研究院、财联社

关注 xlb.baby

每天一篇深度AI科技分析,带你读懂技术变革背后的产业逻辑。

AI前线 · 科技资讯 · 产业洞察

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注