4.5亿美元融资背后：Rhoda AI 用DVA 挑战机器人主流架构

日期：2026-03-15 17:25:19 / 人气：75

在静默18个月后，美国机器人公司Rhoda AI终于在最近结束了隐身状态，并发布了其核心的DVA（直接视频动作，Direct Video-Action）模型，试图撼动VLA（视觉-语言-动作）模型的行业主流地位。

相比较VLA模型，Rhoda AI带来的技术路线明显不同，DVA模型的目标是让机器人直接从视频中学习世界如何变化，再将这种预测能力转化为动作控制。

在VLA模型已经吸走了具身圈半壁江山的背景下，DVA似乎是一种「反主流」路线，但资本的态度非常明显。在DVA模型发布的同时，Rhoda AI也宣布完成4.5亿美元（约合人民币32亿元）的A轮融资，公司估值达到17亿美元（约合人民币123亿元）。

单轮超30亿元的融资，如果放在国内，也仅仅只有一两家明星级别的机器人公司能够达到这种规模，这背后其实也代表着资本对于DVA这条技术路线的明确押注。

而这场路线之争的核心，其实只有一个问题：到底什么样的方式才能让机器人真正地走入现实生活？

数据是导火索：VLA的瓶颈与DVA的破局

其实要想搞清楚为什么机器人行业有那么多眼花缭乱的技术路线，就要知道数据在其中扮演着什么样的角色。

当下主流的VLA模型，在训练时往往比较依赖机器人遥操作数据，这种数据包含了视觉观察、机器人状态和人类操作动作。也就是说，每一条数据都需要真实机器人、专业操作员和专用设备，数据成本相当高。

更重要的是，它很难覆盖现实世界中的长尾场景。实验室环境中，机器人的任务成功率看起来很可观，但在真实应用场景中，成功率会出现大幅波动。出现这种变化的原因也很简单，因为真实世界的变化远远多于训练数据。在这种情况下，行业开始思考机器人脱离大量人类标注数据的可能性。

所以Rhoda AI发布的DVA模型，在数据方面的做法有着明显不同。Rhoda AI选择先利用大规模互联网视频对模型进行预训练，让系统从海量视频中学习物体运动、接触关系以及人类操作模式等基本的物理规律。在完成视频层面的预训练之后，再通过少量真实机器人数据进行微调，将这种对「世界如何变化」的理解映射到具体的机器人动作控制上。

在这种技术逻辑下，DVA试图把机器人学习的大部分过程，从昂贵的机器人数据转移到规模更大的视频数据上。毕竟即便遥操作的数据再多，在规模庞大的数十亿小时的网络数据面前，也仅仅只能占据一小部分而已，并且网络视频数据的成本更低。

DVA核心逻辑：把机器人控制变成视频生成

Rhoda AI提出的DVA架构，核心思路是机器人先想象未来，再决定动作。乍一看，感觉跟此前也有很多人在提的世界模型没什么两样，但DVA的最大变化就是把「预测未来视频」直接变成动作控制，整个系统分为两步：

第一步：预测未来视频。首先使用因果视频模型（Causal Video Model），模型根据当前视觉观察（包括机器人自身状态、环境画面等多模态信息），预测未来几帧的视频画面。简单来说，机器人会先想象：如果我采取某种行动，世界会变成什么样？

第二步：将视频转化为动作。在完成视频预测后，接着使用逆动力学模型（Inverse Dynamics Model）。它会根据预测的视频变化，反推出机器人应该执行的精确电机信号，从而实现动作控制。整个过程形成「观察-想象-行动-再观察」的闭环，每秒会重复多次以保证实时性。关键是，这个逆动力学模型仅需约10小时的机器人数据即可训练完成，且能跨任务复用。

为了让视频预测真正能够稳定控制机器人，Rhoda AI还提出了两项关键支撑技术：

上下文摊销（Context Amortization）：传统的视频模型通常逐帧预测未来，效率低下且难以处理长序列。Rhoda AI的方法是在长视频序列的多个时间点同时预测未来帧，这让模型可以高效处理数百帧的长上下文视频，拥有更强的视觉记忆，从而具备处理长流程任务的基础。

蛙跳推理（Leapfrog Inference）：视频生成往往需要大量算力支持，容易产生延迟。Rhoda AI采用类似流水线的策略，机器人执行当前动作时，模型已经在并行预测下一步的视频画面。这种推理与执行并行的方式，能大幅降低实时控制的延迟，避免物理世界的等待。

实测验证：不依赖大规模遥操数据的落地能力

在技术博客中，Rhoda AI给出了多项完整实验，用以证明DVA在真实任务中的数据效率和任务控制能力。

案例一：拆箱任务（Decanting）。这项任务需要机器人从箱子中取出轴承，倒入指定容器，并对包装材料进行分类，整个过程包含抓取、移动、倾倒、分拣等多个连续动作，还需应对破损包装、物体卡滞等边缘情况，对视觉理解和动作协调都有较高要求。按照Rhoda AI披露的数据，这项任务仅使用约11小时的机器人真机操作数据，模型就能够稳定完成操作，甚至能连续自主运行1.5小时无人工干预。相比之下，传统依赖遥操作数据训练的机器人模型，往往需要数百小时甚至更长时间的数据才能达到类似水平。

案例二：容器拆解任务（Container Breakdown）。这是一个更接近工业环境的任务，机器人需要识别大型工业容器的结构，拆解卡扣、清理内部随机 debris、调整容器位置以触及死角，属于典型的多阶段流程操作。这项任务使用的机器人真机数据规模约为17小时，同样显著低于传统机器人训练规模。实验结果显示，DVA能稳定处理「卡扣未完全松开」「容器位置偏移」等问题，展现出长流程操作中的强鲁棒性——这也被团队视为视频预测路线的核心优势，因为模型通过长上下文记忆，能清晰把控任务步骤的先后逻辑。

总体来看，Rhoda AI想表达的核心逻辑非常明确：当机器人控制被转化为视频预测问题后，系统可以借助互联网规模视频数据学习物理世界的基本规律，从而大幅降低对昂贵机器人数据的依赖。在这种框架下，机器人并不直接学习「应该做什么动作」，而是先学习「世界接下来会发生什么变化」，再根据这些预测结果推导出动作策略——这正是DVA架构与主流VLA路线之间最大的差异。

DVA的潜力与挑战：机器人的Transformer时刻？

客观来看，DVA的架构确实具备创新性：通过将控制问题转化为视频生成，既降低了对遥操数据的依赖，又天然具备长上下文记忆（可处理多步骤任务）和可解释性（生成的视频可直观观察机器人决策逻辑）。这让人联想到Transformer在自然语言处理领域带来的范式转移，DVA或许能为具身智能领域带来类似突破。

但DVA的落地仍面临两大核心挑战：

1. 实时推理延迟。虽然Rhoda AI通过蛙跳推理降低了部分延迟，但现实世界的复杂性决定了机器人需要应对多变环境，部分实时操作（如快速避障、精准抓取动态物体）对响应速度要求极高。如果简单动作都需要数秒反应时间，会严重影响使用体验；而长流程任务（如做饭、组装）中，延迟累积可能导致任务失败。

2. 算力成本压力。尽管DVA在数据成本上有优势，但大量视频生成和长上下文处理需要极高的算力支持。如今全球算力资源稀缺，短期内算力使用成本难以大幅下降，这会限制DVA模型的规模化部署——尤其对中小型企业而言，算力门槛可能成为应用障碍。

所以，Rhoda AI的DVA模型是否能够真正改变行业，关键要看算力成本优化、实时推理适配等问题能否得到解决。如果这些问题能够突破，那么未来机器人学习世界的方式，可能真的会从「预测动作」变成「预测未来」，而这，也许正是具身智能的下一个范式转移。

参考链接：https://www.rhoda.ai/research/direct-video-action

作者：极悦娱乐

4.5亿美元融资背后：Rhoda AI 用DVA 挑战机器人主流架构

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →