4.5亿美元融资背后:Rhoda AI 用DVA 挑战机器人主流架构
日期:2026-03-15 17:25:19 / 人气:7

在静默18个月后,美国机器人公司Rhoda AI终于在最近结束了隐身状态,并发布了其核心的DVA(直接视频动作,Direct Video-Action)模型,试图撼动VLA(视觉-语言-动作)模型的行业主流地位。
相比较VLA模型,Rhoda AI带来的技术路线明显不同,DVA模型的目标是让机器人直接从视频中学习世界如何变化,再将这种预测能力转化为动作控制。
在VLA模型已经吸走了具身圈半壁江山的背景下,DVA似乎是一种「反主流」路线,但资本的态度非常明显。在DVA模型发布的同时,Rhoda AI也宣布完成4.5亿美元(约合人民币32亿元)的A轮融资,公司估值达到17亿美元(约合人民币123亿元)。
单轮超30亿元的融资,如果放在国内,也仅仅只有一两家明星级别的机器人公司能够达到这种规模,这背后其实也代表着资本对于DVA这条技术路线的明确押注。
而这场路线之争的核心,其实只有一个问题:到底什么样的方式才能让机器人真正地走入现实生活?
数据是导火索:VLA的瓶颈与DVA的破局
其实要想搞清楚为什么机器人行业有那么多眼花缭乱的技术路线,就要知道数据在其中扮演着什么样的角色。
当下主流的VLA模型,在训练时往往比较依赖机器人遥操作数据,这种数据包含了视觉观察、机器人状态和人类操作动作。也就是说,每一条数据都需要真实机器人、专业操作员和专用设备,数据成本相当高。
更重要的是,它很难覆盖现实世界中的长尾场景。实验室环境中,机器人的任务成功率看起来很可观,但在真实应用场景中,成功率会出现大幅波动。出现这种变化的原因也很简单,因为真实世界的变化远远多于训练数据。在这种情况下,行业开始思考机器人脱离大量人类标注数据的可能性。
所以Rhoda AI发布的DVA模型,在数据方面的做法有着明显不同。Rhoda AI选择先利用大规模互联网视频对模型进行预训练,让系统从海量视频中学习物体运动、接触关系以及人类操作模式等基本的物理规律。在完成视频层面的预训练之后,再通过少量真实机器人数据进行微调,将这种对「世界如何变化」的理解映射到具体的机器人动作控制上。
在这种技术逻辑下,DVA试图把机器人学习的大部分过程,从昂贵的机器人数据转移到规模更大的视频数据上。毕竟即便遥操作的数据再多,在规模庞大的数十亿小时的网络数据面前,也仅仅只能占据一小部分而已,并且网络视频数据的成本更低。
DVA核心逻辑:把机器人控制变成视频生成
Rhoda AI提出的DVA架构,核心思路是机器人先想象未来,再决定动作。乍一看,感觉跟此前也有很多人在提的世界模型没什么两样,但DVA的最大变化就是把「预测未来视频」直接变成动作控制,整个系统分为两步:
第一步:预测未来视频。首先使用因果视频模型(Causal Video Model),模型根据当前视觉观察(包括机器人自身状态、环境画面等多模态信息),预测未来几帧的视频画面。简单来说,机器人会先想象:如果我采取某种行动,世界会变成什么样?
第二步:将视频转化为动作。在完成视频预测后,接着使用逆动力学模型(Inverse Dynamics Model)。它会根据预测的视频变化,反推出机器人应该执行的精确电机信号,从而实现动作控制。整个过程形成「观察-想象-行动-再观察」的闭环,每秒会重复多次以保证实时性。关键是,这个逆动力学模型仅需约10小时的机器人数据即可训练完成,且能跨任务复用。
为了让视频预测真正能够稳定控制机器人,Rhoda AI还提出了两项关键支撑技术:
上下文摊销(Context Amortization):传统的视频模型通常逐帧预测未来,效率低下且难以处理长序列。Rhoda AI的方法是在长视频序列的多个时间点同时预测未来帧,这让模型可以高效处理数百帧的长上下文视频,拥有更强的视觉记忆,从而具备处理长流程任务的基础。
蛙跳推理(Leapfrog Inference):视频生成往往需要大量算力支持,容易产生延迟。Rhoda AI采用类似流水线的策略,机器人执行当前动作时,模型已经在并行预测下一步的视频画面。这种推理与执行并行的方式,能大幅降低实时控制的延迟,避免物理世界的等待。
实测验证:不依赖大规模遥操数据的落地能力
在技术博客中,Rhoda AI给出了多项完整实验,用以证明DVA在真实任务中的数据效率和任务控制能力。
案例一:拆箱任务(Decanting)。这项任务需要机器人从箱子中取出轴承,倒入指定容器,并对包装材料进行分类,整个过程包含抓取、移动、倾倒、分拣等多个连续动作,还需应对破损包装、物体卡滞等边缘情况,对视觉理解和动作协调都有较高要求。按照Rhoda AI披露的数据,这项任务仅使用约11小时的机器人真机操作数据,模型就能够稳定完成操作,甚至能连续自主运行1.5小时无人工干预。相比之下,传统依赖遥操作数据训练的机器人模型,往往需要数百小时甚至更长时间的数据才能达到类似水平。
案例二:容器拆解任务(Container Breakdown)。这是一个更接近工业环境的任务,机器人需要识别大型工业容器的结构,拆解卡扣、清理内部随机 debris、调整容器位置以触及死角,属于典型的多阶段流程操作。这项任务使用的机器人真机数据规模约为17小时,同样显著低于传统机器人训练规模。实验结果显示,DVA能稳定处理「卡扣未完全松开」「容器位置偏移」等问题,展现出长流程操作中的强鲁棒性——这也被团队视为视频预测路线的核心优势,因为模型通过长上下文记忆,能清晰把控任务步骤的先后逻辑。
总体来看,Rhoda AI想表达的核心逻辑非常明确:当机器人控制被转化为视频预测问题后,系统可以借助互联网规模视频数据学习物理世界的基本规律,从而大幅降低对昂贵机器人数据的依赖。在这种框架下,机器人并不直接学习「应该做什么动作」,而是先学习「世界接下来会发生什么变化」,再根据这些预测结果推导出动作策略——这正是DVA架构与主流VLA路线之间最大的差异。
DVA的潜力与挑战:机器人的Transformer时刻?
客观来看,DVA的架构确实具备创新性:通过将控制问题转化为视频生成,既降低了对遥操数据的依赖,又天然具备长上下文记忆(可处理多步骤任务)和可解释性(生成的视频可直观观察机器人决策逻辑)。这让人联想到Transformer在自然语言处理领域带来的范式转移,DVA或许能为具身智能领域带来类似突破。
但DVA的落地仍面临两大核心挑战:
1. 实时推理延迟。虽然Rhoda AI通过蛙跳推理降低了部分延迟,但现实世界的复杂性决定了机器人需要应对多变环境,部分实时操作(如快速避障、精准抓取动态物体)对响应速度要求极高。如果简单动作都需要数秒反应时间,会严重影响使用体验;而长流程任务(如做饭、组装)中,延迟累积可能导致任务失败。
2. 算力成本压力。尽管DVA在数据成本上有优势,但大量视频生成和长上下文处理需要极高的算力支持。如今全球算力资源稀缺,短期内算力使用成本难以大幅下降,这会限制DVA模型的规模化部署——尤其对中小型企业而言,算力门槛可能成为应用障碍。
所以,Rhoda AI的DVA模型是否能够真正改变行业,关键要看算力成本优化、实时推理适配等问题能否得到解决。如果这些问题能够突破,那么未来机器人学习世界的方式,可能真的会从「预测动作」变成「预测未来」,而这,也许正是具身智能的下一个范式转移。
参考链接:https://www.rhoda.ai/research/direct-video-action
作者:极悦娱乐
新闻资讯 News
- 欧洲承认犯了重大错误,中国机会...03-15
- 第三次风暴,杀过来了?03-15
- 33.5万只“龙虾”裸奔实测:全民...03-15
- 4.5亿美元融资背后:Rhoda AI ...03-15

