新闻资讯
新闻资讯

机器人也可以在他们思考的时候做到这一点!在

一个模型可以让您思考双手,混合毛衣,鸡尾酒。您也可以按照命令纠正自己的错误。在大多数机器人系统中,“大脑”(高阶推理)和“手和脚”(低阶控件)通常是两组模型。一个负责计划,另一个负责执行。劳动分裂似乎很明显,但经常感到羞耻:“计划是如此分散,手臂和腿部失控。”没有必要说,当人类暂时更改网络的单词,场景更改或停滞的网络时,两个子系统就会被理解并相互交流,从而大大降低了效率。 Onetwovla,Tingea大学,Hudang University,上海Qizhi Institute,上海人工智能研究所和Qianxun Intellent在一个统一模型中“破碎”了这两个系统,具有能力和反思性。当前,所有代码和数据都是开源。文档标题:Onetwovla:统一视觉Language Action Model with adaptive inference paper links: https://arxiv.org/abs/2505.11917 Project Home Page: https://one-two-vla.github.io/unified Architecture: Inference and actions "System 1? System 2? trance! The inference automatically enters important moments (the subtarte is finished, an error is detected and human instructions are required). The剩余的时间将直接产生低潜伏期的动作。我做到了。大型模型的生成:在Gemini 2.5 Pro +文学和图形模型的帮助下,16,000个桌面场景以及相应的任务/推理s文本是自动生成的,它们涵盖了空间,属性,语义引用,几个步骤的计划以及视觉分布的扩展以及在很大程度上的语言。四个技能完全蓬勃发展:从厨房到酒吧,机器人展示了“ 18种武术”。 1。长期计划:火锅大师,厨房专家和服务员可以想象机器人可以制作完整的炒西红柿或用火锅来帮助它。这不是科幻电影! Onetwovla在这些复杂的长距离任务中的表现令人震惊,纯VLA动作增长了30%,传统的“双重系统”解决方案增长了24%。当他进入过滤器时,无论他是计划牛肉片,稀薄的愤怒的真菌还是过滤器,无论他是用力量放置成分,机器人的动作还是作为经验丰富的厨师柔软而自然的。通过与合成视觉语言数据的协作培训,Onetwovla甚至可以理解d从未在培训中看到的说明,例如“从冰箱中消除冰尾瓶”。我巧妙地打开冰箱门,搜索并卸下尾巴。 2。错误的检测和恢复:佩里多?那不是问题,我会解决的!烹饪时人类有时会滑动双手,机器人也不例外。但是,是什么使Onetwovla他的自动加入能力。实时检测异常:拿一瓶?您想带一个过滤器吗?机器人很快意识到了问题。快速调整策略:当番茄和鸡蛋冷时,机器人发现第一次不了解油瓶,并立即进行推理并尝试第二次抓住它。响应速度比双重系统要好。传统的双系统解决方案通常由于模块之间的通信延迟而失去最佳恢复时间。 3。天然人类计算机的互动:服从,思考,“回应”此最令人惊讶的能力时间是:Onetwovla机器人不再是冷执行者:对新需求的灵活响应:在中间任务中,突然间您说“更改为柠檬风味”?好的,但是机器人将立即调整动作序列。主动寻求解释:当找到弥漫性指示时,机器人作为人类助手的积极态度。 4。一般视觉定位:验证,完全识别并找到OnetWovla。它表现出了开放世界的令人印象深刻的视觉理解能力。即使在训练数据中从未出现过精灵罐或一杯星巴克咖啡,仍然可以准确地识别出它。这种能力源于对空间关系,对象的特性和模型的语义功能的深刻理解。当您说“将绿色瓶子向左取”或“通过最大的杯子”时,机器人可以理解并准确地做到这一点。 “从示例中学习”的“旋转记忆”的跳跃表明机器人很可怕朝着真正的普遍智力迈进。重要性和透视图1。范式转换:从“两个模型的硬拼接”到“单个模型适应”,扩展RobotsCommon的技术路线越来越容易。 2。新数据思想:证明低成本自动推理语言数据可以显着改善机器人模型的概括和常识。 3。未来的地址:加强学习将进一步增加推理的深度。异步架构确实使零在思考时停止。巩固一个更大的开放语料库,并朝着更复杂的场景(例如户外,行业和服务)迈进。至于作者,该项目有三项作品:Lin Fanqi,Qi Yueqian和Hu Yingdong。 Lin Fanqi是Tsinghua大学Insection信息研究所的第一年博士生,他的主管是Gao Yang教授。您的研究方向是融合了智力及其对象IVE是允许机器人通过大规模数据具有人体水平的操纵功能。此外,他还使用了改善机器人功能的基本模型。我对此感兴趣。 Lin Fanqi在几个自动和机器人学习会议上发表了文章,包括ICLR,Corl,IRO等。 ORL 2024研讨会X-Embodiment最佳纸张奖。 Yu Ruiqian是Tsinghua大学Insection信息研究所的第三年博士生,他的主管是Gao Yang教授。它的主要研究地址是化身的智能,并致力于允许机器人通过大规模数据感知,推理和学习。 Yu Ruiqian在ICRA,AAAI,Newlips和其他机器人和自动学习会议上发表了他的文章。该研究项目涵盖了VLA,四腿机器人,人形机器人和其他方向。 Hu Yingdong是Tsinghua大学交叉信息研究所的四年级博士生,他的主管是高杨教授。他的主要研究局主要是情报,包括自动学习,机器人技术和计算机愿景的交集。他的研究重点是开发通用和广义的机器人系统,该系统允许在开放,非结构化和真实的环境中执行任务。 Hu Yingdong在几个自动和机器人学习会议上发表了其文章,包括ICML,ICLR,CORL,ECCV等。该项目的通讯作者是Tingjua大学交叉信息学院助理教授Gao Yang,该学院主要研究计算机的愿景和机器人技术。此前,他在特雷弗·达雷尔(Trevor Darrell)教授的领导下获得了加利福尼亚大学伯克利分校的博士学位。他还与彼得·阿布贝尔(Peter Abubeel)和加利福尼亚大学的其他人合作。在此之前,Gao Yang毕业于Tsinghua University Andhe的计算科学系贝叶斯推理中的朱朱朱恩教授的搜索工作。从2011年到2012年,他对Google Research的自然语言处理进行了调查,并于2016年在Google自治驾驶部门的Waymo Chamber认可团队工作,并于2018年与UN博士一起对一项自主极端自主驾驶研究进行了自主极端自主驾驶研究。超过5,000次。