发布日期:2025-07-06 11:47 点击次数:171
具身智能当中校园春色 自拍偷拍,手脚空间的异构一致性问题带来的泛化瓶颈有解了!
清华智能产业盘问院(AIR)团队和筹商汤盘问院等机构发布了首个基于通用手脚空间的具身基础模子框架UniAct。
UniAct 以视觉话语模子为中枢,构建了首个 tokenized 通用手脚空间,处分了具身智能中的通用手脚异构一致性繁重。
在多项巨擘评测中,UniAct都越过了参数目达 14 倍的顶尖敌手OpenVLA。
咫尺,UniAct 代码与论文已开源。
制约智能体泛化的瓶颈
在东说念主工智能领域,视觉、话语类基础模子通过海量数据检修收尾跨模态泛化,但具身智能的构建却因手脚空间的异质性堕入瓶颈。
不同机器东说念主(如机械臂、四足机器东说念主、汽车)因物理口头、遏抑接口互异,其手脚辅导在物理空间中呈现"不相疏通形",具体来说不错体咫尺三个方面:
执行互异:机械臂的结尾践诺器(EEF)位置与四足机器东说念主的要道角度,物理含义天悬地隔;
遏抑接口各样性:归并辅导(如"执取物体")在不同机器东说念主中可能升沉为 EEF 速率或要道扭矩;
多模态过问:东说念主类操作家的手脚立场互异进一步加重数据冲突。
传统设施尝试通过微调或团员异构数据缓解问题,但奏效甚微。
多数盘问被动将异构手脚空间"强行对都",导致相通编码代表不同物理行为,致使激励遏抑逻辑雄伟。
从"通用原子行为"到"跨具身泛化"
团队惨酷的 UniAct 框架,以视觉话语模子(VLM)为中枢,构建了首个 tokenized 通用手脚空间。
UniAct 通过三大改进收尾打破校园春色 自拍偷拍。
一是通用手脚编码,也即是将不同机器东说念主的原子行为(如"移动到倡导位置""避弛防止物")封装为向量量化的 codebook,每个 token 代表可跨机器东说念主分享的通用手段。
这种筹算既保留了手脚的物理因果性,又排斥了异构性
二是异质解码器,即针对不同机器东说念主平台,通过轻量化解码器添加执行感受特征(如要道力矩)或不同录像头视角下的图像,将通用手脚退换为可践诺辅导。
举例,机械臂需 EEF 位置遏抑,男人第四色而四足机器东说念主需要道角度辅导,解码器可动态适配。
三是轻量化架构,UniAct-0.5B 模子仅用 0.5 亿参数,即在对现实与模拟机器东说念主任务的测试中越过 14 亿参数的 OpenVLA,考据了通用手脚的高效性。
复杂场景下的"万能选手"
在包含大视角变化(如第三东说念主称转第一东说念主称)和未识趣器东说念主类型(如双臂机械臂)的测试中,UniAct 展现了惊东说念主的泛化智商。
UniAct 凭借跨机器东说念主转移与复杂环境稳妥智商,在委果寰宇和仿真环境的不同机械臂任务下,大幅教悔任务胜仗率。
而且领有极高的数据驱散,仅需 50 条示教的机器东说念主专用数据即可完成模子到新环境的微调。
在通用手脚异构一致性上,通过大宗的异构数据预检修,UniAct 框架也探索出了具有高度一致的通用手脚空间。
如下图所示,归并个通用手脚表征不错在统共不同的部署场景和具身智能体上推崇出一致的行为模式。
此外,高效的异构解码机制让 UniAct 具备了可径精辟速部署的通用手脚,为遏抑具身智能体提供了新的形势,通过从码本中径直挑选通用手脚即可遏抑不同具身智能体完成指定的任务,play with code!
作家暗意,UniAct 的打破为具身智能的 Scaling Law 探索提供新念念路。
UniAct 讲明了通用手脚是解锁具身基础模子后劲的枢纽钥匙。
传统设施依赖单一机器东说念主数据,而 UniAct 通过分享通用手脚空间,使模子能罗致大家众包数据的精华,有望打破数据领域遏抑。
自慰自拍面目主页:
https://2toinf.github.io/UniAct/
论文地址:
https://arxiv.org/abs/2501.10105
GitHub:
https://github.com/2toinf/UniAct
一键三连「点赞」「转发」「着重心」
迎接在指摘区留住你的想法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 面目主页集会,以及推测形势哦
咱们会(尽量)实时复兴你
� � 点亮星标 � �
科技前沿进展逐日见校园春色 自拍偷拍