具身智能技术路线入门

Posted Jan 16, 2026

By Zepeng Lin

8 min read

具身智能技术路线入门

本文基于YunlongDong 的具身智能基础技术路线Talk进行总结

检测分割

SAM系列

SAM:进行图片level的分割
SAM2: 进行video level的分割
SAM3:promptable segmentation in images and videos
- 衍生产品: SAM3D 可以进行3D物品生成也可以进行人体生成有 object 和body 两个版本

数据

Video

更多paper可以参考(这个仓库好久没更新了后续fork完会持续更新):

https://github.com/H-Freax/Awesome-Video-Robotic-Papers

优点：

最容易获取的数据源
海量且多样化的数据
以人类全速

缺点：

重建过程中存在巨大空白和
状态可能不是第一人称视角，也可以是来自不同的视角角度，引入了较大的状态间隙
动作必须完全从原始数据中推断，通常通过来自其他模型的伪标记过程（例如骨骼追踪器 / 人类手部追踪器)，容易误差累积
如果没有完整的人体景深，轨迹在运动动力学上可不可行，因为躯干会倾斜、重量转移，伸手，等等

轻量级的硬件收集示范数据

小型设备

ALOHA : 双臂轻量收集数据设备
GELLO :

优点：

跟随机器人配备了完整的传感器套件，可以记录所有
所有演示活动动力学上可行，就他们本来的样子在机器人上执行

缺点：

通常比人类慢得多（最多可达10倍！）直接用手完成任务
操作员需要数周的练习才能熟练足以让数据用于训练
需要现场配备全机器人收集数据——这非常重要规模化采集的生产与资本需求

手套型设备

DexCap:手套

HIRO Hand :套在手指上的设备来收集示范数据

优点：

操作员学习更快
更快的演示
规模化部署成本更低（例如通用型4, 星期日5)

缺点：

噪声重构和，引入一个域间隙可能严重损害策略性能
本体感觉和作用需从SLAM推断末端执行器姿态估计
摄像机图像中，所有的都是人类手臂拿着装置，但在推断时间，机器人看到的是机器人手臂
运动动力学的可行性无法保证——人类可以伸手出去作为演示的一部分，或者用手臂达到机器人无法做到的姿势(人类的工作空间往往比机器人的工作空间大)

重量级的硬件收集

VR
外骨骼

生成式仿真

RoboGen
Gen2Sim
RoboTwin
InternData-A1
MimicGen

这也是我最focus 的一个方向所以更多阅读paperlist会在后续开源

动作执行

Imitation Learning

主流Model

ACT:

Diffusion Policy :

\(\pi\) 系列: \(\pi 0\) ,\(\pi_{0.5}\) ,\(\pi_{0.6}\)

缺点:

out of distribution states :
- 光照等环境变量的突然改变就会导致prediction改变
- partially observation 会导致动作偏移
- 多义性动作比如你绕柱子可以从左边绕也可以从右边绕没有保证.
- prediction error 的accumulation 导致最后完全不像样

摆脱OOD 算法

DAgger:

Speed Up Topic

保留Fastest Demonstration : 会导致损失大量数据而导致model失去鲁棒性
condition on speed:
把策略的动作以“比真实时间更快”的频率去执行 :（本来策略/控制是 50Hz（每秒 50 次控制指令),你改成 70Hz（每秒 70 次)) 相当于让机器人“快进”跑:
- 会压垮底层控制系统（low-level control stack） 低层控制、通信、驱动、传感器处理都有带宽/延迟/稳定性上限。你强行提高频率，会导致指令来不及处理、抖动、延迟累积,控制环不稳定或性能变差
- 会让与真实物理交互变得不正确 世界的物理过程有“真实时间尺度”：比如物体落下、布料飘落、震动衰减、摩擦滑动停止……这些需要时间发生。你把控制循环加速，相当于在更短的真实时间里发出更多动作/推进更多决策步，但物理世界并不会跟着“快进”，于是策略里那些“等它稳定/等它落下”的隐含假设就失效。

Affordance:检测物品的可操作部分

RoboAffordance:

AffordPose :

SceneFun3D :

更多paper可以参考: https://github.com/hq-King/Awesome-Affordance-Learning

大模型的应用

利用大模型的QA来采取action

ManipLLM :

ManipVQA :

大模型的planning 能力

World Model

3D VLA

LAPO

Reinforcement Learning

伟大的愿景(自进化系统)

自己收集自己的训练数据,并从训练数据中提升.
当他们困在bad state, 可以通过自己探索来摆脱, 然后自己学会以后不要再犯
they can automatically get faster, becoming super-human at the task for their embodiment

相比于大模型RL的区别

大模型:

LLMs are able to be rolled out an unlimited number of times from the identical state
LLMs start with a very strong base policy(保证base policy的成功率一定 > 0从而数据飞轮可以转起来)

高质量Paper关注list

高质量会议与期刊（论文检索时重点关注） Science Robotics, TRO, IJRR, JFR, RSS, RAL, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NeurIPS, CoRL, ICLR, AAAI, ACL

长期跟进研究进展与选题调研

Awesome Humanoid Robot Learning（Yanjie Ze）：repo
Paper Reading List（DeepTimber Community）：repo
Paper List（Yanjie Ze）：repo
RoboScholar / Embodied AI Paper List（Tianxing Chen）：repo
SOTA Paper Rating（Weiyang Jin）：website
Awesome LLM Robotics：repo
Awesome Video Robotic Papers：repo
Awesome Embodied Robotics and Agent：repo
awesome-embodied-vla / va / vln：repo
Awesome Affordance Learning：repo
Embodied AI Paper TopConf：repo
Awesome RL-VLA for Robotic Manipulation (Haoyuan Deng)：repo

Embodied AI

This post is licensed under CC BY 4.0 by the author.