文献调研:RoboSplat 与 SplatSim

起初看 RoboSplat 的 Pipeline 时,我误以为它的核心是将 3DGS 和含关节的 URDF 绑定,从而在 Isaac Sim 或 MuJoCo 中利用视觉。但深入看下去发现并非如此,这一描述其实更贴合同期的另一个项目 SplatSim

RoboSplat:数据增强的暴力美学

RoboSplat 的核心价值在于数据增强 (Data Augmentation)
简单来说,它解决的是 “One-shot to Many” 的问题:输入一段 Franka 机械臂在正常光照下抓萝卜的视频,它可以生成出 Franka/xArm 在紫光/绿光环境下,抓取不同位姿苹果/香蕉/萝卜的视频。

其核心 Pipeline 逻辑如下:

  • Layer 1 (COLMAP):基于特征点匹配计算相机位姿,生成稀疏 3D 点云。
  • Layer 2 (Depth Anything):基于 RGB 图像预测深度图。
  • Layer 3 (3DGS):将点云和深度图作为输入,迭代出由一组 3D 高斯椭球组成的静态场景。
  • Layer 4 (ICP):粗对齐。比较机器人 URDF 模型和 3DGS 点云,利用迭代最近点算法让坐标系尽可能靠近。
  • Layer 5 (Differentiable Alignment):精细对齐。利用 3DGS 的可微特性,构建 Loss 函数,通过反向传播消除 URDF 标准影与 3DGS 重建影的差值。
  • Layer 6 (Grounded-SAM):场景分解。将死板的 3D 快照变成可交互的积木箱,实现对局部区域(如物体、机械臂)的独立替换与控制。

个人愚见
RoboSplat 的逻辑是先重建完美环境 (Teacher/Oracle),再训练 Student。这和我想做的“暗光多模态”契合度其实不高。如果在输入端就限制为 暗光 + NIR,会导致 3DGS 几何精度下降,物理碰撞就不准了。地基不准,训练出来的抓取策略也是歪的。

SplatSim:真正的 Sim2Real

相比之下,SplatSim 的路子更直:

  1. 离线建图:对着真实环境拍一圈,重建静态 3DGS 背景。
  2. 动态合成:根据仿真器里的机器人关节位置 (URDF),把机器人的 3DGS 模型“画”在背景上。
  3. 以假乱真:RL 策略看到的图像几乎和真实世界一致,从而实现 Zero-Shot Sim2Real。

思考与转向:从视觉到物理

在调研中我曾考虑过 Re3Splat 或 RoboSplat 的暗光方向,但感觉强行做暗光意义不大,甚至可能拉大 Sim2Real Gap。

我注意到了一个更有意思的点:物体连杆化 (Articulation)
与其纠结光照,不如利用机械臂的交互能力去“理解”物体。比如拉开一个抽屉,根据高斯椭球的位置变化判断关节,建立 URDF。

现有工作:ArtGS

四个月前上交发的 ArtGS 已经做了类似工作:

  • 基于 VLM 先验得到初始 URDF。
  • 通过机械臂交互,确认运动副并精细化 URDF。
  • 局限性:它依然是基于“视觉误差” (Pixel Difference) 来反向传播修改关节轴向和位置。它忽略了 质量、惯性张量、阻尼 等动力学信息。

新的 Idea:物理感知的 ArtGS

我认为可以通过机械臂自带的 力矩传感器 (Torque Sensor) 来补全这一环。
结合 物理 3DGS (把高斯球视作有物理属性的粒子) 和 VLM (分析材质先验),我们可以通过简单的交互,同时修正 URDF 几何参数和场景的物理属性。

相关佐证论文:

  1. 3DGS + MuJoCo (DeepMind):实现了 看视频 -> 优化 3DGS -> 优化物理参数。但它没有依赖力矩数据,仅靠视觉对齐,无法精确得到摩擦、阻尼。
  2. VLM + 行为树 + 力控:实现了 VLM 猜参数 -> 摸一摸 -> 修正参数。但用的是传统 Mesh,无法做到 Photo-realistic 渲染。
  3. DPSI (UCLA):针对软体面团,通过 Differentiable Point-cloud Loss,利用可微物理引擎反向传播优化物理参数。这证明了我的思路在理论上是可行的(虽然我要做的是刚体柜子)。

实施方案 (Roadmap)

如果沿着这个方向做下去,核心工作在于整合 ArtGS 和 Real2Sim based on Active Perception。

核心逻辑:
以 ArtGS 为骨架保留几何重建能力;借鉴 DeepMind 引入可微物理层;利用力觉交互逻辑,将真实的力/力矩数据作为动力学监督信号。

展望
力矩本身就含有一种“弱视觉”的意味(瞎子摸象),这其实天然适合暗光场景。后续或许可以做 RGB + NIR + Torque 的多模态分析,但这都是后话了。