文献调研：RoboSplat 与 SplatSim

起初看 RoboSplat 的 Pipeline 时，我误以为它的核心是将 3DGS 和含关节的 URDF 绑定，从而在 Isaac Sim 或 MuJoCo 中利用视觉。但深入看下去发现并非如此，这一描述其实更贴合同期的另一个项目 SplatSim。

RoboSplat：数据增强的暴力美学

RoboSplat 的核心价值在于数据增强 (Data Augmentation)。
简单来说，它解决的是 “One-shot to Many” 的问题：输入一段 Franka 机械臂在正常光照下抓萝卜的视频，它可以生成出 Franka/xArm 在紫光/绿光环境下，抓取不同位姿苹果/香蕉/萝卜的视频。

其核心 Pipeline 逻辑如下：

Layer 1 (COLMAP)：基于特征点匹配计算相机位姿，生成稀疏 3D 点云。
Layer 2 (Depth Anything)：基于 RGB 图像预测深度图。
Layer 3 (3DGS)：将点云和深度图作为输入，迭代出由一组 3D 高斯椭球组成的静态场景。
Layer 4 (ICP)：粗对齐。比较机器人 URDF 模型和 3DGS 点云，利用迭代最近点算法让坐标系尽可能靠近。
Layer 5 (Differentiable Alignment)：精细对齐。利用 3DGS 的可微特性，构建 Loss 函数，通过反向传播消除 URDF 标准影与 3DGS 重建影的差值。
Layer 6 (Grounded-SAM)：场景分解。将死板的 3D 快照变成可交互的积木箱，实现对局部区域（如物体、机械臂）的独立替换与控制。

个人愚见：
RoboSplat 的逻辑是先重建完美环境 (Teacher/Oracle)，再训练 Student。这和我想做的“暗光多模态”契合度其实不高。如果在输入端就限制为 暗光 + NIR，会导致 3DGS 几何精度下降，物理碰撞就不准了。地基不准，训练出来的抓取策略也是歪的。

SplatSim：真正的 Sim2Real

相比之下，SplatSim 的路子更直：

离线建图：对着真实环境拍一圈，重建静态 3DGS 背景。
动态合成：根据仿真器里的机器人关节位置 (URDF)，把机器人的 3DGS 模型“画”在背景上。
以假乱真：RL 策略看到的图像几乎和真实世界一致，从而实现 Zero-Shot Sim2Real。

思考与转向：从视觉到物理

在调研中我曾考虑过 Re3Splat 或 RoboSplat 的暗光方向，但感觉强行做暗光意义不大，甚至可能拉大 Sim2Real Gap。

我注意到了一个更有意思的点：物体连杆化 (Articulation)。
与其纠结光照，不如利用机械臂的交互能力去“理解”物体。比如拉开一个抽屉，根据高斯椭球的位置变化判断关节，建立 URDF。

现有工作：ArtGS

四个月前上交发的 ArtGS 已经做了类似工作：

基于 VLM 先验得到初始 URDF。
通过机械臂交互，确认运动副并精细化 URDF。
局限性：它依然是基于“视觉误差” (Pixel Difference) 来反向传播修改关节轴向和位置。它忽略了 质量、惯性张量、阻尼 等动力学信息。

新的 Idea：物理感知的 ArtGS

我认为可以通过机械臂自带的 力矩传感器 (Torque Sensor) 来补全这一环。
结合 物理 3DGS (把高斯球视作有物理属性的粒子) 和 VLM (分析材质先验)，我们可以通过简单的交互，同时修正 URDF 几何参数和场景的物理属性。

相关佐证论文：

3DGS + MuJoCo (DeepMind)：实现了 看视频 -> 优化 3DGS -> 优化物理参数。但它没有依赖力矩数据，仅靠视觉对齐，无法精确得到摩擦、阻尼。
VLM + 行为树 + 力控：实现了 VLM 猜参数 -> 摸一摸 -> 修正参数。但用的是传统 Mesh，无法做到 Photo-realistic 渲染。
DPSI (UCLA)：针对软体面团，通过 Differentiable Point-cloud Loss，利用可微物理引擎反向传播优化物理参数。这证明了我的思路在理论上是可行的（虽然我要做的是刚体柜子）。