新闻动态

news dynamic

首页 - 新闻动态 - 学术报告 - 正文
研究院举办2026年第二期阅读报告分享会

发布日期:2026-03-19

3月16日,天津大学医疗机器人与智能系统研究院开展2026年第二期研究生阅读报告分享会,研究院2022级博士陈梦洁围绕CVPR 2025论文《Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors》进行了报告分享。

该工作由伦敦大学学院(UCL)与Naver Labs Europe合作完成,提出了一种更灵活、更通用的三维视觉回归模型。从整体定位上看,Pow3R是在DUSt3R的基础上,进一步建立“让模型在推理阶段按需利用先验信息”的能力。在模型层面,Pow3R的总体架构延续了DUSt3R以图像对为输入、以点图回归为核心的基本路线,增加了可选的先验输入通道,使模型能够同时接收图像信息与辅助几何信息。

Pow3R模型总体架构

Pow3R按照信息属性分别注入网络,先验信息不仅是后处理中的附加约束,在前向推理过程中也可成为真正参与几何恢复的条件信号。该方法带来了两个较有代表性的能力提升。一方面,传统模型在处理宽幅或高分辨率图像时,往往需要裁剪或缩放输入,容易造成视野缺失和细节模糊。Pow3R利用相机内参后,可以更稳定地支持原生分辨率下的滑窗推理,在保留全局视野的同时提升局部细节恢复能力。另一方面,模型在输入的深度信息非常稀疏的情况下也能将其与图像内容有效融合,恢复出更完整、更合理的深度结果。


先验信息带来高分辨率推理与稀疏深度补全

实验结果表明,随着测试阶段逐步加入相机内参、深度信息和相对位姿,模型在焦距估计、深度预测和相对位姿恢复等多个任务上都取得了持续提升。同时,Pow3R在高分辨率多视图深度估计和深度补全任务中也表现出较强竞争力。值得一提的是,这种提升并不依赖某一种固定先验,体现出了模型能够适应不同组合的信息条件,并从中持续获益的优势。

不同先验对模型性能提升的综合验证

进一步的可控性实验表明,模型可根据输入先验主动调整重建结果,将其纳入推理过程。当旋转先验或焦距先验接近真实值时,输出更准确;当先验偏差过大时,重建质量也会明显下降,验证了先验信息的有效、可控性。这对机器人视觉和医学场景而言具有实际意义,也提示后续研究需要更加关注先验误差带来的影响和提升先验融合的鲁棒性。

相机先验可控性测试

Pow3R的学术贡献主要体现在两个层面。第一,它提出了一种统一的多模态先验引导三维重建框架,使三维视觉模型可以根据实际条件灵活利用内参、位姿和深度等辅助信息。第二,它证明了这种能力不仅能提升传统三维重建性能,还能自然扩展出高分辨率推理、点云补全和更高效位姿恢复等新能力。对于医学机器人、术中视觉导航和复杂环境感知等方向而言,这篇工作带来的启发在于未来的三维感知模型不应局限于图像,而应更主动地融合系统中本就存在的结构化先验,从而实现更高质量、更高可靠性的空间理解。


文献来源:

[1] Wonbong Jang, Philippe Weinzaepfel, Vincent Leroy, Lourdes Agapito, Jerome Revaud. Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors. CVPR 2025. arXiv:2503.17316.


研究方向