众力资讯网

LingBot-Map 是一款面向流式数据的 3D 基础模型,可从连续图像序列中

LingBot-Map 是一款面向流式数据的 3D 基础模型,可从连续图像序列中快速重建三维场景。

它通过统一的 Geometric Context Transformer,将坐标定位、稠密几何信息和长程漂移校正整合到同一流式框架中,结合锚点上下文、姿态参考窗口和轨迹记忆,实现高精度的在线重建。

项目同时支持高效的流式推理,采用前馈架构与分页 KV 缓存注意力,在 518×378 分辨率下可稳定运行至约 20 FPS,并已能在超过 10 000 帧的长序列上保持高质量输出。

GitHub:github.com/Robbyant/lingbot-map

主要特性:- Geometric Context Transformer:单框架内融合坐标、几何与漂移校正- 高效率流式推理:前馈结构 + 分页 KV 缓存,支持 ~20 FPS 长序列- 卓越重建精度:在多个公开基准上超越现有流式与迭代优化方法- 灵活推理模式:支持关键帧间隔与滑动窗口,轻松处理超长视频- 跨平台可视化:浏览器交互查看器与离线渲染管线双覆盖

项目提供 conda 一键安装与 FlashInfer 加速选项,兼容 Web 与本地 GPU 环境,适合研究者和开发者快速上手。

3D重建 流式重建 基础模型