众力资讯网

Apple新公开的专利申请文件显示,公司正在研发一套精密成像系统,借助全新AI模

Apple新公开的专利申请文件显示,公司正在研发一套精密成像系统,借助全新AI模型,可将普通二维照片或单通道视频转化为三维画面,支持多角度观看。

这项技术勾勒出这样一种未来图景:用户用iPhone、iPad、Mac或其他设备拍摄的平面图像,能够转换成沉浸感更强的场景,既可在Vision Pro、后续头戴设备上浏览,也能在普通显示屏呈现视差效果。

Apple此举的核心目标十分明确:无需借助专用立体相机、全套深度传感设备拍摄原图,就能让现有的二维内容具备空间观感。整套系统仅需解析单张图像,估算场景深度信息,生成用于还原画面样貌的3D高斯数据,随后便能从不同视角渲染出新画面。

这项专利对Apple的空间计算布局有着关键意义。Vision Pro已经为Apple搭建起高端沉浸式媒介载体,但全球海量影像素材依旧以平面形式存在。这套将普通二维图像转化为逼真三维画面的技术,有望填平二者之间的鸿沟。

Apple这套技术方案的核心是一条处理管线,输入素材为记录场景的二维图像。系统会先测算场景各区域的深度信息,再结合原图与深度数据,生成由3D高斯数据构成的画面模型。

简单来说,系统会先判断三维空间内各类物体表面的位置,再通过大量微型高斯单元还原这些表面。单元参数包含位置、色彩、形态、尺寸、透明度等信息。生成该模型后,系统可基于3D高斯数据渲染出高斯溅射画面,实现多视角浏览。

最终成品绝非仅添加模拟模糊效果的平面照片。苹果所描述的空间模型具备更高灵活度,支持多视角切换,画面可跟随观看者、设备的移动产生对应变化,也能分别适配人眼左右两个独立视角。

这份专利最值得关注的创新点,是将3D高斯数据作为画面中间载体。高斯溅射如今已是计算机图形学的核心技术,能在保留丰富视觉细节的前提下,高效渲染复杂场景。不同于传统多边形三维模型构建方式,整套场景由大量分布在空间中的柔化单元组成,再投射至观看者视角。

Apple在文件中提到,相比其他二维转三维方案,该技术速度更快、能效更高。这一点至关重要,因为Apple计划在存在功耗、散热、算力限制的设备上实现实时或近实时运算,涵盖头戴设备与移动终端。

专利同时指出,这种模型能够减少画面失真瑕疵,还原更真实的视觉效果。二维转三维技术普遍存在一大难点:当观看者转动视角,原本被遮挡的区域需要完整呈现,画面极易出现崩坏。Apple的方案通过融合深度估算、分层高斯建模、内容延展渲染技术,针对性解决该问题,必要时自动补全、拓展画面内容。

Apple列举了多种转化内容的浏览方式:头戴显示设备:系统可为左右眼分别渲染独立画面,形成立体景深观感。近处物体左右眼画面差异更明显,远景差异微弱,打造出分层立体场景。

2.单屏设备(iPhone、iPad、Mac等):动态生成视差效果。用户转动头部、挪动设备时,前置摄像头或其他传感器捕捉动作变化,同步调整画面视角。前景、背景随视角产生不同幅度位移,营造立体纵深。

3.镜头特效调节:支持焦距改动,拍摄完成后可修改画面透视效果,既能校正畸变,也能优化构图,让画面观感更自然。

专利介绍了一套专用管线架构,专门用于将单张二维图像、单通道视频转化为3D高斯模型。其中一个实施方案包含两大模块:单目深度网络(从图像估算深度)、高斯生成器(输出3D高斯模型)。

二者存在关键区别:该功能不强制依赖深度相机,仅凭借单目图像内容就能推演深度,意味着所有普通照片、视频素材均可适配,无需专用空间拍摄硬件。

整条管线可采用机器学习、固定规则算法,或是二者结合的方式运算。Apple还设计了轻量化引擎,部分流程无需完整神经网络即可运行。这种灵活设计说明,Apple会根据设备性能、算力余量、隐私与性能需求,部署不同版本的处理方案。

平面图像转三维场景的最大难点,是处理原相机视角下被遮挡的画面内容。当观看者变换位置,前景遮挡物后方的区域会显露出来;原生三维拍摄素材自带该部分信息,单张二维图像却没有任何相关数据。

Apple专利给出解决思路:通过图层延展、生成合理的遮挡区域内容实现补全。部分方案会将3D高斯单元按深度分层,例如前景人物层、背景墙体层;延展各图层后,即可还原原视角被遮挡、新视角可见的画面。

这也是专利最亮眼的设计之一,可见Apple并未止步于基础深度映射。系统除了区分画面前后景,还会预判视角偏移后需要生成、重构的画面内容。

专利还提及一项实用摄影场景:超广角图像优化。超广角镜头会拉伸画面边缘物体,造成人脸、肢体等主体畸变;多人合影中,前排人物还会遮挡后方人群。

这套3D高斯转化管线可调整虚拟相机参数,包含焦距、机位。修改虚拟焦距能够缓解广角带来的拉伸畸变;挪动虚拟机位则可轻微变换画面透视,还原原本被遮挡的人脸、物体局部。

这项功能有望成为计算摄影的重磅特性:不同于仅在二维平面校正镜头畸变,Apple依托场景三维模型调整透视、优化构图,解决传统图像处理难以修复的画面问题。

这项技术与Vision Pro及Apple后续空间设备高度契合。头戴设备的沉浸式体验高度依赖景深画面,但用户产出的绝大多数素材仍是二维平面内容。借助这套系统,用户无需全程用专用空间格式拍摄,就能将普通照片转化为更具沉浸感的空间记忆素材。

以往的旧照片也能在空间计算设备中重获全新观感:家庭合照、风景照、旅行影像、集体合影可投射在虚拟大屏或虚拟观景窗口,自带立体景深与细腻视差。观看者虽无法完全环绕场景走动,但画面反馈足够真实,大幅提升临场感。

专利同时明确,该技术并非仅限头戴设备使用,iPhone、iPad和MacBook等设备同样可动态切换视角,在普通屏幕上模拟三维观感。

单目图像转六自由度三维模型:专利最核心的突破是利用3D高斯数据,让单张平面图像支持六自由度浏览。并非简单模拟浅层景深,在合理范围内,用户可围绕原相机机位多角度观看画面。

多维度AI训练体系:采用合成数据与实景数据联合训练,搭配真值视角、损失函数优化被遮挡区域的重构效果。这套AI成像系统不仅能估算深度,还能学习场景在不同视角下的真实样貌。

视角专属特效还原:针对性处理反射、高光、透明、折射等随视角变化的复杂视觉元素。二维转三维系统很难还原这类效果,苹果通过高斯模型编码、推演相关光学属性,让画面跟随视角变化呈现自然光影。

这份专利恰好契合Apple三大核心布局:计算摄影、生成式人工智能、实时渲染与空间计算。技术的意义不只是提升照片视觉冲击力,更是打造一套通用、丰富的视觉内容模型,跨设备、多浏览模式通用。

对iPhone用户而言,未来可实现更精细的修图、透视校正、空间照片转换、交互式相册;对Vision Pro用户,海量平面素材将适配空间环境;放眼Apple全生态,这套通用成像框架能让平面媒体灵活适配各类设备,增强沉浸感。

专利也解释了Apple大力投入端侧智能的原因:单张图像转化为逼真3D高斯场景,需要深度估算、场景解析、渲染优化,有时还需生成重构遮挡内容。整套运算最好在用户本地设备高速、私密、高效完成。

Apple这份专利描绘出一种未来:普通照片与空间记忆的边界将逐渐模糊。标准二维照片可升级为具备深度、响应视角变化的动态场景,单通道视频也能实现更强沉浸感;合影的广角畸变可一键校正,画面透视更自然。

和所有专利申请一样,无法保证Apple会完全按照文件方案推出商用功能,但这份文件印证Apple正在攻克空间计算领域最具实用价值的难题:如何让海量平面影像素材在三维环境中生动呈现。

若正式落地,该技术会成为Apple空间媒体战略里低调却关键的支柱。既能盘活存量照片、视频素材的沉浸潜力,提升Vision Pro日常影像记录的使用价值,也能将高端三维渲染技术普及至Apple全产品线。