引言
学科背景
随着摄像学的发展,在光学的传统摄像方式下,摄像学发展遇到了阻碍,传统光学摄像具有着无法凭借自己解决的自身劣势和缺点,同时,人类对于广袤的宇宙的好奇和自身仅有的几种微弱的感知方式的卑微,使得我们不得已用其他感知方式去再现或用更强大的感知能力去探索。因此,计算摄像学不可避免的诞生了。计算摄像学是图像信号处理和计算光学的交叉学科,或是有认为是计算机图形学、计算机视觉、图像处理和光学工程的多交叉学科。
国际前沿
计算摄像学在今天已经具有了比较成功的研究成果,如Google无人驾驶汽车,宾西法尼亚大学Vijay Kumar研究下的微型四旋翼飞行器自主编队和微型四旋翼飞行器集群自主协同,诺贝尔奖获得者加州理工学院教授Ahmed Zewail研究下的四维电子显微镜和麻省理工学院Media Lab研究下的拐角检测等。
前景
计算摄像学据有着广泛的应用前景,更甚至能回答光速无限的科学问题,可应用在医疗手术、救灾避险、科学研究、艺术美术等多个不同的领域和行业。需求是随着科技的变化在变化的,还有更多计算摄像学的应用领域和方式是当前阶段难以想象的。
理解
计算摄像学的发展
1893年第一台照相机诞生之日起,我们首次发现再现眼前多姿多彩场景的一个方式:摄像。当然,人类的感知方式是多种的,有触觉、听觉、嗅觉以及视觉。视觉作为一种主要的感知方式,一直是我们与世界交流的重要桥梁之一,它伴随着我们发现世界、探索世界。因此当发现我们可以“低质量”地再现视觉化的真实世界后,二十世纪初发展之今,为了能够更“真实”地还原场景,自然而然地,摄像历经了四个阶段的发展,随着人类对真实世界的好奇心的扩展而一步步发展。摄像学经过了三个阶段的发展,模拟成像、数字成像再到计算成像。也有学者把数字成像称作光电成像,我在学习中没有找出两者大的差别,因此人做两者为同一阶段。从模拟成像中的可见光成像到数字成像为可见光成像并进行数字处理,在我看来,如果把模拟成像看作是单一步骤-图像捕捉,数字图像则是在图像捕捉的基础上对既得图像进行数字处理,对图像进行个性化的场景描述。在模拟成像阶段,依靠的是光学器件而数字成像阶段人们依靠的是光化学和微电子。在计算成像阶段,是光学成像和计算。 如今,除了国际前沿的研究成果,计算摄像学已经逐渐走入了人们的生活。生活中的拍照,部分智能手机已经应用了计算摄像学的研究成果拍出更鲜艳、更细节的照片。
必然性
计算摄像学的发展在我看来是具有必然性的。首先,摄像学如前文所叙述的那样,在我看来是人类视觉化世界的重现,它的质量和能力范围是人类好奇心驱使下必然发展的。但是传统光学摄像有着自身难以克服的困难,单视角、固定光照、固定焦距和固定动态范围导致了传统光学摄像不依靠数字图像处理是难以进行高可见性、高分辨率、高精确度的场景计算采集和计算重构。高可见性、高分辨率和高精确度在我看来正是计算摄像学发展的三个要素,而计算采集和计算重构正是计算摄像学在成像机制下的两个环节,下文将逐一展开。
计算摄像学发展的必要性在于人类对平面化(现阶段成像成果)成像结果的不满足。在数字成像阶段,为了得到高质量的光学成像结果,需要对图像进行数字处理,这时计算摄像学解决的是提高质量的需求。在计算成像阶段,我们得以更早地介入成像过程,从而可以更大程度的优化成像过程。对成像结果的优化和成像能力的不满足必然会导致计算摄像学发展。
计算摄像学发展的必要性在于人类对平面化(现阶段成像成果)成像结果的不满足。在数字成像阶段,为了得到高质量的光学成像结果,需要对图像进行数字处理,这时计算摄像学解决的是提高质量的需求。在计算成像阶段,我们得以更早地介入成像过程,从而可以更大程度的优化成像过程。对成像结果的优化和成像能力的不满足必然会导致计算摄像学发展。
成果
如引言中所说,现阶段计算摄像学已经取得了不小的成果。总结而言还是扩展功能和提高质量两个需求,但是这两个需求往往是相结合的,扩展功能的同时需要提高质量,而提高质量到一定程度就需要扩展功能。我在这里想讨论的除了以上一些具体的应用之外,即应用需求明确、功能清晰的研究之外还有一些前瞻性的研究成果,但同样令我惊叹。
David Brady教授2012年在Nature提出了十亿像素成像系统。许多的学者都把这一系统当作启发性的介绍手册进行计算摄像学的科学普及,由于这个系统的细节化程度之高以及视角范围之广是令人惊叹的。十亿像素成像系统自然会有广泛的应用领域,赛事直播、空中侦察等。而由于计算摄像学是一门交叉学科,它的发展依赖于其他学科的发展水平,而虽然十亿像素成像系统令人向往,在现阶段若是落地实现应用,耗费自然是巨大的,需要巨大的计算能力和采集能力,这是无法在应用中轻松解决的。
麻省理工大学2013年研究下音频还原是另一个前瞻性的研究。它在于对图像采集过程中图像的变化而计算物体在声波震动下发出的声音从而还原声音。这一研究是把视觉化的摄像过程通过计算得出听觉化的声波,从而改变了摄像学的性质。我从来认为设想学和计算摄像学的成果都是视觉化的计算成果或光学成像结果,然而这一研究打开了我的思路,计算摄像学是可以通过计算把视觉化转化为听觉化或其他感知能力的研究,这与它扩展功能的需求是不违背的。
计算摄像学的内容
原理及观点差异
目前成像装置的普适架构是从光学系统到传感系统,再进行计算补偿,也就是物理世界的光信号转化为数字信号,再转化为计算信息。在信息的转化过程中,自然会有信息的缺失和错误,而这也是计算摄像学也要解决的问题和瓶颈。在第一个阶段的转化过程中,光学系统到传感系统也就是真实场景到采样系统的转化。真实物理世界的高维信号需要转化为低维子空间采样信号,这也是传统光学摄像解决和操作的问题,在模拟成像阶段和数字成像阶段,这一环节不需要计算,仅靠光学元件或光电元件。而从传感系统到计算补偿,则需要计算重构进行数字信号到计算信息的转化。
也有人认为,摄像过程是拍摄、成像、图像处理与计算。两者的观点是不同的。这种观点认为计算是独立于各个环节外的。在数字成像阶段,从传感系统到计算补偿是经过了两个环节,一是传感器经过图像信号处理器得出数字图像,二是数字图像经过处理得出最后成像结果。而在计算成像阶段,计算是贯串于各个环节的,甚至在光经过透镜被传感器接收的环节也是计算的。
两者观点的区别在于第一种观点认为计算补偿是在传感系统之后的,是一种后端的处理,而第二种观点则大胆的认为,计算是可以存在于所有环节,是可以无限将计算向前端扩展而介入成像过程的。我个人能倾向第二种观点,因为第二种观点给出是通过物端编码或瞳面编码或焦面编码和计算解码可以改变相关的光路进行成像是第一种观点所没有想多或提及的思路和方法,证明计算是可以更早介入到成像过程的,在传感器之前就能通过计算处理光信号的。除此之外我认为二者没有很大本质差别,因为第二种观点的两个环节可以并作为第一个观点中的计算补偿环节。
两个问题
光是真实物理世界的载体,由于传统光学成像的自身劣势,计算摄像学视觉化的表现弥补的一是看不见,而是看不清的问题,甚至还有看得清。
看不见
看不见是指人类的视觉化器官有限,从而物理系统到光学系统再到感知系统,也就是光信号经过眼睛,神经将信号传达到大脑,我们可以感知的光是有限的,而物理世界中光的光谱范围是巨大的。看不见也是指光学元件把光信号传达到传感器,传感器能接受的光信号是有限的。两个因素都是看不见,我们看不见红外光波,看不见障碍物后的物体,器官的局限性和传统模拟成像的局限性导致了我们看不见。而计算摄像学可以通过传感器接收我们无法感知的光信号,转化为或数字化或图像化可被感知到的信号被我们所接收,如太空望远镜等。
看不清
看不清同样是器官和传统模拟成像的局限性造成的,对器官或照相机能力范围之内取得的成像结果不清晰,不够细节化。器官局限如我们看不清太远的物体,照相局限如看不清照相机下微小的物体,近距离的物体、看不清长曝光或短曝光下的物体,看不清未聚焦的物体。而计算摄像学可以进行编码、采样和重构,还原事物的清晰模样,如图像去雾等。
有时也有我们不想看清但看得清的物体,计算摄像学也可以进行模糊让我们看不清。
两个阶段
数字成像阶段
在数字图像阶段,计算发生于成像过程中传感器与数字图像间和得到数字图像之后。前端通过图像信号处理器(Image Signal Processor)将前端CCD等传感介质输出信号进行处理,后端通过计算处理已有图像的质量问题。
前端应用:通过拜尔滤色镜加入后,对信号图像进行线性插值和低通滤波进行去马赛克(Demosaicing)处理;利用控制单元进行3A调整,即自动对焦(Auto Focus),自动曝光(Auto Explosure)和自动白平衡(Auto White Balancing)……
后端应用:通过数字图像处理对已有图像进行去雾、去噪等;麻省理工大学的音频还原……
总结而言,数字成像阶段的计算都是在前端成像环节进行,而步骤和方法也相对简单,从而达到对结果成像质量的改善。
计算成像阶段
在计算成像阶段,计算是存在于成像过程的各个环节的,不再是单一对光信号的频谱进行处理,而是更早地介入成像过程,通过对物端进行编码,并在后端进行计算解码而可以改变物体相关的光路进行成像。这种方法我经过学习依旧不是很懂,但原理大致是通过一种分光镜叫掩膜分光镜对光信号进行编码,变成不再是传统的彩色信号,而被传感器接收,传感器经过解码经过编码的光信号,并进行几何校正和谱校正,还原物体样貌。除此之外还有瞳面编码和焦面编码,特点都是在光信号进入传感器之前就进行编码,再在后端进行解码。
三个要素
计算摄像学有三个要素分别为高可见性、高分辨率和高精确度。
高可见性
高可见性体现在计算光路上,光谱信息容易丢失,也就是前文的“看不清”问题,计算摄像学需要对时间空间下的光谱区域采样与重构。
高分辨率
高分辨率体现在计算传感上,时间分辨率耦合,我的理解下光学信息在时间维度下会发生变化,也就是说我看到的物体此时的照片并不是当时物体的样貌而是有短时间Δt内物体的变化Δx,因此高分辨率意味着时间维度下成像过程需具有高分辨率。计算摄像学需要对时间维度下光学信息采样与重构。
高精确度
高精确度体现在计算光照上,光照特性精度受限,计算摄像学需要对空间下的光学信息进行采样与重构。
两个环节
如前文所说,计算摄像学在于进行计算采样与计算重构,而达到计算的目标。计算采样在于获取可计算的视觉互信息,计算重构在于感知虞城县真是视觉信息。无论是前文的多光谱采样重构或是计算成像阶段下的前端编码和,后端进行解码,都本质上进行的是光学信息的采样和重构,只是计算所处的环节不同。
多维度
美国科学院院士E.H.Adelson提出的7维全光函数包含时刻(t)、位置(Vx,Vy,Vz)、方向(θ,φ)、频率(λ)七个维度,而成像表示具有六个维度,频谱、时间、空间、深度、动态范围和视场。光信号是场景信号的载体,斯塔福大学的Levoy1996年提出了光场重构,计算摄像学的目标就在于把物理世界转变为认知,把光场转变为视觉场。然而对于成像而言7维的高维信号转变为二维的像素信号,必然有大量信息的缺失。除了像素阵的x,y位置坐标,还有五个维度。
深度
成像机制将三维的物空间简化为了二维的平面空间,也就是说“看不见”问题中的障碍物后的物体正是由于深度维度的缺失而发生了信息缺失
方向
在成像结果上,光线的角度信息完全丢失,当下正在有研究解决光场中的光线还原,但依旧未完全解决。
波长
传统数字成像中频谱是有局限性的,仅有RGB三个进行光谱采样,前文“看不见”问题中的传感器与器官局限性正是这个维度的缺失
时间
如前文所说,精确度指的是时间精确度,在曝光时间内,光学信息的积分是我们所能感知的有效信息,而在曝光时间内的具体变化的光学信息我们不得而知。
计算摄像学的未来
计算摄像学的未来在前文总结下是信息转化的角度,而这里提出的是在交互层和信息层的角度。计算摄像学的未来在于交互层的微型化和信息层的巨型化。微型化是指交互方式的简单、方便、快捷,交互设备的轻巧、便捷。巨型化是指信息多维度的采样与重构,多广度的采样,即拍的多,能看出的信息多。
总结
计算摄像学的研究目的在于突破传统成像模型局限,实现复杂场景的采样与重构,研究的重心在于光场中缺失的维度,在于光谱分辨率的提高,时间分辨率的提高,光照精度的提高,角度信息的获取和动态范围的获取。计算摄像学的创新点在于探索各个环节的相关性,研究计算采样与计算重构的新理论方法,在于计算光照、计算光路和计算传感的研究。本文对计算摄像学的相关内容进行的学习和总结,并以自己的理解概括介绍了相关内容,从成像过程的角度和需求的角度和信息转化的角度对计算摄像学的内容和问题进行了新角度的概括和总结。