新闻资讯

照相馆之死与“计算摄影”的崛起
编辑:admin 时间:2024-05-27 21:10

  神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

  编者按:曾几何时,摄影就只是光和影的艺术加上镜头和传感器的技术。但现在随着计算能力和人工智能慢慢渗透到这个领域,一些传统的职业可能就要推出历史舞台了,比方说照相馆,比方说产品摄影,甚至连模特都受到了威胁。Sai Krishna V. K盘点了计算摄影在各个领域的应用,原文标题是:The Death of the Photo Studio

  我们都喜欢有一张好照片。照相馆和摄影的历史可以追溯到第一部照相机诞生的19世纪。最早的摄影工作室利用了画家的照明技术来创作肖像。在我的国家,印度人会几代同堂,一起聚集在工作室的灯光下,好拍出一张完美的全家福。从那时起,我们已经走过来一段令人难以置信的漫漫长路。

  现如今,那些负责给众多家庭和个人拍摄全家福和个人肖像的照相馆已经全部消失不见了。心高气傲的模特、商业目录,甚至为了前往西方而进来拍护照证件照的大量家庭,也都几乎不怎么光顾了。但具有讽刺意味的是,我们现在点击的照片比以往任何时候都要多,分享这些照片的频度也比以往任何时候都要高。

  鉴于过去十年技术的变革,这个行业的颠覆并不令人惊讶。这一转变发展到今天经历了两个不同的阶段。

  当带着摄像头的iPhone推出时,其他的制造商都纷纷效仿;这些小型的传感器尽管用处很大,但在产生高质量图像的能力方面颇为受限。像Instagram这样的app在初期用滤镜弥补了相片质量的欠缺,令这款app广受欢迎。但是,自从Instagram推出以来,智能手机的摄像头改进的速度非常迅速。令这款app在早期火起来的功能不再有太大用处,因为智能手机拍摄出来的照片的质量已经得到了指数式的改善。

  为迎合前数字化时代的印度客户而开设的大多数照相馆正在考借来的时间续命。在全球范围内,这些照相馆的数量现在正在持续减少。时代的照相馆注定要变成这样一家企业,也就是观看和点击行为都要朝着一个结果发展——如何让客户点击一下就能得到一张照片,以及文件下载到计算机的速度如何。但是,是什么导致了手机照片的质量取得了显著提高的呢?

  2015年,意识到自己在摄影领域已经落后了这么多之后,Google决定用工程的思维方式加大攻关力度。于是,知名的计算机图形学研究人员Marc Levoy 接管了Google Research的计算摄影团队,并评论道:

  “软件定义相机或计算摄影相机的概念是一个很有前途的方向,我认为我们现在才摸到它的一点皮毛。随着我们从一次只能拍一张的硬件主导的摄影向软件定义的计算摄影这一新领域转变,我认为这一领域的有趣才刚刚开始。”

  最近摄影领域给人留下最深刻印象的进展发生在软件和芯片层面,而不是传感器或镜头这些东西——这在很大程度上要归功于AI让摄像头更好地了解了自己所看到的东西。

  如今,至少在开始后期处理之前,手机在某些情况下要比许多专业相机拍出来的照片还要好的情况并不罕见。这是因为在对摄影同样重要的另一类硬件方面,传统相机无法与手机竞争:这包括了CPU、图像信号处理器以及神经处理单元(NPU)的片上系统。

  这种硬件,利用了所谓的计算摄影,这个广义的术语涵盖了你对智能手机要求的一切,从手机人像模式的“伪”景深效果,到帮助驱动令人惊叹的AR效果及滤镜的算法等。

  计算摄影是指利用摄像头的计算机处理能力,在镜头和传感器拍摄成片基础上产生一幅增强的图像。其实摄影中运用计算机并不是什么新鲜事物。数字时代所有的相机都需要处理能力来生成图像。甚至在数字化曙光降临之前,胶卷相机就已经利用了处理器。处理器负责控制类似自动曝光模式、自动对焦以及闪光灯等的功能。大家对计算摄影的潜力已经有一段时间的了解了。但是,近年来,深度学习的进展又让智能手机拍摄打开了新技能。

  到目前为止,这是计算摄影的三个主要组成部分。最近,高亮黑白及夜间模式又加入了这份清单。后者更是充分展示了处理器的处理能力如何在在摄影当中变得越来越重要。

  在过去,摄影师习惯于一种办法。按下快门,拍一张照片,然后再次按下快门。哪怕是最快的连拍模式也是以类似的方式工作的。那只是连续地拍摄单张照片,直到摄影师释放快门按钮为止。

  而在计算摄影里面,当你按下快门时,相机几乎在同时会拍摄多张图像。然后,它会实时地将这些图像处理成一张照片。HDR就是其中最简单的一种,而且出现已经有一段时间了。相机会拍摄5、6张图像然后马上合并。

  不过,只要看看散景就能看出现代的智能手机功能是多么的强大。基于物理的摄影中实现散景需要大传感器和大光圈,至少具有中等焦距的强光透镜。显然,用物理手段手机是不可能做到的。

  为了解决这个问题,智能手机会拍摄多张图像,然后让每张图像只专注于特定的技术细节。比方说,可能需要分别拍摄来控制曝光、焦点、色调、高光、阴影以及人脸识别的图像。然后再将这些图像合并,分析每个镜头里面的所有数据,让将主体从背景中遮盖掉。然后它会给背景添加模糊效果来模拟散景 。所有这些其实都是实时完成的。

  夜间模式和高色调滤镜也利用类似的处理器密集型技术。而且这些实际上还只是个开始。这些同样适用于视频领域。只需回顾一下过去几年的视频功能就知道这一点。不久以前,静态相机的标准视频格式还是1080p/24fps。而现在,大多数的新相机/摄像头都支持60fps的速度拍摄4k图像,而且很快就会突破120fps乃至240fps的里程碑。这是处理能力在短短几年之内获得巨大飞跃的结果。

  摄影工作室之间差别很大。有的很小,就那么1个人或几个人。有的就很大,多达数百名员工。一些工作室会处理完从交付、运输到营销的一切,而有的工作室会将这些需求外包出去。所有工作室多多少少都需要这些资源,但是获取资源的方式往往会有所不同。一般而言,摄影工作室会有:

  为什么?因为图像有助于建立信心并帮助转化更多的客户,而且图像是树立买家信心的主要来源。鉴于图像对于网上销售的重要性,企业会不遗余力地投入大量精力用于产品摄影的过程。但是,这个过程可能会很折磨人:

  产品摄影几十年来基本没怎么变。这意味着存在高成本、规模有限、工作流程脆弱等可观的瓶颈。比方说,如果你的企业或制造商决定变更产品详情或更换新的颜色,就得重复这整个过程。

  通过利用3D软件,品牌商现在不需要靠实际的拍摄就可以靠渲染来生成引人注目的视觉效果。虽然这可以突破产品拍摄的众多传统瓶颈,但3D渲染需要进行精细的建模,设置虚拟场景以及图像生成,这通常被称为“生活方式摄影”(lifestyle shots)。

  由马斯克、Sam Altman、Greg Brockman以及机器学习领域的其他领袖共同创立的AI研究基金会OpenAI,最近推出一个API和网站,让大家可以访问一种叫做GPT-3的新型语言模型。在若干领域,GPT-3可谓一项真正的突破性技术。

  GPT-3在本质上是基于上下文的生成式AI。这意味着,当赋予AI某种上下文时,它会尝试着完成其余部分。比方说,如果给它提供脚本的前半部分,它会继续执行脚本。给它一篇论文的前半部分,它会生成论文的其余部分。——Delian Asparouhov

  今天的GPT-3是一种生成文本的机器学习模型。只要提供部分跟你想要生成的东西相关的文本,它就会补充剩余部分。

  机器学习模型让你可以以史为鉴,基于过去的数据进行预测,而生成(创建文本)则是预测东西的一个特殊案例。GPT-3模型只需要通过少量的学习就能完成训练,这种实验方法似乎在语言模型中展出出了有希望的结果。GPT-3的出色表现引起了众多关注——它可以生成整篇已发表的文章、诗歌以及创造性写作,甚至还可以生成代码。

  大家对GPT-3的兴奋主要集中在文本或书面内容上。Open AI正在探索将这种少样本学习系统应用到图像上,希望弄清楚将部分图像作为输入提供给同样的算法时会发生什么情况。

  OpenAI的研究人员决定把单词换成像素,并用ImageNet (最受欢迎的用于深度学习的图像库)里面的图像来训练同样的算法。因为这一算法在设计上处理的是一维数据(也就是文本字符串),所以他们需要把图像展开成一个像素序列。他们发现这个叫做iGPT 的新模型仍然能够理解视觉世界的二维结构。只要给出图像上半部分的像素序列,它就可以预测下半部分,而且让人觉得合情合理。

  这个结果令人震惊,并展示了一条在计算机视觉系统开发中利用无监督学习的新途径,可以对未标记的数据进行训练

  历史总是不断地重演——问题是,大多数人总是抱残守缺,直到为时已晚。这符合经典的颠覆性理论,GPT-3有望颠覆很多的领域,比方说web开发、用户辅助设计,以及现在的产品摄影(Product Photoshoot) 。

  实现基于AI的产品摄影这一进程很大一部分是要生成产品的3D文件。这个问题可以用自下而上的方式解决,从制造商对3D进行更好的标准化,到更有趣的一点,内置LiDAR传感器到便携设备上。苹果最新的iPad Pro已经内置了,你的下一部手机可能也会这样。

  虽然仅靠来自LiDAR 传感器的数据不够精确,没法生成高保线D模型,但该领域正在迅速改进,而深度学习模型也在不断改善。

  一开始的时候,AI能够从照片产生出深度数据信息。此后,最先进的机器学习算法可以从照片中提取出二维对象,然后忠实地渲染成3D。这是一种适用于增强现实app,机器人以及导航的技术,所以也成为了Facebook迫切想要研究的领域。

  “我们的研究建立在最近取得的进展基础上,包括利用深度学习预测和定位图像里面的对象,以及用于理解3D形状的新工具和体系结构(比如立体像素,点云以及mesh网格)等。在提高AI系统能力,使之进一步理解、解释现实世界,并在此环境下操作方面,三维理解将会发挥核心作用。”

  这使得在不久的将来智能手机或平板电脑就可以生成高质量的3D对象。一旦生成后,产品可视化的可能性就会大大提高,比方说真实感图像渲染。

  数字化设计正在成为这个行业的一个重要杠杆。数字化设计让品牌可以快速、远程地设计商品;一旦被创建出来,3D资产,也就是产品三维逼真的数字模型,可以应用于无数种情况,从制作营销材料,虚拟展厅,到面向客户的电子商务页面以及增强现实体验等都可以。数字供应链也被看作是减少浪费、提高生产效率的一种手段,对于致力于降低成本的同时提高可持续发展能力的公司来说,这是一种双赢。

  借助iGPT 和3D模型等技术的进展,给产品拍照这活儿人工智能就可以接管,而且能够生成令人惊叹的产品图像。这种做法相对于实际拍摄,要更快、更便宜、更灵活。

  有了3D模型之后,你就可以把它随意放置到不同的虚拟背景里面,做出看起来很有吸引力的渲染。那这有什么好处呢?

  云规模:可以同时渲染成百上千(哪怕不是成千上万)的产品和图像,而不用像实际拍摄那样每次都要对拍摄空间进行整理

  品牌可以根据网站访问者是谁对图像进行实时调整。还可以对图像按目标细分进行表现测试,视觉效果最好的就可以加倍下注,套用到其余产品类别上,又不用增加成本。

  我们现在正在进行实验,希望将所有这些元素结合在一起。通过捕捉3D资产并对其进行建模,我们希望能够开发出一个有AI辅助的工作流,以便对产品的生活方式图像进行风格化。

  生成代码段似乎已经在用ThreeJS 和WebGL 创建声明式3D场景当中展现出来用途。我们可以扩展这个想法,帮助对一组被描述的元素,其参数进行声明,然后利用提供的信息马上进行渲染:

  就目前而言,这一过程仍然需要大量的人力,并且仅适用于预设的场景,而不是完全的生成场景。但是,经过几次尝试之后,我们看到了一些有希望的结果:

  上述照片都不是实际拍摄,而是全部通过AI渲染出来的。当然,这仍然需要手动操作,并且过程中仍需要人员协助。不过,经过进一步完善之后,从数字化为3D,生成逼真生活方式照片到支持增强现实的一系列过程就可以直接在智能手机上面实现。

  这一行典型的拍照过程中牵涉到模特、摄影师、造型师、发型师、化妆师、交通、影楼租赁、摄影器材、数码技术,还有后期制作等各种成本。在5%的情况下要进行重新拍摄,这意味着所有的成本要再支付一遍。

  另一个成本就是浪费掉的时间——拍照很慢。完成整个过程到最后上传图像到网站可能需要好几周(甚至数月)的时间。这意味着零售商损失了销售时间。从采购产品到实际投放上网站之间相隔甚久,导致在此期间零售商的潜在销售成本增加。

  降低照片拍摄成本是真切的需求。就像许多高成本活动和可持续性的困境一样,可以用技术来优化产品图片的制作过程。

  由AI驱动的Intelligent Retail Automation(智能零售自动化)拥有多种解决方案,可优化整个零售供应链的流程、工作流以及体验。Automated On-Model Fashion Imagery(自动化给模特穿时装)则是产品图像创作改善效能减少拍摄成本的答案。

  数字模特和网红正全方位地渗透到时尚界。有些甚至已经跟传统的模特经纪公司签约了。就拿19岁的巴西裔模特,网红,现为音乐家的Lil Miquela来说吧,它在Instagram上已拥有超过200万的忠实粉丝了。

  现在的Lil Miquela是个计算机生成图像(CGI),而不是人工智能(AI)。这意味着,Miquela 或类似的角色本身是不能做任何事情的。它们无法自行独立思考、学习或摆出不同的姿势。但这种情况不会持续太久了。

  iGPT 方法提出了一个创建deepfake(深度伪造)图像的新办法。生成对抗网络,用来创建深度伪造最常见的算法,必须用经过精心挑选的数据进行训练才能有效。比方说,如果你想让GAN生脸,那它的训练数据就应该只包含人脸。相比之下,iGPT 只需要从数以十亿计的样本里面学习到足够多的视觉世界的结构,就能够输出其中可能存在的图像。

  这对于原有的产品摄影工作室和模特来说意味着什么呢?可以肯定的是,就像其他许多行业一样,这个领域也必须为不断变化的劳动力做好准备。模特也得练习适应性和创造性智慧等技能,这样确保我们能承受住向数字化的转变。

  不过到头来,GPT-3仍然只是语言预测器。它不会“思考”,也没有自己的“思想”。它只能根据收到的输入生成内容。所以,虽说GPT-3没法回答非常难搞的系列问题,但它可以消除对日常工作的需求,比方说生成相同设计的变体或基于通用3D渲染原理创建简单的产品图片。产品摄影行业建立在重复、耗时、技术复杂的步骤上,但这些步骤今后可以大为加快,而从让艺术家或创作者腾出更多的时间用于艺术创作上面。

  人类本质上是靠视觉驱动的。而人工智能正在帮助我们生成视觉信号,而且做出来的东西变得更加令人信服。这篇文章也许不是GPT-3和iGPT写的,也未必就能自行渲染视觉效果,但是距离它们完全具备这些能力的日子并不远了。


分享到:
高端外围伴游平台
广告出租技术VX:abc0625999