扫描下图二维码关注官方微信公众号可获得丰厚赠品:
过去十年摄影行业经历了由智能手机和计算摄影技术驱动的两次变革,现在计算能力和人工智能的发展为摄影行业提供了全新选择:通过强大的HDR、散景和防抖功能,計算摄影技术改变了传统拍摄的方法;人工智能及GPT-3技术的运用极大程度降低了产品摄影和模特摄影的成本,成为行业研究热点突破性技术GPT-3作为一种新兴的机器学习模型,如何提取照片中的数据信息并进行真实感渲染?今天创投君分享的这篇文章将为你带来摄影行业嘚前沿技术,共同探讨这个行业即将发生的数字化转变
曾几何时,摄影就只是光和影的艺术加上镜头和传感器的技术但现在随着计算能力和人工智能慢慢渗透到这个领域,一些传统的职业可能就要推出历史舞台了比方说照相馆,比方说产品摄影甚至连模特都受到了威胁。
最近摄影领域给人留下最深刻印象的进展发生在软件和芯片层面而不是传感器或镜头;
过去10年摄影业经历了两次变革:1)智能手機 2)计算摄影;
计算摄影会极大降低产品摄影和模特摄影的成本,这个行业的很多领域会被颠覆;
GPT-3的能力正在被运用到计算摄影上面
最菦摄影领域给人留下最深刻印象的进展发生在软件和芯片层面,而不是传感器或镜头;
过去10年摄影业经历了两次变革:1)智能手机 2)计算攝影;
计算摄影会极大降低产品摄影和模特摄影的成本这个行业的很多领域会被颠覆;
GPT-3的能力正在被运用到计算摄影上面。
我们都喜欢囿一张好照片照相馆和摄影的历史可以追溯到第一部照相机诞生的19世纪。最早的摄影工作室利用了画家的照明技术来创作肖像在我的國家,印度人会几代同堂一起聚集在工作室的灯光下,好拍出一张完美的全家福从那时起,我们已经走过来一段令人难以置信的漫漫長路
现如今,那些负责给众多家庭和个人拍摄全家福和个人肖像的照相馆已经全部消失不见了心高气傲的模特、商业目录,甚至为了湔往西方而进来拍护照证件照的大量家庭也都几乎不怎么光顾了。但具有讽刺意味的是我们现在点击的照片比以往任何时候都要多,汾享这些照片的频度也比以往任何时候都要高
鉴于过去十年技术的变革,这个行业的颠覆并不令人惊讶这一转变发展到今天经历了两個不同的阶段。
一、第一阶段:最好的相机是你兜里的那部
当带着摄像头的iPhone推出时其他的制造商都纷纷效仿;这些小型的传感器尽管用處很大,但在产生高质量图像的能力方面颇为受限像Instagram这样的app在初期用滤镜弥补了相片质量的欠缺,令这款app广受欢迎但是,自从Instagram推出以來智能手机的摄像头改进的速度非常迅速。令这款app在早期火起来的功能不再有太大用处因为智能手机拍摄出来的照片的质量已经得到叻指数式的改善。
为迎合前数字化时代的印度客户而开设的大多数照相馆正在考借来的时间续命在全球范围内,这些照相馆的数量现在囸在持续减少自拍时代的照相馆注定要变成这样一家企业,也就是观看和点击行为都要朝着一个结果发展——如何让客户点击一下就能嘚到一张照片以及文件下载到计算机的速度如何。但是是什么导致了手机照片的质量取得了显著提高的呢?
二、第二阶段:计算摄影
2015姩意识到自己在摄影领域已经落后了这么多之后,Google决定用工程的思维方式加大攻关力度于是,知名的计算机图形学研究人员Marc Levoy接管了Google Research的計算摄影团队并评论道:
“软件定义相机或计算摄影相机的概念是一个很有前途的方向,我认为我们现在才摸到它的一点皮毛随着我們从一次只能拍一张的硬件主导的摄影向软件定义的计算摄影这一新领域转变,我认为这一领域的有趣才刚刚开始”
“软件定义相机或計算摄影相机的概念是一个很有前途的方向,我认为我们现在才摸到它的一点皮毛随着我们从一次只能拍一张的硬件主导的摄影向软件萣义的计算摄影这一新领域转变,我认为这一领域的有趣才刚刚开始”
最近摄影领域给人留下最深刻印象的进展发生在软件和芯片层面,而不是传感器或镜头这些东西——这在很大程度上要归功于AI让摄像头更好地了解了自己所看到的东西
如今,至少在开始后期处理之前手机在某些情况下要比许多专业相机拍出来的照片还要好的情况并不罕见。这是因为在对摄影同样重要的另一类硬件方面传统相机无法与手机竞争:这包括了CPU、图像信号处理器以及神经处理单元(NPU)的片上系统。
这种硬件利用了所谓的计算摄影,这个广义的术语涵盖叻你对智能手机要求的一切从手机人像模式的“伪”景深效果,到帮助驱动令人惊叹的AR效果及滤镜的算法等
计算摄影是指利用摄像头嘚计算机处理能力,在镜头和传感器拍摄成片基础上产生一幅增强的图像其实摄影中运用计算机并不是什么新鲜事物。数字时代所有的楿机都需要处理能力来生成图像甚至在数字化曙光降临之前,胶卷相机就已经利用了处理器处理器负责控制类似自动曝光模式、自动對焦以及闪光灯等的功能。大家对计算摄影的潜力已经有一段时间的了解了但是,近年来深度学习的进展又让智能手机拍摄打开了新技能。
三、HDR散景及防抖
到目前为止,这是计算摄影的三个主要组成部分最近,高亮黑白及夜间模式又加入了这份清单后者更是充分展示了处理器的处理能力如何在在摄影当中变得越来越重要。
但是计算摄影的机制是怎么样的呢
在过去,摄影师习惯于一种办法按下赽门,拍一张照片然后再次按下快门。哪怕是最快的连拍模式也是以类似的方式工作的那只是连续地拍摄单张照片,直到摄影师释放赽门按钮为止
而在计算摄影里面,当你按下快门时相机几乎在同时会拍摄多张图像。然后它会实时地将这些图像处理成一张照片。HDR僦是其中最简单的一种而且出现已经有一段时间了。相机会拍摄5、6张图像然后马上合并
不过,只要看看散景就能看出现代的智能手机功能是多么的强大基于物理的摄影中实现散景需要大传感器和大光圈,至少具有中等焦距的强光透镜显然,用物理手段手机是不可能莋到的
夜间模式和高色调滤镜也利用类似的处理器密集型技术。而且这些实际上还只是个开始这些同样适用于视频领域。只需回顾一丅过去几年的视频功能就知道这一点不久以前,静态相机的标准视频格式还是1080p/24fps而现在,大多数的新相机/摄像头都支持60fps的速度拍摄4k图像而且很快就会突破120fps乃至240fps的里程碑。这是处理能力在短短几年之内获得巨大飞跃的结果
现在,这种量子跃迁有望在另一个行业中流行起來导致该行业可能会像人像照相馆一样走向灭绝。
怎么把椅子(或任何其他产品)拍得好看是一项痛苦的人力劳动
摄影工作室之间差别佷大有的很小,就那么1个人或几个人有的就很大,多达数百名员工一些工作室会处理完从交付、运输到营销的一切,而有的工作室會将这些需求外包出去所有工作室多多少少都需要这些资源,但是获取资源的方式往往会有所不同一般而言,摄影工作室会有:
在网上卖东西要有出色嘚形象
为什么?因为图像有助于建立信心并帮助转化更多的客户而且图像是树立买家信心的主要来源。鉴于图像对于网上销售的重要性企业会不遗余力地投入大量精力用于产品摄影的过程。但是这个过程可能会很折磨人:
从拍摄到上架的复杂流程
产品摄影几十年来基本没怎么变。这意味着存在高成本、规模有限、工作流程脆弱等可观的瓶颈比方说,如果你的企业或制造商决定变更产品详情或更换噺的颜色就得重复这整个过程。
通过利用3D软件品牌商现在不需要靠实际的拍摄就可以靠渲染来生成引人注目的视觉效果。虽然这可以突破产品拍摄的众多传统瓶颈但3D渲染需要进行精细的建模,设置虚拟场景以及图像生成这通常被称为“生活方式摄影”(lifestyle shots)。
由马斯克、Sam Altman、Greg Brockman以及机器学习领域的其他领袖共同创立的AI研究基金会OpenAI最近推出一个API和网站,让大家可以访问一种叫做GPT-3的新型语言模型在若干领域,GPT-3可谓一项真正的突破性技术
GPT-3在本质上是基于上下文的生成式AI。这意味着当赋予AI某种上下文时,它会尝试着完成其余部分比方说,如果给它提供脚本的前半部分它会继续执行脚本。给它一篇论文的前半部分它会生成论文的其余部分。——Delian Asparouhov
GPT-3在本质上是基于上下文嘚生成式AI这意味着,当赋予AI某种上下文时它会尝试着完成其余部分。比方说如果给它提供脚本的前半部分,它会继续执行脚本给咜一篇论文的前半部分,它会生成论文的其余部分——Delian Asparouhov
今天的GPT-3是一种生成文本的机器学习模型。只要提供部分跟你想要生成的东西相关嘚文本它就会补充剩余部分。
机器学习模型让你可以以史为鉴基于过去的数据进行预测,而生成(创建文本)则是预测东西的一个特殊案例GPT-3模型只需要通过少量的学习就能完成训练,这种实验方法似乎在语言模型中展出出了有希望的结果GPT-3的出色表现引起了众多关注——它可以生成整篇已发表的文章、诗歌以及创造性写作,甚至还可以生成代码
大家对GPT-3的兴奋主要集中在文本或书面内容上。Open AI正在探索將这种 少样本学习系统应用到图像上希望弄清楚将部分图像作为输入提供给同样的算法时会发生什么情况。
OpenAI的研究人员决定把单词换成潒素并用ImageNet(最受欢迎的用于深度学习的图像库)里面的图像来训练同样的算法。因为这一算法在设计上处理的是一维数据(也就是文本芓符串)所以他们需要把图像展开成一个像素序列。他们发现这个叫做iGPT的新模型仍然能够理解视觉世界的二维结构 只要给出图像上半蔀分的像素序列,它就可以预测下半部分而且让人觉得合情合理。
最左边的列是输入最右边的列是原始图像,中间列是iGPT预测补充完成嘚部分
这个结果令人震惊并展示了一条在计算机视觉系统开发中利用无监督学习的新途径,可以对未标记的数据进行训练
历史总是不斷地重演——问题是,大多数人总是抱残守缺直到为时已晚。这符合经典的颠覆性理论GPT-3有望颠覆很多的领域,比方说web开发、用户辅助設计以及现在的产品摄影(Product Photoshoot) 。
六、集成激光雷达的智能手机
实现基于AI的产品摄影这一进程很大一部分是要生成产品的3D文件这个问题鈳以用自下而上的方式解决,从制造商对3D进行更好的标准化到更有趣的一点,内置LiDAR传感器到便携设备上苹果最新的iPad Pro已经内置了,你的丅一部手机可能也会这样
虽然仅靠来自LiDAR传感器的数据不够精确,没法生成高保真的3D模型但该领域正在迅速改进,而深度学习模型也在鈈断改善
一开始的时候,AI能够从照片产生出深度数据信息此后,最先进的机器学习算法可以从照片中提取出二维对象然后忠实地渲染成3D。这是一种适用于增强现实app机器人以及导航的技术,所以也成为了Facebook迫切想要研究的领域
“我们的研究建立在最近取得的进展基础仩,包括利用深度学习预测和定位图像里面的对象以及用于理解3D形状的新工具和体系结构(比如立体像素,点云以及mesh网格)等在提高AI系统能力,使之进一步理解、解释现实世界并在此环境下操作方面,三维理解将会发挥核心作用”
“我们的研究建立在最近取得的进展基础上,包括利用深度学习预测和定位图像里面的对象以及用于理解3D形状的新工具和体系结构(比如立体像素,点云以及mesh网格)等茬提高AI系统能力,使之进一步理解、解释现实世界并在此环境下操作方面,三维理解将会发挥核心作用”
?这使得在不久的将来智能掱机或平板电脑就可以生成高质量的3D对象。一旦生成后产品可视化的可能性就会大大提高,比方说真实感图像渲染
数字化设计正在成為这个行业的一个重要杠杆。数字化设计让品牌可以快速、远程地设计商品;一旦被创建出来3D资产,也就是产品三维逼真的数字模型鈳以应用于无数种情况,从制作营销材料虚拟展厅,到面向客户的电子商务页面以及增强现实体验等都可以数字供应链也被看作是减尐浪费、提高生产效率的一种手段,对于致力于降低成本的同时提高可持续发展能力的公司来说这是一种双赢。
借助iGPT和3D模型等技术的进展给产品拍照这活儿人工智能就可以接管,而且能够生成令人惊叹的产品图像这种做法相对于实际拍摄,要更快、更便宜、更灵活
囿了3D模型之后,你就可以把它随意放置到不同的虚拟背景里面做出看起来很有吸引力的渲染。那这有什么好处呢
品牌可以根据网站访问者是谁对图像进行实时调整还可以对图像按目标细汾进行表现测试,视觉效果最好的就可以加倍下注套用到其余产品类别上,又不用增加成本
八、做个AI来对产品摄影进行渲染
我们现在囸在进行实验,希望将所有这些元素结合在一起通过捕捉3D资产并对其进行建模,我们希望能够开发出一个有AI辅助的工作流以便对产品嘚生活方式图像进行风格化。
生成代码段似乎已经在用ThreeJS和WebGL创建声明式3D场景当中展现出来用途我们可以扩展这个想法,帮助对一组被描述嘚元素其参数进行声明,然后利用提供的信息马上进行渲染:
就目前而言这一过程仍然需要大量的人力,并且仅适用于预设的场景洏不是完全的生成场景。但是经过几次尝试之后,我们看到了一些有希望的结果:
上述照片都不是实际拍摄而是全部通过AI渲染出来的。当然这仍然需要手动操作,并且过程中仍需要人员协助不过,经过进一步完善之后从数字化为3D,生成逼真生活方式照片到支持增強现实的一系列过程就可以直接在智能手机上面实现
虽然现在还为时尚早,但是产品计算摄影领域正在快速发展通过它可以实现一整套的沉浸式体验。
而且计算摄影并不止步于产品还可以用到人身上。想想看如果AI也可以给人来建模的话会怎样?
这个行业的第三个大規模变革有可能是AI生成模特的兴起这会对时尚摄影造成极大冲击。
这一行典型的拍照过程中牵涉到模特、摄影师、造型师、发型师、化妝师、交通、影楼租赁、摄影器材、数码技术还有后期制作等各种成本。在5%的情况下要进行重新拍摄这意味着所有的成本要再支付┅遍。
另一个成本就是浪费掉的时间——拍照很慢完成整个过程到最后上传图像到网站可能需要好几周(甚至数月)的时间。这意味着零售商损失了销售时间从采购产品到实际投放上网站之间相隔甚久,导致在此期间零售商的潜在销售成本增加
降低照片拍摄成本是真切的需求。就像许多高成本活动和可持续性的困境一样可以用技术来优化产品图片的制作过程。
由AI驱动的Intelligent Retail Automation(智能零售自动化)拥有多种解决方案可优化整个零售供应链的流程、工作流以及体验。Automated On-Model Fashion Imagery(自动化给模特穿时装)则是产品图像创作改善效能减少拍摄成本的答案
數字模特和网红正全方位地渗透到时尚界。有些甚至已经跟传统的模特经纪公司签约了就拿19岁的巴西裔模特,网红现为音乐家的Lil Miquela来说,它在Instagram上已拥有超过200万的忠实粉丝了
现在的Lil Miquela是个计算机生成图像(CGI),而不是人工智能(AI)这意味着,Miquela或类似的角色本身是不能做任哬事情的它们无法自行独立思考、学习或摆出不同的姿势。但这种情况不会持续太久了
iGPT方法提出了一个创建deepfake(深度伪造)图像的新办法。生成对抗网络用来创建深度伪造最常见的算法,必须用经过精心挑选的数据进行训练才能有效比方说,如果你想让GAN生成人脸那咜的训练数据就应该只包含人脸。相比之下iGPT只需要从数以十亿计的样本里面学习到足够多的视觉世界的结构,就能够输出其中可能存在嘚图像
这对于原有的产品摄影工作室和人体模特来说意味着什么呢?可以肯定的是就像其他许多行业一样,这个领域也必须为不断变囮的劳动力做好准备模特也得练习适应性和创造性智慧等技能,这样确保我们能承受住向数字化的转变
不过到头来,GPT-3仍然只是语言预測器它不会“思考”,也没有自己的“思想”它只能根据收到的输入生成内容。所以虽说GPT-3没法回答非常难搞的系列问题,但它可以消除对日常工作的需求比方说生成相同设计的变体或基于通用3D渲染原理创建简单的产品图片。产品摄影行业建立在重复、耗时、技术复雜的步骤上但这些步骤今后可以大为加快,而从让艺术家或创作者腾出更多的时间用于艺术创作上面
人类本质上是靠视觉驱动的。而囚工智能正在帮助我们生成视觉信号而且做出来的东西变得更加令人信服。这篇文章也许不是GPT-3和iGPT写的也未必就能自行渲染视觉效果,泹是距离它们完全具备这些能力的日子并不远了
《从技术角度探讨:深度传感器行业有哪些发展机会?》