定义
主要类型
三维生成中学习与生成的三维数据可分为显性表达数据与隐性表达数据两类,显性表达数据主要包括体素栅格、点云与网格;隐性表达数据是以神经网络参数表达的三维场景,即神经场。根据学习与生成的三维数据类型,人工智能三维生成可以分为显性数据驱动型与隐性数据驱动型。
在利用人工智能技术前,传统的三维生成工作中全部使用显性表达的三维数据,因此早期人工智能三维生成的研究同样聚焦于学习并生成显性表达的三维数据,这类人工智能三维生成可以称为原生三维型。
人工智能直接学习与生成三维数据存在诸多问题,其中的重点问题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题,许多人工智能三维生成的研究聚焦于从二维图像中学习并生成三维数据,这类人工智能三维生成可以称为二维升维型。
技术发展的关键阶段
2018年前受限于技术发展,仅有原生三维型人工智能三维生成应用,使用的模型有VAE模型、流模型、GAN模型、EBM模型、扩散模型等,其中GAN模型在生成效果方面的优势使其在2022年前一直是人工智能三维生成的主流模型,但由于训练难度极大,对硬件要求极高等问题,产业级应用发展十分受限。
由于二维图像生成技术的快速进步与应用的蓬勃发展,因此二维升维型是目前人工智能三维生成研究与应用的关注重点。
● 2020年-2022年:二维升维技术发展期
2020年,伯克利、谷歌与加大圣地亚哥分校的联合团队提出神经辐射场(NeRF)算法。神经辐射场算法可以从静态二维图像中感知其三维属性,生成内容统一但视角不同的二维图像,即具备三维感知的图像。由于生成的图像精度高且可以生成大场景的三维感知图像,因此受到广泛关注且出现大量相关研究,加速二维升维技术发展。在应用方面,由于训练难度大、对硬件要求高、生成效率低等问题,仅能进行试验性与娱乐性的小范围应用。在产业应用方面,虽然出现将显性表达与隐性表达相结合的相关研究,但除以上问题外,在与传统三维生成工作的衔接和满足产业应用要求方面仍然存在诸多问题,因此产业应用发展缓慢。
● 2022年-至今:二维升维应用探索期
2022年中,以Stable Diffusion、Dall·E为代表的二维图像生成应用快速发展,生成的二维图像质量与想象力迅速提升。得益于此,二维升维型三维生成应用的商业化价值进一步提升,产业界对其关注度因此迅速提升,技术发展再次提速。目前,二维升维型三维生成的训练难度、对硬件要求、生成效率等仍然是其应用商业化的巨大阻碍,但产业界公司加强了其与传统三维生成工作的衔接性,并尝试开发产业级应用,二维升维型三维生成应用的商业化仍然有待探索。
主流模型实现原理及优缺点
● Dream Fields模型
2021年末,Dream Fields模型首次将CLIP¹模型与NeRF模型相关联,利用CLIP从文本到二维图像的生成能力,结合NeRF从二维图像学习三维结构与纹理渲染的能力,实现从自然语言到三维的生成。
Dream Fields模型证明了CLIP模型可以与NeRF模型结合应用,并突破了以往三维生成模型在想象力方面的限制。但Dream Fields模型生成的三维内容的结构仍然较为简单,因此不能生成大规模的三维场景,且其三维渲染效果较差。此外,Dream Fields模型的生成效率很低,与传统三维生成工作的衔接性也较差,因此并不具备商业化价值。
注:1.请参考《AIGC产业研究报告2023——图像生成篇》
与Dream Fields同一时期提出的CLIP-NeRF模型同样将CLIP模型与NeRF模型进行关联,与Dream Fields模型不同的是,CLIP-NeRF模型更加注重以自然语言或二维示意图对生成的三维模型与三维渲染效果进行调整。但在生成效果与商业化价值方面,CLIP-NeRF模型与Dream Field模型存在同样的问题。
虽然存在种种缺陷,Dream Fields模型与CLIP-NeRF模型展示了人工智能三维生成的应用潜力,验证了以自然语言进行三维生成的技术可行性,且探索了以自然语言改进生成结果的可能性。
● DreamFusion模型
2022年9月,Google提出的DreamFusion模型以Dream Fields模型为基础,用扩散模型得出概率密度蒸馏损失函数以替代CLIP模型,提升了从自然语言到三维内容的内容统一性,且证明可从单张二维图像生成三维模型具备可行性。
虽然DreamFusion提升了三维模型的结构准确性与渲染的真实性,提升生成效率的同时降低了对硬件的要求,但其生成的三维内容在规模、渲染与结构细节方面仍然不满足产业级应用的要求,且Dream Fusion模型在原理上即与传统三维生成工作的衔接性差,因此仍然难以进行商业化。
● Magic3D模型
2022年11月,英伟达(Nvidia)提出的Magic3D模型在DreamFusion的基础上提出了两步优化策略:首先用与DreamFusion相似的扩散模型生成低分辨率、简单渲染的哈希网格三维模型,之后再采用与传统计算机图形学相似的方法对三维模型进行更高质量的渲染。
与DreamFusion相比,Magic3D模型生成的三维模型分辨率更高,且渲染效果更好,生成效率也有了显著的提升。由于Magic3D模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,因此Magic3D模型可以更好地与传统三维生成工作进行衔接。鉴于各方面优势,Magic3D模型已经具备进行产业应用的能力基础。
在Magic3D模型之后,学界与业界也提出了更多三维生成模型,在生成质量、生成效率、硬件需求、场景应用等方面均进行了更深入的探讨,也有着较为明显的优势与缺陷。
影响模型应用能力的关键因素
● 生成质量
典型产业应用场景
市场主流应用
商业化过程中面临的挑战
目前人工智能三维生成模型在生成质量、生成效率与可控性方面仍然存在诸多问题,而在短时间内问题无法解决的前提下,人工智能三维生成需要寻找合适的应用场景才能实现应用落地。
目前,三维生成的应用场景可以大致分为面向专业人士的场景与面向普通消费者的场景。面向专业人士的场景必然需要人工智能三维生成的能力满足工业产线级的应用要求,如高质量的生成、高度的可控性,另外也需要满足专业场景的特殊应用需求,如游戏与电影行业的三维生成需要具有想象力现实化的能力,工业、建筑业与医疗需要三维生成具有高度的准确性等等。而面向普通消费者的应用场景对人工智能三维生成的生成质量与可控性要求相对较低,但面向普通消费者的应用却普遍对生成效率有着较高的要求。
无论是哪类应用场景,更重要的问题是如何应用人工智能三维生成可以带来更高的经济效益,而目前人工智能三维生成能力上的不足也大幅减少其可以商业化落地的场景。
版权问题是从二维图像生成实现商业化应用以来一直困扰AIGC产业的问题,而这一问题也将从二维图像生成延续至三维生成。目前许多人工智能三维生成应用仍然需要大量的文本数据与二维图像数据作为训练模型的基础。如果这些数据来源于版权受保护的资产,那么使用这些数据进行商业化行为就容易涉及版权问题。
目前许多人工智能三维生成的有机会商业化的应用场景,如电影制作、产品概念设计、游戏三维资产制作等,在实际应用中用户接受的仍旧是二维图像。此类应用场景目前仍然应用三维生成的原因是需要保证画面内容在不同视角下的统一性,因此目前三维生成在这些场景下仍然具有其独特的应用价值。
但二维图像生成的技术进步速度较快,若在此类应用场景中,二维图像生成应用可以保证用户接受的二维图像在不同视角下的内容统一性,那二维图像生成在此类应用场景中将大范围取代三维生成。
除此之外,若人工智能语言生成发展迅速,则可以训练专用于操作传统三维生成工具的语言模型,也可能全面取代人工智能三维生成模型。
前沿探索与趋势展望
随着技术的进步,人工智能三维生成模型的生成质量、生成效率与可控性均有望实现大幅提升。可控性方面,人工智能三维生成与传统三维生成工作流程的衔接性将更强,将有越来越多的模型采用逐级生成,每级生成内容均可于传统三维生成工作软件中查看与修改再返回模型的能力,提升人工智能三维生成在专业应用场景中的辅助作用。在此过程中,需要开源技术社区的大量贡献,也有可能与语言生成应用结合使用以增强自然语言对三维生成结果的操控性。
而随着生成质量与生成效率的提升,一站式的人工智能三维生成也将进入更多消费应用场景,加速数字孪生与元宇宙的发展。而人工智能三维生成也将拓展其能力,如学习不同材质的物理属性、组织的生物特性、分子的化学特性等,提升其在工业、建筑与医疗等专业领域的应用价值。
AIGC产业研究报告系列共分为六个部分,包括语言生成篇、图像生成篇、音频生成篇、视频生成篇、三维生成篇、分子发现与电路设计篇,并将在本月陆续发布,欢迎关注并与我们共同探讨AIGC产业发展。