今日视点【diǎn】:单卡【kǎ】 30 秒跑出虚【xū】拟 3D 老婆!Text to 3D 生成看【kàn】清毛孔细节的高精度数字【zì】人,无【wú】缝衔接 Maya、Unity 等制作工具

2024-9-21 15:19:07来源:量子位

ChatGPT 给 AI 行【háng】业【yè】注入一剂鸡血,一切曾【céng】经【jīng】的不敢想,都成为如今的基操。

正持续进击的Text-to-3D,就【jiù】被视为继 Diffusion(图【tú】像)和 GPT(文【wén】字【zì】)后,AIGC 领域【yù】的下一个前沿热点,得到【dào】了前所未有的【de】关注度。

这【zhè】不,一款名为 ChatAvatar 的产品低【dī】调公测,火速收揽【lǎn】超【chāo】 70 万浏【liú】览与关注,并【bìng】登上抱抱脸周热门(Spaces of the week)。


(资料图片仅供参考)

ChatAvatar 也将支持从 AI 生成的单【dān】视【shì】角【jiǎo】 / 多【duō】视角原画生成 3D 风格化角色的 Image to 3D 技术【shù】,受到了【le】广泛【fàn】关注

有够酷的,感觉能很便捷地生成自己的数字孪生了。

由此【cǐ】吸引不少【shǎo】网友纷【fēn】纷试【shì】用并贡献脑洞。有人拿这【zhè】款产品和 ControlNet 结合,发现【xiàn】效【xiào】果细腻【nì】写实到有些出【chū】乎意料。这款使【shǐ】用起来几乎零门【mén】槛【kǎn】的 Text-to-3D 工具名叫ChatAvatar,由国内 AI 初创公司影眸科技团队打造。

据了【le】解,这是【shì】全球首款 Production-Ready 的【de】 Text to 3D 产【chǎn】品,通过【guò】简单的文本,例如一个【gè】明星的【de】名字、或是某个【gè】想要的人物长相【xiàng】,就能生成影视级的 3D 超写实数字人资产。

效率也非常【cháng】高,平均【jun1】仅【jǐn】需 30 秒,就能做出一张以假【jiǎ】乱真【zhēn】的脸——甚至是你自【zì】己的。

未来,生成领域还将拓展到其他三维资产。

并【bìng】且该模型【xíng】带有规整的拓【tuò】扑【pū】、带有 4k 分辨率的【de】 PBR 材质,同时【shí】带有【yǒu】绑定,可以直接接入 Unity、Unreal Engine 和 Maya 等制作引擎的生产管线中【zhōng】。

所以,ChatAvatar 到底是【shì】怎样一【yī】个 3D 生成工具?背【bèi】后究竟用到了什么技术?

30 秒完成一次 " 画皮 "

亲【qīn】身体验 ChatAvatar 的玩【wán】法发现,可以说【shuō】是真 · 零门槛【kǎn】。

具体而言,只需以对话的形式,在官网上用大白话向 ChatBot 描述自己的需求,就能按【àn】需【xū】生成【chéng】 3D 人脸,并【bìng】覆盖一张贴合【hé】模型的真实 " 人皮 "。

对话全流程里,根据用户需求,ChatBot 会进行引导,尽可能细节地了解用户对所需模型的想法。

体验过程中【zhōng】,我【wǒ】们向 ChatBot 描【miáo】述【shù】了这样一个【gè】想要生成的 3D 形【xíng】象:点击【jī】左侧的【de】 Generate 按【àn】钮,平均 10s 不到,屏幕上就出现根据【jù】描述生成的 9 种不【bú】同 3D 人脸的初始雏形。

随意选择其中一种后,会基于选择继续【xù】优【yōu】化模型【xíng】和材质,最后出现【xiàn】覆【fù】盖皮【pí】肤后的模型渲结果,并展【zhǎn】现【xiàn】不同光影【yǐng】下【xià】的渲染效果——这【zhè】些渲【xuàn】染在浏览器内实时完【wán】成:

用鼠【shǔ】标拖【tuō】动【dòng】,还能旋转头部,并放大看更细节的局部效果,毛孔和痘【dòu】痘【dòu】都【dōu】清晰【xī】可见【jiàn】:值得【dé】一提【tí】的是,如果用户是个提示工程高手,直接在左侧框中输入 prompt,同【tóng】样可以完成生【shēng】成【chéng】。

虽然【rán】 beta 版本还没上线发型功能,但整体【tǐ】而言,最后生成的 3D 数字人【rén】资【zī】产与描述【shù】内容已经有【yǒu】高匹配度。

官网上还陈列了许多 ChatAvatar 用户【hù】的生成资【zī】产,不同人种、不同肤【fū】色、不同年龄,喜怒【nù】哀【āi】乐,美丑胖瘦,各式相貌【mào】应有【yǒu】尽【jìn】有。

总结一下【xià】 ChatAvatar 这款产品【pǐn】生成 3D 数【shù】字人资产的效果亮【liàng】点【diǎn】:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

根据官方宣传【chuán】片介绍,ChatAvatar 甚至可以【yǐ】进一步生成超出【chū】人类【lèi】范【fàn】畴的角色【sè】,如阿凡达【dá】等影视作品中的【de】角色:最【zuì】重【chóng】要的是,ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题

这意味着,ChatAvatar 生成的 3D 资产可以【yǐ】直接接【jiē】入游【yóu】戏【xì】和影视【shì】生产流【liú】程。

当然,在正式接入工业流程之前,首轮公【gōng】测,ChatAvatar 已经吸【xī】引【yǐn】了数千名艺术【shù】家和专【zhuān】业【yè】美术人员【yuán】参与【yǔ】,推特相【xiàng】关话题受到【dào】近百万的浏览与【yǔ】关注。

随随便便一条推文,浏览量都能破 50k。

积攒了【le】大批 " 自【zì】来【lái】水 " 不是没有原因,看看 3D 的爱因斯坦之【zhī】脸【liǎn】,试【shì】问谁【shuí】不说一句真的很像?要是和【hé】 ControlNet 结合,生成效【xiào】果不亚于单反相片直出:已经有【yǒu】不少用户体【tǐ】验后,开始畅想【xiǎng】将这【zhè】个 Text-to-3D 工具大规模应用【yòng】在【zài】游【yóu】戏【xì】、影【yǐng】视等工业【yè】应用上了。

据了【le】解,用户反馈会成为 ChatAvatar 团队【duì】快【kuài】速迭代和更新的重要依据,形成【chéng】数据飞轮【lún】,以便【biàn】及时提供【gòng】更加完【wán】整和贴近【jìn】需求的功【gōng】能。

事实上,对于【yú】此前的【de】 3D 行【háng】业设计师或公司来说,大部分 AI 文字转 3D 应【yīng】用并非【fēi】效果不好【hǎo】,但实际落地【dì】到工业设计流程上【shàng】,还【hái】是有不少难度【dù】。

这次 ChatAvatar 能如【rú】此出圈,背后【hòu】究竟有什么【me】技术【shù】上的原因?

符合产业要求的 3D 资产生成,究竟难在哪?

都说 AI 要【yào】替代人类【lèi】,事【shì】实上【shàng】仅仅就 Text-to-3D 领【lǐng】域,就并非那么容易替代。

最大的难点,在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么理解?从专【zhuān】业【yè】 3D 美工设计的视角来说,至【zhì】少有【yǒu】三个方面——

质量、可控性和生成速度。

首先是质量。尤其是【shì】对于强调视【shì】觉【jiào】效果的影【yǐng】视、游【yóu】戏行业来说【shuō】,要想生成符合管线要求的 3D 资产,拓【tuò】扑【pū】规整度【dù】、纹【wén】理贴图的精【jīng】度等 " 行业【yè】潜规则 ",都是【shì】 AI 产品第一道必【bì】须迈过去的【de】坎。

以【yǐ】拓扑结构的规整度为例【lì】,这里本质上【shàng】指的是 3D 资产布线的合【hé】理【lǐ】度。

对于 3D 资【zī】产来【lái】说,拓扑的规整度,往往直接影响【xiǎng】物体的【de】动画效果、修改处【chù】理效率和贴【tiē】图绘制速度【dù】:

据行【háng】内 3D 美工设计介绍,手工【gōng】重拓扑【pū】的时间成本【běn】往往【wǎng】比制作 3D 模【mó】型本身更【gèng】高,甚至【zhì】按倍数以计。这意味着【zhe】即【jí】使 AI 模型生成的 3D 资产再炫酷,如果生成的拓扑规整【zhěng】度达不到要求,成本就无法【fǎ】从根本上得到降低。更【gèng】别【bié】提纹理【lǐ】精度。

影眸科技的 ChatAvatar 项【xiàng】目在生成质量、速度以及【jí】标准兼容上【shàng】相比先【xiān】前【qián】的工作【zuò】都有明显的【de】提升

以【yǐ】目前游戏【xì】、影视行业普遍要求的 PBR 贴图【tú】为例,包含【hán】的反射率贴图【tú】、法【fǎ】线贴图等一系列贴图,相当于 2D 图像 PSD 文件的 " 图【tú】层 ",是【shì】 3D 资产【chǎn】流水【shuǐ】线生产必不可少的条件之一【yī】。

然而,目【mù】前 AI 生成的【de】 3D 资产往往是一个【gè】 " 整【zhěng】体 ",少有能按要求单【dān】独生成符合产【chǎn】业环【huán】境的 PBR 贴图的效果。

其【qí】次是可控性【xìng】,对【duì】于生成式 AI 而言,如何让生成的内【nèi】容【róng】更加【jiā】 " 可控 ",是 CG 产业对于这【zhè】项【xiàng】技术提出的又一大要求。

以大众所【suǒ】熟知的 2D 产【chǎn】业为【wéi】例,在 ControlNet 出【chū】现之前,2D AIGC 行业一直【zhí】处在一【yī】种 " 半摸黑前进 " 的状态。

也【yě】就是说,AI 能【néng】生成指定类别的物体画【huà】面,却【què】无法生成【chéng】指定姿态的物体,生成【chéng】效【xiào】果全靠提【tí】示工程和 " 玄学 "。

而【ér】在【zài】 ControlNet 出现后【hòu】,2D AI 图像生成的可控性获得【dé】了突飞猛进的【de】提升,然而【ér】对于【yú】 3D AI 而言【yán】,要想【xiǎng】生成对应效果【guǒ】的资产,很大程度上【shàng】依旧得依靠专业的【de】提示工程。

最后是生成速【sù】度。相比 3D 美工【gōng】设【shè】计而言,AI 生成的优势在于【yú】速【sù】度【dù】,然而如果 AI 渲染的速度和效果无法与人工匹敌的【de】话,那么【me】这【zhè】项技术依【yī】旧无法给产【chǎn】业带【dài】来收益。

以当前在 AI 技术上颇【pō】受欢【huān】迎的 NeRF 为例,其产业化落地就面临【lín】速度【dù】和质量【liàng】的兼容性难题。

在生成质量较高【gāo】的情况【kuàng】下,基【jī】于 NeRF 的【de】 3D 生成往往【wǎng】需要相当漫长的【de】时【shí】间;然而如果追求速度,即使是 NeRF 生成【chéng】的 3D 资产便完全无法【fǎ】投【tóu】入产业使【shǐ】用。

但即【jí】使【shǐ】解决了这个问【wèn】题,如何在不损失【shī】精度的前提下让 NeRF 与传统 CG 行【háng】业的主流引擎兼容仍【réng】然是一【yī】个巨大的【de】问题。

从上面的产业标【biāo】准【zhǔn】化流程不难发现,大部分【fèn】 AI 文本转 3D 应用落【luò】地【dì】存【cún】在两大瓶颈

一个是需要【yào】手动【dòng】完成提示工【gōng】程【chéng】,对于非【fēi】 AI 专业人【rén】士、或不【bú】了解 AI 的【de】设计师来【lái】说【shuō】不够友好;另一个【gè】是生成的 3D 资产往往不符合产业标准,即使再好看也无法投入使用。

针对这两【liǎng】点,ChatAvatar 给出【chū】了两点具体【tǐ】有效的解决方案。

一方面,ChatAvatar 实现了除手动【dòng】输入提示工【gōng】程外的第二条道路,也是更适【shì】合【hé】普通【tōng】人【rén】的一【yī】条捷径:通【tōng】过 " 甲方模式 " 直接【jiē】对话【huà】描述【shù】需求。

团队官方推特介绍称,为了【le】实【shí】现这【zhè】一特【tè】性,ChatAvatar 基于 GPT 的能力,开发了一种对话【huà】描述转【zhuǎn】人像【xiàng】特征的方法。

设计师只需要【yào】不断【duàn】和【hé】 GPT 聊天,描述自【zì】己想要的 " 感【gǎn】觉 ":

GPT 就能自动【dòng】帮忙完【wán】成提示工【gōng】程,将结果【guǒ】输送给【gěi】 AI:换而言之,如果说 ControlNet 是 2D 行业【yè】的【de】 "Game Changer",那么【me】对【duì】于 3D 产业来说,能实【shí】现文本转 3D 的 ChatAvatar,无异于行业的游戏【xì】规则改变者。

另一方面更为重要,那就是【shì】 ChatAvatar 能完美兼容 CG 管线,即生成的资【zī】产在拓扑结【jié】构【gòu】、可控【kòng】性和速度上都符合产【chǎn】业【yè】要求。

同时,生成的模【mó】型和高精度材质贴图,还能【néng】在后期的【de】渲染中达【dá】到极为逼【bī】真的渲【xuàn】染【rǎn】效果。

为了实现这【zhè】样【yàng】的效【xiào】果【guǒ】,团队为 ChatAvatar 自研了一个渐进式【shì】 3D 生成【chéng】框架 DreamFace。

其中的关【guān】键,在于训【xùn】练该模型【xíng】用【yòng】的底层数据,即影眸科技基于 " 穹顶【dǐng】光场【chǎng】 " 采集【jí】到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace 可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

通过【guò】引入外部 3D 数【shù】据库,DreamFace 能够直接输出符合 CG 流程【chéng】的资产。

生成的资产驱动渲染的效果

上【shàng】述两大技术瓶颈的解【jiě】决,本质【zhì】上进一【yī】步加速了 AIGC 洪【hóng】流【liú】下," 生成 " 将取代【dài】 " 搜索 " 的时代趋势——

影眸团队认为," 生成 " 将成为新一代数字资产的获取方式。

此前,我们【men】需【xū】要找到一张符合需求的【de】图片或者资【zī】产时,通常【cháng】会使用搜索引擎【qíng】进行查询。

ChatAvatar 项目主页【yè】上展示的巨大的 " 搜索框 " 和【hé】整齐的资产卡【kǎ】片,看似搜索引擎,但实际上【shàng】是【shì】一【yī】种与搜索截【jié】然【rán】不【bú】同的资产查找方【fāng】式。

ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍:

以【yǐ】前【qián】,如果我们需【xū】要【yào】一张插图,可能要【yào】在多个【gè】图库中【zhōng】反复搜索,或是通过 Photoshop 合成、手绘等较复杂的方【fāng】式才【cái】能得到结果。但在 Stable Diffusion 等技【jì】术出现后,你【nǐ】只需要【yào】通【tōng】过文字描述【shù】想要的图像,就能直接【jiē】生成符【fú】合需求的结果。

这对于传统【tǒng】的资产库来说是一个巨【jù】大【dà】的冲【chōng】击。而 ChatAvatar 的目标,正是用 3D 生【shēng】成替代【dài】传【chuán】统的搜索式【shì】 3D 资产库【kù】。

AIGC 领域的下一个前沿热点

ChatGPT 一【yī】石激起千层浪【làng】,进入 AI 2.0 时【shí】代之后,人们【men】的目光【guāng】也投向包含图像【xiàng】、视【shì】频、3D 等信【xìn】息的多模态 AI。

仅就 3D 生成领域【yù】而【ér】言,无论【lùn】是影视【shì】还是游戏行业,3D 内【nèi】容生产和消费市场已经拥有【yǒu】足够大的规【guī】模【mó】,但在制【zhì】作层面却因技术难【nán】度遭遇掣肘。

譬【pì】如,文本领域大行其道的 Transformer,在 3D 生成领【lǐng】域【yù】的使用还相【xiàng】对【duì】有限。

去年夏天,当文生图领域【yù】因 Diffusion Model 取得【dé】成【chéng】绩后,人们开始期待文字生成 3D有【yǒu】同样惊艳【yàn】的表现。一旦生【shēng】成【chéng】式 AI 的 3D 创作技【jì】术成熟,VR、视频等的内容创【chuàng】作都将【jiāng】起飞【fēi】。

扩散模型 Midjourney5.1 生【shēng】成的 " 梵高【gāo】风【fēng】摄影 "

事【shì】实上,无【wú】论是【shì】科【kē】技巨头【tóu】还【hái】是初创公司,的确都在朝 Text-to-3D 这个方向暗暗发力。

去【qù】年 9 月,谷歌发【fā】布了基于文【wén】本提示生成 3D 模【mó】型【xíng】的【de】 FreamFusion,声称不需要 3D 训练数据,也不需【xū】要修改图【tú】像扩散模型。紧随【suí】其后,Meta 也【yě】推出可以从文【wén】本一【yī】键生成视频的 Make-A-Video 模型。

后来【lái】的 Text-to-3D 的 AI 模型队伍【wǔ】中【zhōng】,还先后出现【xiàn】了英伟达 Magic3D、OpenAI 最新【xīn】开源项目 Shap-E 等,今年 8 月将举【jǔ】办的计算机图形顶会 SIGGRAPH 2023 所【suǒ】展【zhǎn】示的论文,也【yě】有多篇【piān】与 Text-to-3D 有关。

影眸科技有关文本指导【dǎo】的渐进式【shì】 3D 生成框架【jià】 DreamFace 的论文,就是其中之【zhī】一。

而 ChatAvatar,也是【shì】目前【qián】为止最集中在【zài】 3D 数字人【rén】资产方向的【de】生成式模型产品。

其背后的 AI 初创公司影眸科技,2020 年【nián】孵化自上海【hǎi】科技大学 MARS 实验室,成立后获得奇【qí】绩创【chuàng】坛与红杉种子【zǐ】的两轮投【tóu】资。

公司专【zhuān】注于专【zhuān】注于计算机图形学、生【shēng】成【chéng】式 AI 的研究与产品化。2021 年,AIGC 还未掀【xiān】起巨【jù】浪之时,公【gōng】司【sī】就【jiù】已经推出国【guó】内【nèi】首个 AIGC ToC 绘画应用 Wand,产品一度登【dēng】顶 AppStore 分区榜首。

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有 25 岁

将首个商业化场景【jǐng】具【jù】体锚定在【zài】数字【zì】人后,ChatAvatar 是他们乘 AIGC 东风【fēng】在该方向的最新【xīn】进展。

作【zuò】为一个新推出的产【chǎn】品【pǐn】,ChatAvatar 在兼容性、完成度和精【jīng】度等产【chǎn】品效果【guǒ】层面【miàn】,都超出了影【yǐng】眸团队预期。然而在吴迪口中【zhōng】,行至此处的过程【chéng】 " 很狼狈 "。

主要原因不外乎 " 缺人 " 一事。目前,影眸已经在【zài】多类【lèi】别 3D 生【shēng】成【chéng】技术【shù】上取得【dé】了进展,下一步【bù】还计划推出 "3D 生成大模型 "。

影眸科【kē】技将于 5 月上线首个多模态跨平台 3D 搜【sōu】索引擎 Rodin,打【dǎ】通 Sketchfab 等多个 3D 资产平台,支持以文搜 3D、以【yǐ】图搜 3D 甚至以 3D 搜 3D。搜【sōu】索引【yǐn】擎只是 Rodin 的初级形态【tài】,影【yǐng】眸将【jiāng】把 Rodin 打造为 3D 生成大模型。

需要持续向前推进,就需要【yào】更多的工【gōng】程化团【tuán】队、技术美术和拥抱生【shēng】成式 AI 的产品人【rén】才加入团【tuán】队【duì】。作为一个以研【yán】发为背景主【zhǔ】基【jī】调的团【tuán】队,这样的人才仍【réng】然紧缺。

" 人是万物【wù】的尺度," 吴迪表示道," 我们需要【yào】更多【duō】志同道合的人加【jiā】入,共【gòng】同推动【dòng】 3D 领域的创新发【fā】展。"

可【kě】以看到【dào】,ChatAvatar 背后【hòu】技【jì】术从无到有的搭【dā】建【jiàn】,揭示了一家 AI 初创公司的不断创新;而从这【zhè】家公司对人【rén】才的【de】渴望以小见大,更【gèng】揭示【shì】着 AIGC 浪潮下,每一个【gè】细分领【lǐng】域想要从水下浮出【chū】水面的心。

你【nǐ】愿意拥抱生成式 AI,成【chéng】为【wéi】 Text-to-3D 领【lǐng】域的 Game Changer 吗?

联系作者

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

为你推荐

最新资讯

股票软件