NVIDIA Maxine云端AI视讯技术Vid2Vid Cameo让会议画面更完美

时间：2021-08-04 09:35:34

NVIDIA 研究人员所开发的 AI 工具 NVIDIA Maxine SDK 当中，有着相当多的深度学习模型其中包含 Vid2Vid Cameo，这模型利用生成对抗网路 (GAN)，只需你的一张平面照片，就能产生出不同角度、立体的头像。

就像 NVIDIA 敬致 Netflix 播出的《纸房子》影集中视讯的画面，由 NVIDIA 研究人员来说明 Vid2Vid Cameo 可提供给视讯会议更完美的人体头像，参与者只需要在加入视讯通话前先上传一张参考图片，可以是自己的真实照片或卡通图片，就能使用这项功能。

Vid2Vid Cameo 只需要两个元素，便能建立出用于视讯会议的逼真 AI 对话头像，包含一张使用者的脸部照片以及一个视讯串流内容，该模型在 NVIDIA DGX 系统上使用 18 万个高品质对话头像的资料集来进行训练。

Vid2Vid Cameo 的模式能够辨识脸部的二十个关键点，这些关键点针对包括眼睛、嘴巴和鼻子在内的特徵位置进行编码，接着模型会从通话者的参考图片中撷取这些关键点，通话者的图片可以事先发送给其他参与视讯会议的人，或从过往的会议中重複使用。

如此一来，视讯会议平台只需发送说话者脸部关键点的动作资料，而不用在每一个与会者之间发送庞大的即时视讯串流内容;对接收者来说，GAN 模型在接收端使用这些资讯来合成一个模仿参考图片外观的视讯内容。

NVIDIA Maxine云端AI视讯技术Vid2Vid Cameo让会议画面更完美(1)

NVIDIA Maxine云端AI视讯技术Vid2Vid Cameo让会议画面更完美(2)

利用 Vid2Vid Cameo 后，视讯会议只需传送会议者脸部的位置及关键点，而并即时的在所有与会者电脑中，藉由 AI 来模拟出会议者的立体头像，让整体视讯会议品质可更佳流畅，且不影响视讯画质。

NVIDIA 的研究人员发现，Vid2Vid Cameo 可以产生更为真实清晰的结果，不管参考图片和视讯内容是否出自同一个人，还是当 AI 把一个人的动作转移到另一个人的参考图片上，它的表现都比最先进的模型更出色。

NVIDIA Maxine云端AI视讯技术Vid2Vid Cameo让会议画面更完美(3)

Vid2Vid Cameo 模型论文的作者为 NVIDIA 研究人员 Arun Mallya 和两位来自台湾的 Ting-Chun Wang、和 Ming-Yu Liu。NVIDIA Research 团队由全球两百多名科学家组成，专注于 AI、电脑视觉、自动驾驶车、机器人和绘图等领域。

在此特别感谢于 Netflix 播出的《纸房子》影集中，替教授进行英语配音的演员 Edan Moses，感谢他为上述我们最新的 AI 研究成果影片所做出的贡献。