CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法-APISpace

CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法

凭借在人脸生成领域的扎实积累和前沿创新，阿里云视频云与香港科技大学合作的最新研究成果《基于生成对抗网络的深度感知人脸重演算法》（Depth-Aware Generative Adversarial Network for Talking Head Video Generation）被 CVPR2022 接收。本文为最新研究成果解读。

论文题目：《Depth-Aware Generative Adversarial Network for Talking Head Video Generation》arxiv链接：400ms 以内，但是在视频会议等各场景的需求不断增加的情况下，比如远程 PPT 演示，我们对画质和延迟的平衡有着更高的要求。而突破直播延迟的关键是编解码技术的提升，人脸重演算法与编解码技术的结合，在视频会议场景的应用中将使带宽需求大幅减少，而获得更具身临其境的体验，这是迈向超低延时优画质视频会议非常重要的一步。

人脸重演（face reenactment/talking head）算法是指，利用一段视频来驱动一张图像，使图像中的人脸能够模仿视频中人物的面部姿态、表情和动作，实现静态图像视频化的效果。

人脸重演发展现状

目前的人脸重演方法严重依赖于从输入图像中学习到的 2D 表征。然而，我们认为稠密的 3D 几何信息（例如：像素级深度图）对于人脸重演非常重要，因为它可以帮助我们生成更准确的 3D 人脸结构，并将噪声和复杂背景与人脸区分开来。不过，稠密的视频 3D 标注代价高昂。

研究动机&创新点

实验结果

定量实验

我们在 VoxCeleb1[1] 和 CelebV[2] 数据集上进行了实验。我们使用 structured similarity (SSIM) 和 peak signal-to-noise ratio (PSNR) 来评估结果帧和驱动帧的相似度；使用 average keypoint distance (AKD) 和 average euclidean distance (AED)[3] 来评估关键点的准确性，使用 CSIM[4] 来评估身份保持；使用 PRMSE 来评估头姿保持，使用 AUCON 来评估姿态保持。

定量对比

定性对比

消融实验（Ablation study）

研究总结

通过以上的的结果，可以看出人脸重演算法可以实现更为精细的人脸细节和微表情合成。在视频会议场景中，用 talking head 的方法，在通信过程中可以只传输关键点坐标，而不需要传输每帧图像，在接收端可以通过输入关键点恢复每一帧的图像，大幅降低带宽需求，从而获得画质优良的低延时视频会议体验。

c语言sscanf函数的用法是什么

380 2022-10-07

CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法

c语言sscanf函数的用法是什么

php怎么获取input输入的值

r语言怎么删除数据表某一个数据

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）