最近的研究焦点是使用各种方法检测Deepfake。有些将Deepfake视为异常,寻找深度、背景和局部-全局信息的不一致性。还有一些将Deepfake视为一种独特的模式,利用深度学习技术分析面部特征和颜色空间。这些努力有助于区分真实内容和Deepfake视频。
最近,一篇新论文提出了一种新的解决方案,即使用头部姿势估计(HPE)作为区分真实视频和Deepfake的唯一标识符。作者建议通过分析视频中个体的头部姿势来帮助区分真实内容和Deepfake内容。这种方法着眼于头部方向的角度,以便发现视频操作中引入的不一致性。该研究旨在评估使用各种方法和数据集的有效性,为改进Deepfake检测策略做出贡献。
该论文详细介绍了所提出的方法,其主要思想是将头部姿势估计作为检测Deepfake视频的特征之一。头部姿势估计涉及确定图像或视频中人物的头部位置和方向,这些信息可用于识别Deepfake操作引入的差异,因为即使是头部对齐的微小变化也很难准确复制。
该研究分析了三种HPE方法,并在流行的FF++Deepfake数据集上进行了水平和垂直分析。目标是找到最有效的Deepfake检测方法。作者进行了实验,利用头部姿势模式来检测Deepfake视频。他们使用了包括真实和操作视频的“FaceForensics++”数据集。他们采用KNN和动态时间规整(DTW)对齐序列,并利用深度学习模型(1D卷积和GRU)捕捉时间模式。这些方法旨在基于头部姿势将视频分类为真实或伪造。
最佳结果来自于基于HPE的方法,使用KNN-DTW的FSA-Net。该方法在多个最先进的方法上表现出色,显示出在数据集的不同子集之间的稳定性和可迁移性。研究表明,头部姿势模式对于Deepfake检测非常有效,特别是在像FaceSwap这样不太逼真的攻击中。