新AI框架HyperHuman：生成具有潜在结构扩散的超真实人类图像

近日，一项名为HyperHuman的新型人工智能框架正式亮相，这一框架开创了生成超逼真人体图像的崭新纪元。其重要突破在于结合了结构扩散技术，成功克服了以往模型在生成人体图像中面临的种种挑战。

与现有的变分自动编码器（VAEs）或生成对抗网络（GANs）等方法不同，HyperHuman无需用户具备专业技能，只需提供文本和姿势等条件，它便能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。

HyperHuman框架的独特之处在于引入了结构扩散模型（DMs），并成功解决了人体形态的非刚性变形问题。这主要得益于Latent Structural Diffusion Model和Structure-Guided Refiner两个模块的相互协作，使得图像的外观、空间关系和几何在一个统一的网络中协同建模。

HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质，从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点，研究人员建立了一个名为HumanVerse的大规模人体中心数据集，其中包含340百万张野外人体图像，并进行了详细的注释。基于这个数据集，HyperHuman设计了两个关键模块，分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干，同时去噪RGB、深度和法线等方面，确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

此外，HyperHuman还采用了强大的调制方案，以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划，低频信息泄漏得以消除，确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习，促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。

与当前技术的比较结果显示，HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中，展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB（512×512）。这些图像直观地展示了HyperHuman在生成逼真人体图像方面的优越性。

HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法，突破了以往模型的局限性，为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。它的推出将进一步推动人工智能领域的发展，展现出更加广泛的应用前景。

AI行业资讯新AI框架HyperHuman：生成具有潜在结构扩散的超真实人类图像

版权声明：AI导航网发表于 2023-11-27 11:23:08。
转载请注明：新AI框架HyperHuman：生成具有潜在结构扩散的超真实人类图像 | AI导航网

暂无评论

暂无评论...

新AI框架HyperHuman：生成具有潜在结构扩散的超真实人类图像

Inflection AI推出全球计算级别最佳AI模型Inflection-2，挑战OpenAI等巨头

字节跳动揭晓新AI部门Flow：专注于AI应用领域的创新与拓展

暂无评论

归档

分类