AAAI 2025|一张图片让你变身童话角色!美图&国科大提出人脸风格化新方法StyO

互联网
2025
02/17
17:11
分享
评论

基于单张参考图的人脸风格化一直是图像领域的热门方向,皆在生成特定风格的个性化肖像,其被广泛应用于社交媒体、影视、营销等泛娱乐场景中。实现高可控性、ID相似度及风格程度的人脸风格化,对提高观感与趣味性、营造氛围感十分重要,但现有方法在平衡几何变化与面部、头发颜色、姿态等图像细粒度细节方面,仍然存在一定困难。

日前,美图影像研究院(MT Lab)联合中国科学院大学突破性地提出了基于扩散模型的单张图像人脸风格化新方法StyO,用于生成指定风格的人脸图像,尽可能保持原人脸图像内容和姿态,已被人工智能顶会AAAI 2025接收。

StyO:基于单张风格图像生成高质量艺术肖像

StyO采用了解耦与重组的策略,并引入了两个创新模块:标识符解耦学习器(Identifier Disentanglement Learner, IDL)和细粒度内容控制器(Fine-grained Content Controller, FCC)。其中,IDL的目标是将图像的风格属性和内容属性解耦为独立的标识符,而FCC则将这些标识符重新组合,以构建描述风格化人脸的提示语。

图1:StyO的简略示意图

具体而言,IDL 定义了一种对比解耦提示模板,将内容和风格标识符以文本描述的形式用于输入图像。此外,引入了一种仅包含源风格和目标风格标识符的辅助提示模板,用于描述具有与源图像相同风格的辅助图像集。这种设计有助于确保风格和内容标识符能够正确表示图像的对应属性,同时也避免了将风格或内容信息与提示中的其他无关词语关联。基于上述定义的提示,StyO构建了文本-图像对以微调预训练的Stable Diffusion,从而将图像属性注入标识符中,实现了解耦目标。

FCC 的目标则是通过重新组合IDL提取的风格和内容标识符来生成风格化的人脸图像,但仅依赖重构提示会导致源图像细粒度细节的丢失,例如头部姿态、头发颜色、胡须样式等。为了解决这一问题,FCC 提出了一种基于注意力图的新操作机制以提升可控性。受到跨注意力层生成的注意力图与提示文本语义相关性的启发,FCC 提取了源图像的注意力图,并用其替换对应风格化图像的注意力图,从而有效控制生成结果的细粒度细节。此外,FCC 提出了通过重复标识符来增强提示的策略,这种简单的增强策略进一步提升了生成质量。

图2:StyO的训练和推理流程

实验结果

大量的实验表明,基于单张图像的人脸风格化方法——StyO,在公开数据集上优于先前的工作,并且消融实验也验证了StyO所设计模块的有效性。

图3:与基线方法的可视化对比

图4:消融实验

图5:消融实验

图6:消融实验

美图以影像科技助力生产力

本研究提出了一种基于单张参考图的人脸风格化方法StyO,该方法首先将源图像和目标图像的内容和风格解耦为标识符,再以交叉方式重新组合这些标识符以生成风格化的人脸图像。通过这种方式,StyO将复杂图像分解为独立且具体的属性,并将人脸风格化简化为输入图像中不同属性的组合,从而生成更符合风格的图像面部几何结构和源图像内容的结果。

该研究为视觉艺术创作带来了新启发。也为社交媒体、影视、营销等泛娱乐场景的应用提供助力。作为论文作者之一,美图影像研究院(MT Lab)基于生成式AI技术,先后推出AI绘画、AI动漫、AI动图、脑洞特效等多款趣味玩法功能表现不俗,吸引了海内外广泛关注,随着生成式AI在口播视频、电商设计、设计服务、游戏营销、商业摄影等影像与设计领域的进一步深入应用,也将为用户与行业带来更多创新服务和优质内容创作体验。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

相关推荐

1
3
Baidu
map