近日,2022 IEEE 国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称 CVPR)公布论文收录结果。据 CVPR 官网显示,共收到全球范围内 8186 篇有效投稿,其中火山引擎论文《Dressing in the Wild by Watching Dance Videos》(《基于跳舞视频的通用虚拟换装》)成功入选。
CVPR 已是计算机视觉和模式识别领域的全球顶级学术会议。根据谷歌学术公布的2021年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中,影响力仅次于 Nature、NEJM 和 Science。
此次被收录的最新研究成果涵盖了计算机视觉的各项前沿工作。火山引擎被收录的论文提出了 wFlow (flow in-the-wild)技术方案,首次解决真实用户场景下的虚拟换装问题。该方案通过 2D 和 3D 信息的结合,可以兼容图片中复杂的人体姿势,背景和服装类型,包括宽松不贴身服装(如连衣裙),同时保持换装结果图片的高清晰度和真实性。
另外,此方案通过一种自监督训练的方式,通过公开可用的人物跳舞视频(经脱敏处理)作为训练数据来实现虚拟换装神经网络模型的训练,避开了难以获得换装结果图作为直接监督的难题。论文中火山引擎构建的 dance50k 数据集后续也将公开供学术界使用。
基于跳舞视频的通用虚拟换装在娱乐和电商领域,虚拟换装问题有着比较好的落地前景。虚拟换装,简单来说就是在没有实际的人物和衣服的情况下,直接通过算法将参考图片上的衣服,迁移到另一个用户图片中的人身上,从而生成真实的试穿图片。
由于缺乏对人体潜在的 3D 信息感知能力及相应的多样化姿态-衣服数据集,学术界此前很难处理好实际真实用户场景下的数据,只能在一些固定分布的数据集上有相对好的效果。现有的虚拟换装工作局限于简单人体姿势及贴身衣物,极大地限制了其在真实场景下的应用能力。
在 2020 年上半年,火山引擎开始对虚拟换装技术做长线规划并开始长期投入,首次将 2D 像素流与 3D 顶点流相结合形成更为通用的外观流预测模块 (命名为 wFlow),在解决宽松衣服变形的同时提升对复杂人体姿势的适应力。
具体来说,2D 像素流负责构建衣物图片与人体分割图之间的纹理映射关系,其对图片层面的空间结构特征敏感但无法复现潜在 3D 人体的刚性变换,通过进一步引入基于 SMPL 人体 3D 模型的顶点流,通用复合外观流 wFlow 相较现有工作的单一外观流具备更强的三维感知力,同时不丢失了对目标衣服完整 2D 空间结构的保留能力,下图展示了 wFlow 与其他 SOTA 虚拟试穿方法的对比结果。
相较现有工作需要大量人工采集成对衣服-人物数据集进行模型训练,火山引擎通过在跳舞视频上直接进行跨帧自监督训练并对复杂例子进行在线环式优化,实验证明 wFlow 相较现有的单一像素或者顶点外观流方法在真实世界图片上泛化性更高。
可以说,wFlow (flow in-the-wild)技术方案,相比现有方案有更好的视角效果和客观图像质量评估指标,有效提升了虚拟换装的普适性。
论文中,火山引擎新提出的大规模视频数据 Dance50k 相较现有被广泛使用的 DeepFashion 数据集在衣服种类及图片数量上均有大幅提升(见下图)。
同时,火山引擎决定将构建的大规模人物视频数据集共享给学术界使用,以期促进虚拟换装及其他以人为中心的图像生成研究。
未来,AI 技术将越来越多地应用于贯穿 B 端商家与 C 端消费者的整条业务链路,例如在短视频和电商领域:
为短视频特效道具提供技术基础,实现一键换装的短视频特效。用户可以穿着各式各样的服装进行短视频创作,激发创作欲望,丰富后置摄像头的视频创作生态;帮助电商环境下,用户服装选购实现线上试衣,甚至帮助商家生成高质量模特服装展示图,节省成本。除此之外,火山引擎自研了头部、耳部、足部、手部、腕部、颈部、身体等业内最全面的端上实时人体 3D 感知能力,支持 10 余类商品的实时试穿试戴,提供全平台统一的虚拟试穿试戴解决方案。
疫情当前,线上消费场景需求更多元,AR 虚拟体验成为促进体验式消费升级的重要一环。对于用户来说,能够直接在线上进行商品试用,有助于提升用户的线上消费体验,从而促进商品的购买转化;对于品牌方来说,提供线上的商品及品牌特效互动的能力,这对于品牌推广及购买转化率,都有重要的意义。
借助落地的 wFlow 技术方案,火山引擎开放技术,拥抱合作,希望帮助更多行业用户打造新的营销玩法,实现业务增长。