CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
-
论文题目:MoMask: Generative Masked Modeling of 3D Human Motions -
论文链接:https://arxiv.org/abs/2312.00063 -
代码链接:https://github.com/EricGuo5513/momask-codes -
Huggingface Space 链接:https://huggingface.co/spaces/MeYourHint/MoMask
-
残差量化模型 (Residual VQ-VAE),将人体动作转换为多层离散的动作标记(Token)。基层(即第一层)的动作标记包含了动作的基本信息,而残差层则对应更细粒度的动作信息。 -
Masked Transformer:对基层的动作标记进行建模,采用随机比例的随机掩码,并根据文本信息预测被掩码的动作标记,用于生成基层动作标记。 -
Residual Transformer:对残差层的动作标记进行建模,根据前 j 层的动作标记预测第 j 层的动作标记,以此来建模残差层的动作序列。
(来源:机器之心)