李飞飞团队推出全新多模态模型,理解与生成人类动作
李飞飞团队发布了一种新的多模态模型,该模型不仅能够理解和生成人类行为,还能整合语言模型实现口头和非口头沟通的统一处理。这项开创性的研究使机器不仅能理解人类指令,还能通过行动解读情感,从而促进更加自然的人机交互。
模型核心
该模型的核心在于其多模态语言框架,可以接收多种形式输入(如音频、动作和文本),并输出所需模式的数据。结合生成预训练策略,模型在多个任务中表现出色:
- 在协作语音手势生成任务中,模型不仅超越了现有技术水平,还显著减少了训练所需数据量。
- 模型解锁了新的应用场景,例如可编辑的姿态生成及通过行动预测情绪。
应用场景
人类沟通本质上是多模态的,包括言语和非言语线索(如面部表情、身体姿态)。该模型理解这些多模态行为的能力对于创建能够在游戏、电影和虚拟现实等应用中自然交流的虚拟角色至关重要。现有动作生成模型往往局限于特定输入模式(如语音、文本或行动数据),未能充分利用可用数据的多样性。
技术细节
模型利用语言模型统一口头与非口头沟通,有三大主要理由:
- 语言模型天然连接不同模态。
- 言语具有高度语义性,处理笑话等任务需要强大的语义推理能力。
- 预训练赋予了语言模型强大的语义理解力。
模型实现
研究团队首先将身体分成多个部分(面部、手部、上半身、下半身),并为每个部位标记动作。结合文本和语音的分词器,任何模态输入都可以表示为一系列供语言模型使用的令牌。模型采用两阶段训练过程:首先进行预训练以对齐不同模态与组合身体动作以及对齐音频和文本;随后将下游任务转化为指令,使模型能够遵循各类任务指南。
训练策略
在BEATv2协作语音手势生成基准测试中,该模型表现出色,并超越了现有模型。预训练策略的有效性得到了验证,尤其是在数据稀缺情况下表现出了强大的泛化能力。通过后续训练音频-动作和文本-动作任务,模型不仅能响应音频和文本提示,还能实现新功能如从行动数据预测情绪。
技术架构
技术上,该模型采用模态特定的分词器处理各种输入模态。具体而言,训练一个结合身体运动VQ-VAE以将面部、手部、上半身及下半身动作转换为离散令牌。这些模态特定词汇表(音频和文本)被合并到统一的多模态词汇表中。在训练期间使用不同模态混合令牌作为输入,并通过编码器解码器语言模型生成输出。
预测情感
该模型利用多模态词汇将不同模态数据转化为统一格式处理。预训练阶段,模型执行跨模态转换任务以学习不同模态之间的对应关系。例如,模型可以学习将上半身动作转换为下半身动作或将音频转换为文本,并通过随机屏蔽某些行动帧来学习行动的时间演变。
结论
该研究展示了整合人类行为中口头和非言语语言的重要性以及语言模型为此提供强有力框架的潜力。