AI-NEWS · 2024年 7月 24日

PhotoMaker:利用多个输入图片创建人物ID表示 来生成一致性人物图像

PhotoMaker 技术概述及主要功能总结

技术概述

PhotoMaker 是由腾讯 ARC 实验室和南开大学 MCG-NKU 合作开发的一种高效个性化文本到图像生成方法。其核心是通过堆叠 ID 嵌入来生成逼真的人像照片,能够快速、高质量地根据文本提示生成符合描述的高保真度人像图片。具体流程包括:

  1. 输入图像获取:收集同一身份的多张照片。
  2. 图像嵌入生成:通过图像编码器将照片转换为嵌入向量,每个向量代表一张照片的特征。
  3. 堆叠嵌入:将这些嵌入向量叠加形成综合的 ID 嵌入。
  4. 融合文本描述:结合文本描述,将文本嵌入向量与堆叠 ID 嵌入融合。
  5. 生成图像:将更新后的文本嵌入输入到图像生成模型中,生成符合描述的逼真图像。

主要功能

  1. 个性化生成

    • 高效生成:无需额外的 LoRA 训练,只需一次前向传递即可完成。
    • 身份保真:能够精确保持输入人物的身份特征,即使在多样化的生成条件下。
  2. 风格化生成

    • 多种风格:在保持人物身份特征的同时,可生成不同风格(如绘画、漫画等)的图像。
    • 风格转换:将人物从现实照片转换为各种艺术风格的图像。
  3. 改变年龄或性别

    • 年龄变化:通过修改文本提示,可以生成不同年龄段的同一人物图像。
    • 性别转换:实现人物性别转换,同时保持原有的身份特征。
  4. 身份混合

    • 多身份融合:将多个不同身份的特征融合,生成新的综合身份。
    • 比例控制:通过控制输入图像的比例,调整生成图像中各个身份特征的权重。

示例应用

  • 个性化图像生成:快速生成特定描述的逼真人像,如“李华戴着红色帽子在微笑”。
  • 风格转换:将现实照片转化为艺术风格作品,同时保留人物特征。
  • 年龄和性别变换:生成不同年龄段或性别的同一人物图像。
  • 身份混合:融合多个人物特征,生成具有综合特征的新图像。

加入会员

提供超过1000+的会员内容,每天更新,用户可以获得更多教程和功能详解。

通过以上功能,PhotoMaker 展示了其在个性化图像生成、风格化处理以及身份特征保真方面的强大能力。

Source:https://xiaohu.ai/p/11665