AI-NEWS · 2024年 12月 19日

文本驱动风格迁移技术革新图像生成质量大幅提升

文本驱动的图像合成技术分析

文本驱动风格迁移是图像合成领域的一项重要任务,旨在将参考图像的样式与文本描述的内容融合。近年来,在文本到图像生成模型方面取得了显著进展,实现了更加精细的风格转移并保持了对内容的高度保真度。该技术在数字绘画、广告和游戏设计等领域具有很大的实用价值。

存在的问题

  1. 风格过拟合:当前模型倾向于复制参考图像的所有元素,导致生成的图像过于接近参考样式,限制了美学灵活性与适应性。
  2. 文本对齐不准确:模型可能会优先考虑参考图像的主要颜色或图案,即使这些元素与文本提示中的指示相矛盾。
  3. 生成伪影:风格迁移可能引入不必要的伪影,如重复的图案(如棋盘效应),破坏整体布局。

解决方案

  1. 基于AdaIN的跨模态融合

    • 使用自适应实例归一化机制将样式图像特征融入文本特征,并与图像特征进行融合。
    • 该方法通过调整内容特征以反映风格统计,有效整合了样式并保留了内容与描述的一致性。
  2. 基于无分类器指导的样式迁移(SCFG)

    • 开发一种专注于目标样式的引导方法,减少不必要的样式特征。
    • 利用布局控制生成模型生成缺少目标样式的“负”图像,此图像类似扩散模型中的空提示,使引导完全聚焦于目标样式元素。
  3. 使用教师模型进行布局稳定

    • 在生成初期引入一个教师模型,基于原始文本到图像模型执行去噪生成。
    • 通过共享空间注意力图确保稳定的时空分布,有效缓解棋盘效应等伪影问题。同时实现相同文本提示下不同风格参考图像的一致性。

实验验证

  1. 实验结果

    • 验证了这些方法的有效性,显著提升了生成图像的样式转移质量,并保持与文本提示的一致性。
    • 该方法可以无缝集成到现有框架中,无需微调。
  2. 自注意力机制的作用

    • 在生成过程中通过捕捉高层次的空间关系来稳定基础布局,解决跨注意机制不稳定带来的伪影问题。
    • 通过选择性替换某些风格图像中的自我关注图,保留关键特征的空间关系,确保核心布局在去噪过程中的一致性。
  3. SCFG的有效性

    • 解决了样式模糊的问题,可以有选择地强调所需的样式元素并过滤掉无关或冲突的特征。
    • 通过生成负样式的图像来减少对不相关样式成分的过拟合风险。

结论

所提出的方法有效解决了现有技术中存在的一些问题(如风格过拟合和布局不稳定),实现了高质量图像生成,提供了一种灵活且强大的文本到图像合成解决方案。

原文链接

Source:https://www.aibase.com/news/14119