AI-NEWS · 2024年 12月 19日

文本驱动风格迁移技术革新图像生成质量大幅提升

文本驱动的图像合成技术分析

文本驱动风格迁移是图像合成领域的一项重要任务，旨在将参考图像的样式与文本描述的内容融合。近年来，在文本到图像生成模型方面取得了显著进展，实现了更加精细的风格转移并保持了对内容的高度保真度。该技术在数字绘画、广告和游戏设计等领域具有很大的实用价值。

存在的问题

风格过拟合：当前模型倾向于复制参考图像的所有元素，导致生成的图像过于接近参考样式，限制了美学灵活性与适应性。
文本对齐不准确：模型可能会优先考虑参考图像的主要颜色或图案，即使这些元素与文本提示中的指示相矛盾。
生成伪影：风格迁移可能引入不必要的伪影，如重复的图案（如棋盘效应），破坏整体布局。

解决方案

基于AdaIN的跨模态融合：
- 使用自适应实例归一化机制将样式图像特征融入文本特征，并与图像特征进行融合。
- 该方法通过调整内容特征以反映风格统计，有效整合了样式并保留了内容与描述的一致性。
基于无分类器指导的样式迁移（SCFG）：
- 开发一种专注于目标样式的引导方法，减少不必要的样式特征。
- 利用布局控制生成模型生成缺少目标样式的“负”图像，此图像类似扩散模型中的空提示，使引导完全聚焦于目标样式元素。
使用教师模型进行布局稳定：
- 在生成初期引入一个教师模型，基于原始文本到图像模型执行去噪生成。
- 通过共享空间注意力图确保稳定的时空分布，有效缓解棋盘效应等伪影问题。同时实现相同文本提示下不同风格参考图像的一致性。

实验验证

实验结果：
- 验证了这些方法的有效性，显著提升了生成图像的样式转移质量，并保持与文本提示的一致性。
- 该方法可以无缝集成到现有框架中，无需微调。
自注意力机制的作用：
- 在生成过程中通过捕捉高层次的空间关系来稳定基础布局，解决跨注意机制不稳定带来的伪影问题。
- 通过选择性替换某些风格图像中的自我关注图，保留关键特征的空间关系，确保核心布局在去噪过程中的一致性。
SCFG的有效性：
- 解决了样式模糊的问题，可以有选择地强调所需的样式元素并过滤掉无关或冲突的特征。
- 通过生成负样式的图像来减少对不相关样式成分的过拟合风险。

结论

所提出的方法有效解决了现有技术中存在的一些问题（如风格过拟合和布局不稳定），实现了高质量图像生成，提供了一种灵活且强大的文本到图像合成解决方案。

Source:https://www.aibase.com/news/14119

您可能还喜欢...