小红书与复旦大学开源InstanceAssemble:实现AI生图的精准布局控制
核心摘要
近日,小红书与复旦大学联合发布了其在布局到图像生成领域的最新研究成果——InstanceAssemble。该技术旨在解决AI绘画中长期存在的“布局难题”,通过一种创新机制,实现了从简单到复杂场景的精准图像生成。相关论文已被顶级AI会议NeurIPS 2025接收。
技术背景与挑战
在当前AI绘画领域,尽管“文生图”已趋成熟,但AI往往难以根据用户定义的空间约束(如边界框或分割掩码)精确放置物体,经常导致错位或语义脱节。InstanceAssemble的出现,标志着AI绘画进入了 “精准构图” 的新阶段。
核心技术:实例组装注意力机制
该技术基于主流的扩散Transformer架构,其核心是 “实例组装注意力” 机制。
- 使用方式:用户只需提供每个物体的具体位置(边界框)和内容描述,AI即可在指定区域内生成符合要求的图像内容。
- 生成能力:无论是仅包含少数物体的简单场景,还是包含密集实例的复杂场景,InstanceAssemble都能保持高布局精度和语义一致性。
关键优势:轻量适配
InstanceAssemble采用轻量级适配方案,无需重新训练整个大模型,仅需极少量额外参数即可适配现有模型:
- 适配 Stable Diffusion3-Medium 约需 3.46M 额外参数。
- 适配 Flux.1 模型仅需约 0.84M 额外参数。
评估体系与开源情况
为更好评估技术性能,研究团队还推出了包含 90,000个实例 的基准数据集 “Denselayout” 及新的评估指标。
目前,InstanceAssemble已在 GitHub 上开源,代码与预训练模型均可供开发者下载。预计将在设计、广告、内容创作等行业发挥重要作用。
GitHub项目地址:https://github.com/
要点总结
- 精准布局控制:通过“实例组装注意力”机制,AI能严格按照用户定义的位置生成物体,支持从稀疏到复杂的布局。
- 低适配成本:采用轻量化设计,无需全模型重训练,仅需0.84M至3.46M额外参数即可适配Flux.1或SD3等主流模型。
- 全面开源共享:项目已在GitHub开源,提供预训练模型,并发布了新的基准数据集Denselayout,以推动行业评估标准化。
本文信息整理自AIbase,发布日期:2025年12月26日。
