AI-NEWS · 2024年 7月 9日

快手开源图像生成模型可图Kolors 支持在画面中生成文字

快手开源图像生成模型 "可图 Kolors" 概要

概述:
快手发布了其新一代图像生成模型“可图 Kolors”,并将其开源。这一模型经过大量数据训练,支持中英文双语提示词,并可以在图片中生成文字。其背后的技术支撑和对中国文化元素的优化使得该模型在本土化表现上尤为突出。

主要特点:

  1. 中英双语支持:

    • 使用通用语言模型(GLM)作为文本编码器,能够理解和运用中英文提示词。
  2. 长文本处理能力:

    • 支持长达256个token的上下文长度,适合复杂场景和丰富故事的描绘。
  3. 海量数据训练:

    • 在数十亿个文本图像对上进行训练,拥有庞大的知识库,可生成多样化且精准的图像。
  4. 中国文化元素优化:

    • 特别针对中国文化元素进行了优化,使生成图像更贴近中国文化特色,满足本土需求。
  5. 中文文字生成:

    • 能够在生成的图片中嵌入中文文字,提升图像表达力。

测试结果:

  • 中文文字插入效果优异,基本无误。
  • 英文文字插入易出现缺字或错字情况。
  • 文字内容过长时可能出错。

技术细节:

  • 基于SDXL模型架构,并融合了ChatGLM256技术,增强双语理解和文字生成能力。
  • 运行需要较大的显存,大约19GB。

开源计划:

  • 包括CN(ControlNet)、LoRa(低秩适应)、IPA(图像提示适应)和ComfyUI直接支持,提升创作过程的流畅性和个性化。

意义与影响:

  • 这一模型不仅仅是一个工具,更是快手在AI技术和文化传承上的一次重大突破。
  • 开源计划展示了快手在推动创作自由和技术社区贡献上的决心和实力。

链接资源:

总结:

“可图 Kolors”通过强大的技术支撑和海量数据训练,为用户提供了一个功能强大且具备文化适应性的图像生成工具,其在中英文处理能力、长文本支持和本土化优化方面具有显著优势。虽然在某些方面仍需改进,但整体表现已展现出快手在AI领域的创新能力和前瞻性。

Source:https://www.aibase.com/news/10085