昆仑远AI发布全模态融合模型BaiZe-Omni-14b-a2b,推动AI技术新进展
模型概述
昆仑远AI在2025世界计算大会上正式发布基于昇腾平台的全模态融合模型BaiZe-Omni-14b-a2b。该模型在文本、音频、图像和视频的理解与生成方面具备强大能力。
技术架构创新
- 模态解耦编码:实现不同模态数据的高效处理
- 统一跨模态融合:确保多模态信息的有效整合
- 双分支功能设计:兼顾理解与生成能力
设计流程
涵盖输入处理、模态适配、跨模态融合、核心功能和输出解码等完整步骤。在MoETransformerX架构中引入:
- 多线性注意力层
- 单层混合注意力聚合层
优化计算效率,确保大规模全模态应用的顺畅实现。
训练数据规模
- 文本数据:3.57万亿token
- 音频数据:超过30万小时
- 图像数据:4亿张
- 视频数据:超过40万小时
通过差异化数据配比,在不同训练阶段实现渐进式性能提升。
性能表现
核心指标
- 文本理解准确率:89.3%
- 长序列处理:32768 token文本摘要任务的ROUGE-L得分为0.521
- 显著高于行业主流模型GPT-4的0.487
功能特性
- 支持多语言文本生成
- 支持图像、音频、视频的多模态生成
- 可有效处理多达10种任务类型
应用前景
该模型将为智能客服、内容创作等多个领域提供技术支持,推动AI技术的进一步发展。
