青岛发布中国首个全模态实时交互大模型,VisualGPT实现"所见即所得"AI体验
模型概述
在青岛虚拟智能体产业大会上,正式发布了中国首个视觉语言大模型VisualGPT。该模型支持全模态实时交互,同时推出了智能体训练平台,为全国开发者提供多模态数据和计算资源,标志着AI交互从"文本对话"进入"视觉界面即时交互"的新阶段。
核心技术特点
全模态实时交互
- 直接操作:用户上传图片/视频后,可直接在屏幕上选择、标注或语音提问
- 快速响应:模型在秒级内返回结构化答案、可执行代码或3D场景
- 无需切换:整个过程无需切换到文本输入界面
"所见即所得"体验
- 技术架构:视觉编码器与流式解码器耦合
- 低延迟:端到端延迟小于300毫秒
- 高性能:支持1080p60fps视频实时分析和多轮对话
多领域应用场景
已开放三个领域的SDK:
教育领域
- 教师可在演示文稿上圈选公式,即时生成动画解释
医疗领域
- 医生阅片时可询问病灶指标,获得专业分析
金融领域
- 分析师可直接对股票图表提问,获取策略回测结果
平台支持能力
计算资源
- 当前配置:1000张A100/H100混合算力
- 存储容量:10PB多模态数据
- 免费开放:面向企业、高校和个人开发者
- 未来规划:计划到2026年扩展至5000张H100 GPU,建设中国北方最大AI训练集群
产业对接
- 发布"百企百景"对接清单
- 首轮收集超过200项视觉交互需求
- 预计2025年底完成100个标杆案例
产业意义与发展规划
产业优势
VisualGPT的发布使青岛在虚拟智能体领域获得先发优势
发展规划
根据青岛市工业和信息化局规划:
- 时间跨度:未来三年
- 核心项目:依托该模型建设"青岛AI创新谷"
- 产业目标:吸引300余家上下游企业
- 规模预期:形成万亿元规模的全模态交互产业链
相关信息
发布时间:2024年11月24日
来源:AIbase Daily
