AI-NEWS · 2024年 8月 9日

Tencent Hunyuan Leads in Multimodal AI: Comprehensive Advantage Over GPT-4/Claude-3.5

归纳总结

1. 总体表现

  • 腾讯混元多模态AI领先:在中国多模态大模型的评估中,腾讯的混元视觉(hunyuan-vision)和上海AI实验室的InternVL2-40B在闭源和开源领域分别名列前茅,甚至超过国际知名模型如Claude-3.5-Sonnet和Google的Gemini-1.5-Pro。

2. 应用与用户体验

  • 开发者和用户青睐:腾讯的混元视觉不仅受到开发者通过API调用的青睐,还在腾讯的元宝APP中提供免费用户体验,被称为“实用型AI伙伴”。
  • 多场景优异表现:元宝在理解表情包、识别照片内容和应对视觉错觉等方面表现突出。在实际应用场景中,如总结财务报告、识别学术图表、解决能力测试中的模式识别问题等,都能准确理解并提供合理答案。

3. 文化背景理解

  • 中文文化优势:在额外测试中,元宝能够准确识别《葫芦兄弟》的截图并正确回答相关问题,展现出其在中文文化背景理解上的优势。

4. 技术迭代与架构

  • 快速迭代与规模扩展:自去年9月首次亮相以来,腾讯的混元大模型已迅速迭代,规模扩展到万亿参数,涵盖文本、多模态理解和生成领域。是国内首个完成从单一密集模型到由多个专家组成的稀疏模型(MoE架构)升级的大模型。

5. 功能与未来规划

  • 多终端同步与分析能力:元宝APP强调“实用型AI伙伴”,在多终端同步和聊天记录同步上表现优秀,并展示了强大的多模态理解能力,无论是文档截图、肖像风景照片、收据等,都能基于图片内容提供理解和分析。
  • 未来方向:腾讯元宝团队表示将更注重整合模型的多模态能力,以进一步提升用户体验,同时简化用户操作,更新深度搜索和长文阅读功能,减少技术细节暴露。

© Copyright AIbase Base 2024

Source:https://www.aibase.com/news/10928