AI-NEWS · 2024年 10月 26日

Cohere Launches New Open Source AI Model Aya Expanse, Capable of Outperforming Google and Meta’s Models of Similar Size


### Cohere发布新的AI模型,专注于缩小基础模型的语言差距

主要内容:

  • 新模型的发布: Cohere推出了两个名为Aya Expanse8B和35B的新开源AI模型,旨在通过其Aya项目缩小语言差异。这些模型已上线Hugging Face,显著增强了23种语言的AI性能。
  • 目标与背景: Aya项目的目的是为非英语语言扩大基础模型的访问范围。Cohere的研究部门去年启动了该计划,并在2月发布了覆盖101种语言的Aya101大型语言模型(LLM),并引入了Aya数据集来帮助其他语言的模型训练。
  • 核心突破:
    • Aya Expanse8B参数模型使全球研究者更容易取得突破,而35B参数模型提供了业界领先的多语种能力。
    • 研究集中在缩小语言差距上,实现关键突破如数据套利、偏好培训以提升性能和安全性以及模型融合。
  • 基准测试表现:
    • Aya Expanse32B在多语言基准测试中超越了Google、Mistral和Meta的同类规模AI模型。具体而言,Aya Expanse32B优于Gemma227B、Mistral8x22B以及更大的Llama3.170B。
    • 较小的8B模型在多语言基准测试中也表现优异,超越了Gemma29B、Llama3.18B和Ministral8B,胜率从60.4%到70.6%不等。
  • 数据套利方法: 为了防止生成低质量内容,Cohere采用了一种名为“数据套利”的数据采样方法,尤其是在训练资源较少的语言模型时非常有效。此外,Cohere还专注于引导模型向“全球偏好”方向发展,考虑不同文化和语言视角,从而提升模型性能和安全性。

总结观点:

  • Cohere的Aya Expanse项目在多语种AI领域取得了显著进展,特别是在非英语资源较少的语言上。
  • 这些新模型在性能测试中表现出色,超越了多个竞争对手。
  • 通过采用数据套利方法和技术改进,Cohere为多语言AI模型的训练提供了重要支持。

Source:https://www.aibase.com/news/12733