AI-NEWS · 2024年 12月 16日

Nexa AI推出OmniAudio-2.6B:快速音频语言模型

Nexa AI发布OmniAudio-2.6B音频语言模型

Nexa AI最近推出了新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的设计架构不同,OmniAudio-2.6B集成了Gemma-2-2b、Whisper Turbo和一个自定义投影器到统一框架中,消除了传统系统组件连接带来的低效性和延迟,特别适合计算资源有限的设备。

主要亮点

处理速度

OmniAudio-2.6B在处理速度方面表现优异。使用Nexa SDK和FP16GGUF格式,在2024 Mac Mini M4Pro上实现了每秒35.23个令牌的处理速度,而在Q4KM GGUF格式下则可以达到每秒66个令牌。相比之下,类似硬件上的Qwen2-Audio-7B只能以每秒6.38个令牌的速度运行,显示出明显的速度优势。

资源效率

模型的紧凑设计有效减少了对云资源的依赖,使其成为电池和带宽受限的可穿戴设备、汽车系统和物联网设备的理想选择。这种特性允许它在有限的硬件条件下高效运行。

高准确性和灵活性

尽管OmniAudio-2.6B侧重于速度和效率,但它在准确性方面也表现出色,适用于各种任务,如转录、翻译和摘要生成。无论是实时语音处理还是复杂的语言任务,OmniAudio-2.6B都能提供精准的结果。

结论

OmniAudio-2.6B的发布标志着Nexa AI在音频语言模型领域又迈出了重要一步。其优化架构不仅提升了处理速度和效率,还为边缘计算设备打开了更多可能性。随着物联网和可穿戴设备的持续普及,预计OmniAudio-2.6B将在各种应用场景中发挥关键作用。

产品信息:

Source:https://www.aibase.com/news/13988