Nvidia AI 推出 ChatQA2 模型:基于 Llama3,长文本理解和 RAG 能力媲美 GPT-4
性能突破
- 上下文窗口:扩展至 128K tokens。
- 指令调整:三阶段过程提升了指令遵循能力、RAG 性能和长文本理解。
技术细节
- 持续预训练:将 Llama3-70B 的上下文窗口从 8K 扩展到 128K tokens。
- 三阶段指令调整:确保模型有效处理各种任务。
评估结果
- 准确性:在 InfiniteBench 评估中,长文本总结、问答、多项选择和对话等任务上的表现媲美 GPT-4-Turbo-2024-0409。
- RAG 基准测试:在检索增强生成任务上超越了 GPT-4-Turbo-2024-0409。
解决关键问题
- 上下文碎片化和低召回率:通过使用先进的长文本检索器,提高检索准确性和效率。
总结
ChatQA2 在长文本理解和 RAG 方面实现了与 GPT-4-Turbo 相当的性能,为各种下游任务提供了灵活且高效的解决方案。