OpenAI 开发代号为“Strawberry”的新模型
1. 项目背景与目标
- 项目名称:Strawberry(草莓),原名Q*。
- 目标:提升人工智能的推理能力,使其能够自主浏览互联网并进行深度研究,适应长周期任务(LHT)。
2. 项目概述
- 核心目标:让AI不仅能生成答案,还能自主进行信息检索和分析,基于其发现采取行动。
- 提升推理能力:改进AI处理多步骤问题和长周期任务的能力,应用于科学发现、软件开发等复杂领域。
3. 技术方法
- 后训练(Post-training):通过进一步调整和优化模型提升性能,包括细调(fine-tuning)。
- 自我训练数据生成:类似斯坦福大学的“Self-Taught Reasoner”(STaR),模型通过自我生成训练数据不断提高智能水平。
4. 内部文件与开发进展
- 当前状态:项目正在进行中,具体发布日期尚未确定。
- 数据集:“深度研究”数据集用于训练和评估模型。
- CUA(计算机使用代理):自主操作系统,自动浏览互联网进行信息检索和分析,并采取相应行动。
5. 可能应用场景
- 自动浏览与研究:CUA可以自主查找、阅读和分析在线信息,进行深度研究。
- 行动决策:基于研究结果,CUA可以下载论文、生成报告、启动实验模拟等。
- 工程任务:
- 软件工程:浏览代码库,查找并修复错误,生成代码模块,开发软件应用。
- 机器学习工程:数据预处理、模型训练和优化、结果分析等工作。
6. 行业内竞争与挑战
- 其他公司尝试:谷歌、Meta和微软等公司也在提升AI推理能力。
- AI推理的重要性:被视为实现人类或超人类智能的关键,涉及提前计划、反映物理世界运作方式、解决复杂问题。
7. 市场反馈与未来展望
- 行业观点:推理能力是AI发展的重要方向,但大语言模型能否长期规划存在分歧。
- OpenAI战略:通过后训练方法和自学推理技术,瞄准长时间任务执行能力。
路透社报道详见:路透社原文链接
Source:https://xiaohu.ai/p/11309