AI-NEWS · 2025年 7月 12日

AWS升级AI基础设施

AWS SageMaker重大升级:增强AI模型训练与推理能力

核心升级内容

  • 新增可观测性功能:SageMaker HyperPod可检查计算层和网络层状态,当模型性能下降时立即发出警报
  • 本地IDE连接功能:支持将本地开发的AI项目无缝部署到平台
  • GPU集群性能管理:根据需求模式调度GPU使用,平衡资源与成本

技术细节

  1. 可观测性改进

    • 解决生成式AI开发者难以定位问题具体层级的痛点
    • 仪表板可显示相关指标,帮助分析性能下降原因
  2. 开发流程优化

    • 新增安全远程执行功能
    • 支持本地机器或托管IDE开发后连接SageMaker
  3. 资源调度创新

    • HyperPod于2023年12月推出
    • 可区分日间推理任务和离峰训练任务
    • 实现服务器集群的智能管理

市场定位

  • 虽在基础模型领域不及Google和Microsoft突出
  • 通过Bedrock平台+SageMaker的组合强化企业AI基础设施
  • 持续提升在AI企业级市场的竞争力

升级背景

  • 2024年起SageMaker成为统一数据源集成中心
  • 多数新功能源自用户反馈
  • 目标:帮助用户理解模型性能下降原因+增强计算资源控制力

关键数据点:推理任务通常日间执行,训练任务多在离峰时段进行

火龙果频道