AI-NEWS · 2025年 12月 26日

开源浏览器控制工具发布

开源浏览器控制模型BU-30B-A3B-Preview发布:1美元可运行200次浏览器任务

近日,知名开源浏览器自动化项目BrowserUse正式发布了其首款自研大语言模型——BU-30B-A3B-Preview。该模型一经发布便广受关注,被誉为“网页智能体领域的新标杆”,以卓越的性价比和实时速度,彻底突破了AI浏览器操作的壁垒。

模型架构:MoE设计,实现“强大脑、轻量身”

  • 架构:采用混合专家(Mixture-of-Experts, MoE)架构。
  • 参数量:总参数量为300亿(30B),但在实际推理时仅激活30亿(3B)参数。
  • 基础模型:基于阿里云通义千问Qwen3-VL-30B-A3B-Instruct进行深度微调。
  • 特点:在保持顶级智能水平的同时,显著降低资源消耗,可在单张消费级GPU上流畅运行。
  • 能力:专为浏览器自动化场景优化,支持多模态输入(视觉+文本),上下文长度高达32K tokens,可轻松处理复杂的网页长内容。

核心能力:卓越的DOM理解与视觉推理

BU-30B-A3B-Preview在浏览器操作任务中表现突出,提供全面的网页交互功能,包括:

  • 精确的元素定位
  • 点击、滚动
  • 表单填写

其出色的DOM(文档对象模型)理解与视觉推理能力,使得AI智能体能像人类一样“理解”页面布局与截图,实现高可靠性的自动化执行。

官方强调,该模型特别适合构建Web智能体应用场景,例如:

  • 自动化测试
  • 数据采集
  • RPA流程

在内部基准测试中,其性能已达到行业领先水平。

性能亮点:速度与成本双重优势

官方对比数据显示,BU-30B-A3B-Preview在任务完成速度与成本效益上远超主流商业模型:

指标 具体表现
操作速度 平均每个操作步骤仅需1.2秒,在整体任务完成时间上显著领先。
成本效益 1美元的计算资源可可靠完成200次浏览器任务,是部分竞品模型的数十倍。
部署友好性 模型体积相对较小,支持单GPU部署,开发者可轻松本地下载测试,无需高昂云成本。

开源意义:加速Web智能体生态发展

  • 完全开源:模型权重已上传至Hugging Face平台,任何开发者均可免费获取并集成至BrowserUse开源库中。
  • 行业影响:标志着浏览器自动化领域进入“高效开源时代”,有望推动更多创新应用。

观点与展望

AIbase评论指出,BU-30B-A3B-Preview的发布完美解决了传统大模型在浏览器任务中“贵且慢”的痛点。对于需要大规模网页自动化的企业与开发者而言,这无疑是一个高性价比的选择。未来,随着社区的进一步优化,该模型有望成为Web智能体领域的标准配置。

体验地址BU-30B-A3B-Preview on Hugging Face


本文信息整理自AIbase,发布日期:2025年12月26日。

火龙果频道