抖音推出“豆包移动助理”技术预览版:AI全面接管手机
发布日期:2025年12月1日
来源:AIbase Daily
核心概述
字节跳动正式发布了新一代“豆包移动助理”的技术预览版。该产品被定位为手机的“第二大脑”,集成了持久记忆、跨应用自动化、实时多模态交互等突破性功能,旨在通过本地化处理实现高度智能与隐私保护的平衡。
主要功能亮点
1. 设备端持久记忆
- 技术特点:首次在设备端实现持久化记忆功能,所有记忆数据加密后存储在本地,用户可随时一键关闭。
- 应用场景:
- 生活记录:询问“我的车停在哪了?”,能直接显示上次拍摄的停车位置照片及楼层指引。
- 信息提取:询问“取件码是多少?”,能即时读取短信并告知“5872”。
- 偏好记忆:记住用户“喜欢梵高”,在规划巴黎行程时会优先推荐奥赛博物馆。
2. 跨应用自动化操作
AI能够像人类一样接管屏幕,在不同应用间执行自动点击、输入和滑动操作。
- 案例演示:
- 比价:用户说“全网比价这个吹风机”,豆包在3秒内打开淘宝、京东、拼多多、抖音商城,找到最低价并停留在支付页面。
- 复杂任务:用户说“帮我请三天假,再订一张回老家的火车票”,自动完成打开钉钉/飞书填写请假单、提交审批、跳转12306订票、支付的全流程。
- 物联网控制:特斯拉车主可通过语音“打开前备箱放东西”,远程控制车辆执行。
3. 实时多模态交互
- 功能描述:AI能“看见”摄像头画面并立即开始对话。
- 使用场景:将摄像头对准英文绘本,豆包移动助理立即进入实时视频通话模式:
- 屏幕显示中英双语字幕。
- AI用流利的普通话或英文讲述故事,并随时提问。
- 可根据孩子的现场反应即时调整故事情节。
4. 专业模式处理复杂任务
针对模糊或复杂的请求,豆包会激活“专业模式”,结合GUI模拟点击、API工具调用和强推理能力完成任务。
- 典型案例(巴黎旅行规划):
- 用户指令:“下个月我去巴黎,把我收藏过的所有餐厅在地图上标出来,再帮我订一张有我喜欢展览的博物馆门票。”
- 执行流程:
- 读取记忆:用户喜爱梵高。
- 搜索当前展览:发现奥赛博物馆正举办梵高特展。
- 打开高德/谷歌地图,标记所有收藏的米其林餐厅。
- 跳转官网成功抢票。
- 生成完整行程并推送至笔记应用。
隐私与安全
字节跳动强调,所有记忆数据均在手机本地进行处理和存储,不会上传至云端。用户可在设置中随时完全关闭记忆功能,实现“可控可信任”。
行业背景与趋势
该产品的发布正值移动AI助手竞争白热化阶段,多家科技巨头正加速布局:
- 中兴:其“星云-GUI”小模型集成至手机系统,声称离线准确率超90%,可实现一句话订票、拍照等。
- 苹果:据传正与谷歌合作,计划采用定制版Gemini模型升级Siri,采用“端云协同”混合模式。
- 微软:在Edge浏览器中集成AI购物工具,支持比价、价格追踪等。
总结
“豆包移动助理”技术预览版的推出,标志着手机AI正从简单的语音命令响应,向具备记忆、视觉理解和自主执行复杂任务的“智能体”演进。其强调的本地化记忆与处理是应对用户隐私关切的关键设计,可能成为未来移动AI发展的一个重要方向。
