AI-NEWS · 2025年 11月 1日

盲人可“见”街景

盲人也能“看见”街景?谷歌新AI系统实现无障碍虚拟探索

系统概述

谷歌近期推出名为StreetReaderAI的创新原型系统,旨在让盲人和低视力用户能够无障碍地“探索”谷歌街景。该系统突破了传统被动接收信息的模式,通过自然语言实现与虚拟环境的实时交互,真正实现了城市空间的独立探索自由。

技术特点

多模态AI驱动对话式体验

  • 技术架构:深度融合计算机视觉、地理信息系统(GIS)和大语言模型
  • 核心功能:实时分析街景图像,结合精确位置数据生成结构化、情境化的音频描述
  • 交互示例:当用户“站”在某条街道时,系统会主动描述:“您正面对一栋砖砌建筑,左侧是咖啡馆,右侧是公交站,前方50米处有十字路口”

智能对话交互

  • 自然语言交互:用户无需记忆复杂指令,可像与人对话般提问
  • 支持问题类型
    • “前方那栋建筑是什么?”
    • “附近有银行吗?”
    • “这条路通向哪里?”
  • 响应机制:基于当前视图和地图数据提供准确、连贯的回答

无障碍操作设计

  • 简约交互方式:专为视障用户优化
  • 控制方式
    • 语音命令
    • 标准键盘按键
  • 操作功能:自由控制视角旋转、前后移动、街景点切换
  • 设计理念:“语音+键盘”双输入模式,适配不同用户习惯

技术意义

从工具到权利的转变

  • 现状突破:传统数字地图和街景服务因依赖视觉界面而排除视障群体
  • 技术演进:无障碍技术从“辅助功能”升级为“平等体验”
  • 核心价值:不仅提供信息,更赋予用户主动探索、理解和决策的能力

发展前景

当前状态

  • 仍处于原型阶段
  • 尚未集成到官方谷歌地图产品线

未来潜力

  • 技术基础:随着多模态大模型和空间计算技术成熟
  • 应用扩展
    • 室内导航
    • 公共交通引导
    • 远程游览
  • 愿景目标:构建“数字可感知、可参与”的普适世界

行业影响

该系统的技术路径已显示出明确的落地潜力,其发展方向值得整个行业关注和跟进。技术的意义不仅在于突破限制,更在于弥合鸿沟。

信息来源:AIbase Daily – 2024年10月31日

火龙果频道