当普通人还在质疑 AI 眼镜,盲人快要用上苹果版《Her》智能导盲
AI 眼镜
新形态
苹果眼镜的路线图已经清晰:2026 年发布 AI 拍照眼镜,2027 年推出价格亲民的 Vision Air。这意味着,继 iPhone、Apple Watch 之后,眼镜将成为苹果下一个重点产品线。
问题是,AI 眼镜能做什么?
最近苹果与哥伦比亚大学的一项合作研究,给出了答案的一部分:让 AI 带着视障人士「云逛街」,就像电影《Her》男女主角约会的桥段那样。
具体来说他们开发了一个叫 SceneScout 的原型系统,结合街景图像和大模型,为盲人提供详细的环境描述和导航指引。
苹果在无障碍领域的投入早已十分深厚。从 VoiceOver 到 Apple Watch 的触觉反馈,苹果一直将无障碍支持视为产品哲学的核心。
SceneScout 研究方向表明:或许普通人现在还看不到 AI 眼镜到底有些什么用(除了偷拍),但 AI 眼镜完全可能成为对视障群体最友好,改变他们生活质量的智能设备。
图片来自:Apple
让 AI 带着视障人士「云逛街」
「这些是有视力的人可能不会觉得有用的细节,但盲人可能不知道如何询问。」一位参与 SceneScout 测试的用户这样评价这个系统。
简单说,SceneScout 就是一个 AI 导游,专门为视障人士描述街景。用户输入起点和终点,系统就会沿着路线「走」一遍,告诉你沿途有什么建筑、什么店铺、人行道宽度如何、是否有无障碍设施。
与传统的无障碍导航工具不同,SceneScout 通过 AI 大模型,结合街景图像和深度学习算法,尝试在街道复杂的环境中生成一种 「心理地图」,帮助视障人士更好地理解周围环境,做到更加自主、安全的出行。
SceneScout 提供两种使用模式。
第一种是「路线预览」,类似出门前的踩点。系统会将路线分成 30-40 米的小段,每段提供短中长三种详细程度的描述。在十字路口,AI 会使用 360 度全景视角描述交通状况和过街设施;在普通路段,则采用 180 度前向视角模拟行人视角。
路线预览模式. 图片来自:arxiv
第二种是「虚拟探索」,用户可以像玩街景地图一样自由移动。比如想了解纽约布鲁克林绿点社区是否适合居住,用户输入「我想买房,想看看这个社区是否安静,有没有公园和便民设施」,AI 就会根据这个意图重点描述相关信息,并在每个路口建议最佳探索方向。
虚拟探索模式. 图片来自:arxiv
技术实现并不复杂:GPT-4o 多模态大模型负责理解图像和生成描述,苹果地图 API 提供路线规划和附近兴趣点数据,街景图像则来自苹果的街景服务。苹果在这次合作中主要提供了地图 Server API 和街景数据访问权限。
哥伦比亚大学找了 10 名 BLV 用户测试 SceneScout, 结果测试显示,在使用中,他们表示有 72% 的准确描述, 16% 的错误,但这些错误很微妙——比如说某个路灯,但实际没有;或者把「费格罗亚大道」读成了不存在的街道名。对于无法看到图像的 BLV 群体来说,很难被察觉。
SceneScout 的系统架构. 图片来自:arxiv
同时,在测试中提到,描述中的街景元素有 95 % 的概率在一段时间是保持不变的——这意味着,即使街景图像不经常更新,它仍然可以保持实用性。
SceneScout 原型系统. 图片来自:arxiv
然而,这项技术并非完美无缺。
在研究过程中,用户反馈也暴露了一些挑战。部分用户表示,AI 生成的街景描述有时可能不够准确,尤其是在动态环境中,AI 「幻觉」 现象导致的信息错误会影响用户的信任度:
它怎么知道这是一个安静的住宅区?我几乎觉得它是在编造。这会让人产生错误的期望。客观性是最好的,然后让用户来判断其含义。
尽管存在这些问题,但 BLV 用户仍对 SceneScout 的兴趣很高。他们希望将这种功能集成到现有导航应用中,甚至建议开发实时版本——边走边获取环境描述。这正是 AI 眼镜可能发挥作用的地方。
图片来自:Apple
AI 眼镜,可能是对盲人最友好的智能设备
SceneScout 的用户测试揭露了一个关键需求:实时环境感知。多位用户表示,希望能在实际行走时获得即时的环境描述,而不仅仅是出行前的预览。
「为什么地图应用不能内置提供我正在经过什么的详细信息?」一位用户这样问道。另一位用户建议,可以通过骨传导耳机或透明模式提供相关细节,「当你暂停行走或到达路口时,触发更全面的描述」。
视障人士的这些需求,指向一个明确方向:AI眼镜。
图片来自:Apple
与传统的智能手表、手机等辅助设备不同,AI 眼镜拥有着独特的优势。
现有导航辅助工具都需要占用一只手操作手机,这意味着用户要在手杖、导盲犬和手机之间做选择。一位 SceneScout 测试用户明确表示:
我们不知道用户会如何过马路。他们会用其他应用告诉他们步行信号开启吗?会通过FaceTime联系朋友吗?我们不应该做假设。
AI 眼镜彻底避免了这个问题。视觉感知、语音交互、空间音频反馈都不需要手部操作,可以专注于安全行走。
▲ 图片来自:Apple
作为佩戴在眼睛上的设备,AI 眼镜这种硬件形态能够更加紧密地与佩戴者的视野同步,可以无缝集成在用户的日常生活中。与传统的手持设备相比,佩戴眼镜的方式让用户不需要再额外操作,而是通过语音、触觉或其他智能反馈获得信息。这种即时且持续的反馈方式,无疑将大大提升视障人士的出行效率。
苹果在 AI 眼镜所需的三个核心技术领域都有深厚积累。
硬件方面,Vision Pro 已经验证了苹果的空间计算能力。6 个摄像头阵列、激光雷达传感器、空间音频系统——这些技术压缩到眼镜形态后,能提供比手机更连续、更自然的环境感知。SceneScout 需要用户主动启动应用、举起手机拍照,AI 眼镜则可以持续「看见」周围环境。
当然,仅就视障人士的需求来看,常规的时尚性(有摄像头,无显示屏)AI 眼镜已经够用了。如果这项技术在未来能够普及,它的价格也不会很高,毕竟小米也已经将价格打到了 1999,将来随着产业成熟价格会进一步下探。
将来,每一位视障人士都能够戴的起这种眼镜——前提是如果苹果做的话,别把价格定的太高……
图片来自:Apple
此外,Apple Intelligence 的本地处理架构解决了隐私和延迟问题。SceneScout 依赖云端 GPT-4o 处理,存在网络延迟和位置信息泄露风险。AI 眼镜可以将基础视觉理解在设备端完成,只在需要复杂推理时调用云端模型。
生态整合是苹果的传统强项。SceneScout 只是一个独立原型,AI 眼镜则可以与地图、Siri、快捷指令深度整合。用户可以通过语音定制描述重点,设置个人偏好,甚至与日历结合提供个性化导航建议。
图片来自:Apple
重要的是,本地 AI 处理意味着敏感的位置和行为数据不需要上传到云端。对于需要频繁导航帮助的视障用户来说,这种隐私保护尤其重要。
苹果 AI 眼镜在技术创新方面有巨大潜力,特别是人工智能与硬件产品形态的结合。为视障群体创造便利,是这一产品形态最有价值的应用方向之一。
SceneScout 研究证明了 AI 描述街景的可行性,但也暴露了现有技术的局限。AI 眼镜有机会解决这些问题:实时感知替代静态图像,本地处理提升响应速度,个性化学习满足差异化需求。
图片来自:Apple
我们期待 AI 眼镜这一产品形态的广泛应用。它不仅能为视障群体提供前所未有的独立导航能力,更可能推动整个无障碍技术的发展。
当科技公司开始认真考虑如何让 AI 真正服务于有特殊需求的用户群体时,技术创新的社会价值才能真正体现。
AI 眼镜如果确实是下一代设备形态,那么我仍希望有更多的类似研究出现,帮助达成这样一个愿景:最好的技术不是让所有人做同样的事,而是让每个人都能做自己想做的事。
文 | 周芊彤、肖钦鹏
(来源:新浪科技)