AI定义浏览器,苹果偏不这么干
打赢Chrome保卫战之后,谷歌宣布Chrome浏览器进行了自2008年发布以来最大的一次升级。
这次升级的核心是深度集成了Gemini AI功能,让Chrome从一个单纯的网页浏览工具彻底转变为一个智能化的信息获取和处理平台。用户现在可以直接在地址栏中进行自然语言对话,Chrome会智能理解用户意图并提供相应的搜索结果、网页摘要或直接回答问题。这标志着浏览器行业正式进入了AI时代,几乎所有主流浏览器厂商都在竞相推出类似功能。
Chrome于2008年9月2日正式发布,而苹果的Safari浏览器首次亮相是在2003年1月7日的Macworld Conference & Expo上,随后在同年6月23日正式发布,两者可以说是几乎同一时期的产品。然而十七年过去了,当Chrome已经完成了向AI浏览器的华丽转身时,Safari却似乎被苹果完全遗忘在了AI革命的浪潮之外。
目前Safari与AI唯一能够扯上关系的功能,就是用户可以通过Siri语音指令来打开Safari中的特定网页或进行搜索操作。这种交互方式类似于苹果在2024年WWDC上展示的MCP(Model Context Protocol)技术的简化版本,允许不同应用程序之间进行有限的数据交换和功能调用。
但这种集成程度相比Chrome内置的Gemini AI功能来说,简直是小巫见大巫。用户仍然需要先唤醒Siri,然后说出具体的指令,Siri再调用Safari来执行相应操作,整个流程不仅繁琐,而且缺乏真正的智能化体验。
整个浏览器行业正在经历一场前所未有的AI化浪潮。微软的Edge浏览器早在2023年就集成了基于GPT-4的Copilot功能,用户可以直接在侧边栏中与AI助手对话,获取网页内容摘要、翻译服务或进行深度问答。Mozilla也在Firefox中推出了AI驱动的翻译和内容推荐功能。甚至一些新兴的浏览器如Arc、Brave等都在积极探索AI集成的可能性。
在中国也是如此,阿里是直接做了一个涵盖网盘、深度搜索、生文生图的夸克浏览器;腾讯并则是将智能体QBot结合到QQ浏览器里,以通过智能体实现用户的各种需求;360一改往日,做了一个只有对话框的纳米浏览器,用户只需要输入文字指令,AI就能完成操作。
整个行业的共识是,未来的浏览器不再只是一个网页显示工具,而应该成为用户与互联网信息交互的智能中介。
然而苹果却选择了一条截然不同的道路。
苹果正在内部开发一项名为“世界知识答案”(World Knowledge Answers)的AI搜索服务。这项服务的目标是提供类似于Google搜索但更加智能化的信息检索和问答功能,能够理解复杂的自然语言查询并提供准确、相关的答案。但令人意外的是,这项服务将不会首先赋能于Safari浏览器,而是被深度集成到Siri语音助手之中。
苹果的世界知识答案系统建立在一个全新的三层技术框架之上。
第一层是规划组件(Planner),负责解析和理解用户的语音或文本指令,这一组件基于苹果自研的Foundation Models框架构建。苹果在其机器学习研究报告中披露,他们开发了一个约30亿参数的设备端基础模型,专门针对iPhone、iPad和Mac的硬件特性进行了深度优化。这个模型采用了transformer架构的变体,但在注意力机制和前馈网络结构上进行了创新性改进,使其能够在移动设备有限的计算资源下实现接近GPT-3.5的理解能力。
第二层是搜索组件(Search),这是世界知识答案系统的核心技术创新所在。与传统搜索引擎不同,这个组件不仅能够扫描互联网信息,还能够深度整合用户的个人数据,包括邮件、短信、日历、照片等私人信息。
苹果为此开发了一套名为私有云计算(Private Cloud Compute)的技术架构,以对数据进行端到端加密,让用户数据在传输和处理过程中始终保持加密状态,服务器无法获取用户的明文信息。
第三层是摘要组件(Summarizer),负责将搜索到的信息整合为用户可理解的自然语言回答。这一组件的技术实现尤为复杂,需要处理多模态信息的融合,包括文本、图片、视频以及本地兴趣点信息。苹果为此训练了专门的视觉模型,设备端版本拥有3亿参数,云端版本达到10亿参数,能够理解和描述图像内容,并将其与文本信息进行语义对齐。
为了提高体验,苹果还开发了一套名为自适应推理的技术,能够根据查询的复杂程度动态选择使用设备端模型还是云端模型。它可以让简单的查询如天气、日程安排等直接在设备上处理,复杂的知识性问题则调用云端的大型模型。这种混合推理架构不仅提升了响应速度,还有效控制了云端计算成本。
不止如此,苹果的世界知识答案系统也能处理多模态数据,可以同时理解和处理文本、语音、图像和视频内容。比如,你拍了一张餐厅菜单的照片,然后询问这家餐厅的招牌菜营养价值如何,系统能够识别图片中的菜品信息,结合网络搜索到的营养数据,提供综合性的回答。
自2011年Siri首次亮相以来,这个语音助手一直被用户诟病功能有限、理解能力差、只能处理一些简单的日程安排、天气查询或基础的设备控制指令。相比之下,Google Assistant、Amazon Alexa甚至后来者如ChatGPT的语音功能都展现出了更强的智能化水平。苹果显然意识到了这一差距,并决定通过世界知识答案服务来彻底改变Siri的定位。
苹果的目标很明确,就是要把Siri从一个偶尔应付简单指令的语音助手,彻底改造成为一个类似ChatGPT的全能信息与服务中心。这意味着未来的Siri不仅能够回答复杂的知识性问题,还能够进行多轮对话、理解上下文、执行复杂的任务链,甚至可能具备一定的推理和创造能力。
用户将能够通过自然语言与Siri进行深度交互,获取信息、完成工作、娱乐休闲,而不需要再依赖传统的应用程序界面。这种战略选择反映了苹果对未来人机交互模式的独特理解。在苹果看来,传统的图形用户界面虽然直观易用,但在AI时代可能会成为效率的瓶颈。
用户需要打开浏览器、输入搜索词、浏览结果页面、点击链接、阅读内容,这整个流程虽然我们已经习以为常,但实际上包含了大量的冗余操作。而语音交互则可以大幅简化这一过程,用户只需要说出自己的需求,AI助手就能直接提供答案或完成任务。
然而,苹果要实现这一宏大愿景,硬件是关键。AI模型的运行需要大量的计算资源,特别是大型语言模型往往需要数十GB甚至上百GB的内存空间,以及强大的并行计算能力。虽然苹果可以依靠云端服务来处理部分计算任务,但为了保护用户隐私和提供流畅的交互体验,大部分AI功能都需要在设备本地运行。
这就对iPhone的芯片性能提出了极高的要求。iPhone 16系列搭载的A18 Pro芯片虽然在性能上已经相当强劲,但要支撑苹果Apple Intelligence的完整愿景仍然存在一定差距。
就拿最基本的内存和带宽来说,iPhone 16 Pro系列配备8GB LPDDR5内存。对于运行大型语言模型来说,这样的配置显然是不够的。一个参数量在30亿左右的苹果Foundation Models,仅模型权重就需要占用约6GB的内存空间,更不用说运行时的中间计算结果和系统开销。
因此iPhone 17 Pro系列将全系标配12GB运行内存,彻底告别前代Pro系列8GB的配置,而iPhone 17基础版则维持8GB内存配置。
苹果在芯片设计方面还面临着功耗控制的挑战。AI计算通常是高强度的并行运算,会产生大量热量并快速消耗电池电量。虽然先进制程工艺能够在一定程度上改善能效比,但要在智能手机这样的小型设备中实现持续的高性能AI计算,仍然需要在芯片架构设计上进行创新。
iPhone 17 Pro系列将首次配备VC均热板散热技术,进一步提升A19 Pro芯片的性能表现,凭借全新芯片和升级的散热设计,A19 Pro的CPU和GPU的持续性能比iPhone 16机型中的A18 Pro最高提升40%。
除了硬件,苹果在9月初已与谷歌达成正式协议,将评估并测试谷歌开发的Gemini模型来增强Siri的功能。根据爆料,谷歌将会为苹果提供一个基于Gemini模型而开发的摘要器,以凝练用户数据,减少数据处理部分的压力,该模型将运行在苹果自有的私有云计算服务器上。
谷歌已向苹果交付了该技术,双方正在合作进行微调与测试。但苹果将继续使用自研的苹果基础模型来处理用户本地数据搜索。
从市场竞争的角度来看,苹果的这一战略选择既有机遇也有风险。机遇在于,如果苹果能够成功将Siri打造成真正智能的AI助手,将会为其生态系统带来巨大的竞争优势。用户一旦习惯了通过语音与设备进行自然交互,就很难再回到传统的触屏操作模式。这种用户粘性将进一步巩固苹果在高端智能手机市场的地位。
但风险同样不容忽视。在苹果专注于Siri开发的同时,Google Chrome、Microsoft Edge等浏览器正在快速演进,它们的AI功能可能会吸引更多用户,特别是那些重度依赖网络浏览的用户群体。如果Safari在AI功能上长期落后,可能会影响苹果设备在企业和专业用户中的竞争力。
从用户体验的角度来看,苹果的选择体现了其对简洁性和易用性的一贯追求。相比于在浏览器中集成复杂的AI功能,通过语音助手提供智能服务确实更符合苹果让技术变得简单的设计理念。用户不需要学习新的操作方式,只需要像与人对话一样与设备交流即可。这种自然的交互方式特别适合那些对技术不太熟悉的用户群体,有助于扩大AI技术的普及范围。
然而,语音交互也有其局限性。在嘈杂的环境中,语音识别的准确率会显著下降。在需要保持安静的场合,用户可能不方便使用语音功能。此外,对于一些复杂的任务,比如编辑文档、处理图片或进行精确的数据分析,语音指令往往不如直接操作来得高效。
苹果需要考虑如何在保持语音交互优势的同时,为用户提供必要的图形界面支持。从生态系统的角度来看,苹果的战略选择可能会对整个应用开发生态产生深远影响。如果Siri真的成为用户获取信息和服务的主要入口,那么传统的应用程序可能需要重新设计其交互模式。开发者需要考虑如何让自己的应用更好地与Siri集成,提供语音友好的功能接口。这可能会催生出一批新的开发工具和框架,同时也会淘汰一些不适应新交互模式的应用。
(来源:新浪科技)