少押注,押重注的vivo,如何让AI看见世界?

2026年03月27日,18时29分34秒 科技新知 阅读 2 views 次

进入2026年,各行业“AI”含量持续上升,机器人在春晚舞台上照亮半边天,OpenClaw掀起全民养虾狂欢…,技术风口一浪盖过一浪,科幻电影里的场景正大步流星地朝我们走来。

热闹归热闹,从技术周期来看,目前的产品还处于初期,就比如:大模型可以提供详细的装修方案,但无法拿起工具、推开一扇门、拧开一个水龙头,它输出的结果仅停留在数字层面。

实际上,相似的情形并不陌生,技术发展史上几乎从未跳过这一进化规律。

30年前,互联网被称为“信息高速公路”,但它最初也只停留在发邮件、看网页、聊天…,真正开始改变真实世界,是电商让货物流动起来,移动互联网让服务上门、物联网让设备互联。

在今年的博鳌论坛上,vivo总裁、首席运营官,vivo中央研究院院长胡柏山提出了一个颇具价值的议题:“科技的下一个十年,影像将与AI并驾齐驱,成为AI落地物理世界的第一引擎”。

少押注,押重注的vivo,如何让AI看见世界?

“落地物理世界”,这可是比养虾大赛更让人雀跃的期待,而连接数字世界和物理世界的这座桥梁,被锚定为“影像+AI”。在这一前瞻指导下,vivo内部成立一条重要的一级技术支撑赛道——感知。这是以影像为基础构建的感知系统,将驱动AI 实现从数字世界到物理世界的关键跨越。

让AI走出数字孤岛,需要一场“格物致知”

“没有物理世界的AI能力,是不能泛化的。”胡柏山直接点破这一行业困局。

所谓泛化,就是AI能否将从一个场景学到的知识,迁移到另一个截然不同的现实场景中。一个能识别猫的AI,是否能在看到猫靠近花瓶时,预判到下一秒可能发生的“惨案”?

胡柏山在演讲中说:“记录是被动的,它等待你的指令;感知是主动的,它替你观察环境的亮度、空间的纵深、甚至人际的距离;行动则是终极的,它基于理解,替你解决问题。”

简单地说,想要通过AI能力改变物理世界,需要经过“感知→决策→执行→反馈”这一闭环路径。就比如让机器人倒一杯水,需要它看见杯子、理解距离、控制力度、感知是否倒满。

这源于数字世界和物理世界之间,原本就存在鸿沟,存在次元壁。

数字世界是确定的、可复现的,一段代码运行100次结果是一致的;而物理世界则充满随机性,光线变化、材质不同、意外干扰…AI在这些非结构化环境中的鲁棒性(在异常和危险情况下系统生存的能力)仍然很差。

实验室里能翻跟斗的机器人,换个光线昏暗的房间就可能寸步难行。目前的AI在“决策”环节能力较强,但在高精度空间感知和执行环节存在断层。

没有对物理世界的精准感知,AI就只是数字世界的“军师”,成不了现实世界的“工匠”。胡柏山指出,未来最大的差异化就是来自于场景数据,不在于模型。

那么问题来了,如何构建AI的感知系统?vivo给出的第一个答案是:影像。

回到一个简单的问题,人类如何感知世界的?60%-70%来自于视觉感知,10%-20%来自于听觉感知,还有其他类似触觉的感知。我们看到物体的形状、颜色、距离、运动轨迹,之后大脑对这些视觉信息进行加工,形成对世界的理解。

少押注,押重注的vivo,如何让AI看见世界?

影像技术通过光学系统、成像处理、空间计算等全链路能力,可以完成物理世界的数字化投射与三维场景重建,是AI看懂物理世界、理解真实场景,进而感知情绪、预测行动的基础。

在vivo看来,未来的影像,不再是冰冷的像素阵列,而是具备多模态感知能力的智能感官。换句话来说,影像,就是AI看世界的那双智慧之眼,是走向物理世界的“第一性原理”。

胡柏山对此表示:“今年在内部成立了一个核心赛道叫感知赛道,就是把视觉、听觉、触觉等,通过传感器加以感知大模型,转化成我们想要得到的物理世界的信息。”

从手机到万物,物理世界的AI正在长成

感知系统的构建需要硬件承接,需要一个能与用户直接沟通交互的端口。而距离全民入口最近的,就是手机。任何一项AI能力,如果能够部署在手机上,它的普及性就是最高的。

胡柏山预见:未来十年,智能手机依然会是人机交互的主导载体。那时,手机将不仅是通讯工具,它将成为物理世界的感知枢纽,更是每个人的数字大脑。

vivo为何将手机作为AI落地的“第一现场”?

答案很简单:手机天生就是一台 “多模态感知神器”—— 全天候贴身陪伴、无缝覆盖生活的方方面面,让它成为AI适应物理世界复杂环境的“最佳实战训练场”。它能将物理世界的点滴信息,转化为AI能“看懂”的数字信号,成为连接物理世界与数字世界的“天然桥梁”。

高手下棋,一步看三。vivo对感知系统的构建层层深入,它给出了明确的执行路径:

第一阶段,推进Agent Phone,大脑先行。

胡柏山指出,在影像与AI深度融合的加持下,未来手机将从Smart Phone向Agent Phone形态演进,成为兼具感知力、思考力、行动力的数字伙伴。

在此基础上,vivo将为不同产品系列定制差异化的Agent体验,在用户高频场景深度理解用户需求,全面重构产品交互范式。即将发布的vivo X300 Ultra和vivo X300s,将率先搭载具备识别场景能力的影像Agent,在多元创作环境中,带来更智能、更从容的影像新体验。

少押注,押重注的vivo,如何让AI看见世界?

当用户举起手机时,不用再提前调整设置,AI可以主动观察环境,光线是否合适、构图是否美观、甚至能预判画面中人物的情绪状态,然后给出模式建议,帮助用户一键出大片。

在vivo的布局下,未来不同的AI Agent将重塑并放大手机的差异化体验,让每个用户的Agent都有专属个性:比如相机Agent、相册Agent、会议Agent、出行Agent、游戏Agent等等。

软硬协同聚焦端侧,让手机将向着Agent Phone的方向迈进,这一阶段主要是完善“大脑”。

第二阶段,影像+AI,构建视觉感知中枢。

长期来看,vivo蓝图影像将结合AI升级为IoT生态的视觉感知中枢,为AI装上“眼睛”。通过全链路影像技术,构建让AI从看见世界到理解世界的智能底座。

vivo蓝图影像将不再是单纯的手机相机,而是一个能理解空间结构、几何关系、甚至人类情绪的“神经系统”。围绕着影像这一底层能力,vivo会将资源投入到三个核心的HUB型产品:手机、头显、机器人,并以此为基础将“影像+AI”的能力普及万物。

少押注,押重注的vivo,如何让AI看见世界?

胡柏山强调:“我们不追求一步到位,而是将影像感知能力像‘搭积木’一样,逐级赋能、层层拓展。在‘影像+AI’双核驱动的生态平台中,所有设备将共享同一个‘视觉+大脑’,共同实现对物理世界的精准感知与交互。”

目前,vivo“沿途下蛋”的策略已雏形初具:混合头显已落地体验、云台相机即将上市、人形机器人稳步研发,而这些都是感知能力在不同阶段的落地探索。稳步推进下,当产品达到一个成熟度之后,能力可以泛化,可以覆盖更多的场景。

最终,数字生命诞生,迈向“数字DNA”时代。

在博鳌论坛上,胡柏山描述了这样一个场景:“未来的人们,将拥有两个生命:一个物理生命,会老去;一个数字生命,可传承。”

当影像技术能够捕捉一个人一生中最真实的记忆,当AI Agent能够学习一个人的生活习惯、偏好、甚至社交关系,二者的深度融合,将形成一份独特的“数据资产”。

这份资产可以复制、转移,甚至在未来被继承。它或许无法让物理生命永存,但可以让一个人的精神、记忆与偏好,以一种“数字生命”的形式传承下去。

在触及技术伦理的深水区,vivo明确了自己的坚守:“懂用户、知人心,但不越边界”。以芯片级安全架构守护用户隐私,确保这份“数字DNA”完全属于用户,也只属于用户。

科技巨头的英雄梦想:赋能每一个平凡个体

近年来,手机厂商的技术外溢形成不同的跨产业路径分野,相比于其他巨头,vivo的独特之处在于,它选择了一条更窄、但也更深的赛道。这份战略定力体现在三个层面:

1.把产品做到极致。

在博鳌论坛上,vivo X300 Ultra和X300s首次公开亮相,且荣膺“博鳌亚洲论坛官方指定手机”。新品首次搭载了具备场景识别能力的影像Agent,也就是上文提到的Agent Phone。

少押注,押重注的vivo,如何让AI看见世界?

X300 Ultra是vivo首个全球同步发布的旗舰机型。vivo的策略很明确:用世界级的产品能力,去叩开全球高端市场的大门。在欧洲这样的“哑铃型”市场,vivo不追求铺货规模,而是聚焦那些对影像、科技有高需求的高端用户和年轻人,用产品力建立品牌忠诚度。

2.始终以用户为中心。

在vivo的价值观中,以用户为中心始终摆在首要位置,而这一基因也被落实在全球化战略落地中。在接受媒体采访时,胡柏山提到了“More Local,More Global”,强调真正的全球化不是输出一个标准化的产品,而是扎根每一个市场,理解当地用户的真实需求。

产品组合围绕本地消费习惯定制,vivo将用户导向渗透至组织骨髓。这种“精准施策”的能力,让vivo在2025年以8%的全球市场份额位列第四,且仍保持着极高的向上增长空间。

3.精准布局,长线持续。

所谓长赛道,是指天花板足够高、需要持续投入5到10年甚至更久的领域,影像赛道如此,如今的感知赛道亦然。这不仅考虑厂商的战略定力,还有对未来的判断和组织能力。

vivo从2016年开始布局影像技术,多年后有了今天X300 Ultra上的影像Agent;机器人Lab从零开始建设,端侧算力芯片两年前就开始布局。这些投入短期内看不到回报,但对vivo来说有着清醒的认知:真正有价值的战略,从来不需要用“速度”来证明自己。

胡柏山指出,组织管理不希望成为一脚油门、一脚刹车的方式,而是认知到一定层次逐步加油门,不能波浪式前进,而是螺旋式上升。

既做自己最擅长的事,把其做到极致,之后赋能到最需要这些能力的领域。既是vivo的战略选择,也是面对AI时代的底气所在。

结语

可以看出,vivo的战略路径明确且清晰:以端侧AI Agent整合服务为当下抓手,以影像感知为未来底座,深耕端侧、连接生态,让AI真正从虚拟世界走进现实生活。

当影像与AI融合,当感知体系的布局日臻完善,数字世界与物理世界之间实现有机互联、互为流转,我们有理由相信,AI将真正走进千家万户,成为人们生活中的一部分。

当人们意识到AI能写诗但不会洗碗,这不是技术溃败,而是从高速发展走向成熟的必然。“vivo”们的先行者力量,正是阵痛期的推手,让AI从“数字上半场”走向“物理下半场”。

(来源:新浪科技)



用户登录