谁在“操控”虚拟人？

2023年10月15日,17时16分00秒科技新知阅读 25 views 次

谁在“操控”虚拟人？

作者｜程心

编辑｜周游

大模型的风，吹动虚拟数字人厂商野蛮生长（以下统称虚拟人）。

《虚拟数字人深度产业报告》预计，到2030年我国虚拟数字人整体市场规模将达到2700亿元，其中，“服务型虚拟人”总规模也将超过950亿元。

如同秃鹰盯上腐肉，嗅到万亿商机的各方势力，都欲分一杯羹，这也直接导致了目前的虚拟人玩家格局陷入了“混战”状态。

「自象限」根据各方数据不完全统计，目前国内虚拟数字人核心厂商约有6000家。而按天眼查的数据显示，相关厂商数量甚至超过6万家。

同时，随着大模型(Large Model)的兴起，虚拟人的产业格局也在发生深刻变化。

比如，虚拟人正在经历从制作流程降本到技术突破的关键阶段，从大语言模型到多模态能力，让虚拟人从展示突破到了实时互动，这意味着未来虚拟人可能只需要一个实时渲染的外观，就能拥有十分逼真的沟通能力。技术门槛的降低，也会让更多参与方加入到这个开拓中的市场。而狂奔半年后，百亿个虚拟人也逐渐渗透进各行各业，并逐步进入商业化阶段。

也就是说，在厂商“混战”的表面下，隐藏的不仅是巨大的商业利益，更是复杂的技术博弈。而牵动着虚拟人“木偶引线”的另一头，操控者们的世界也在发生翻天覆地的变化。

01.千亿市场，厂商“混战”

如果说元宇宙时期的虚拟人已经是一把大火，那大模型就相当于在这之上又烹上了一勺油。一瞬间，铺天盖地的数字人厂商涌来，将本就复杂的行业搅得愈发浑浊。

这其中，既包括从元宇宙时期就一直坚持虚拟数字人的厂商，也有依靠全栈技术优势轻松迈出第一步的大厂，更不乏闻风而来的换道厂商。

「自象限」初步了统计核心厂商的类型后发现，这些厂商大致可以分为四类：

谁在“操控”虚拟人？

▲图为自象限原创，转载请注明出处

第一类是互联网大厂，如腾讯、百度、阿里、京东、网易等。这里面其实也分两类，一类是腾讯、百度为代表，他们业务庞大，在面向To B的解决方案上，比如金融、文旅、汽车等场景，需要一个数字人形象来符合新的交互方式。对于这些企业，数字人只是业务的一个补充。另一类则是网易为代表的，具有技术积累的企业，由于网易在游戏建模、AI捏脸等方面丰富的探索和技术积累，让他们需要通过虚拟人将这些沉淀的资源转化。

第二类是原生厂商。这是较早布局数字人的一批厂商，如即构科技、魔珐科技、硅基智能、风平智能、数字栩生、相芯科技等。这类厂商或属于上一波元宇宙创业的“遗珠”，或属于市场早期以电商直播带货、本地生活直播等场景切入数字人场景的公司，得益于AIGC技术，其中的一些公司完成了从2D数字人到3D数字人的升级。

第三类是换道厂商。基于原有技术延伸入局数字人赛道，如：商汤、华为、科大讯飞、快手、360、美图、蔚领时代、元境科技、新壹科技等。这类厂商在发展过程中积累了一些涉及数字人的技术。譬如商汤的视觉识别技术、科大讯飞的语言识别技术、蔚领时代的游戏渲染技术等等，以这些技术为突破口再结合大模型的发展，完成了赛道的转换。

第四类是跨界厂商。他们因为自身业务场景需求而下探数字人技术，如万兴科技、蓝色光标、谦寻、高途、中公教育等。这类厂商的特点是其原本业务与数字人并无太大交集，如万兴科技主营业务是提供文图、剪辑类的基础工具，衍生出为客户提供数字人工具；蓝色光标的主要业务为广告业务，通过数字人可以更好的完成客户的需求；而谦寻则是一家MCN公司。但随着应用和场景的拓展，数字人成为了其新的发力方向，万兴科技借数字人进一步开拓了海外直播、营销业务，谦寻借由数字人找寻到了新一轮直播带货流量、成交额增长动力。

源于“出身”的不同，不同厂商的商业模式和目标也完全不同。

大厂的虚拟人多为服务自身核心战略而生，比如阿里、京东的虚拟人多被应用在电商领域；腾讯将移动互联网时代积累下来的RTC（实时通信技术）应用在虚拟人交互中，打造了智影制作平台；百度希壤更偏向于表演型虚拟人，为不同企业提供定制化代言人；而网易则将虚拟人应用在游戏、教育等多个自身业务中。总的来说，互联网大厂并没有急于将虚拟人独立对外商业化，而是受自身技术的积累和场景需求催生。

核心对外提供服务的主要是原生的数字人厂商和换道厂商，从上个风口到如今，这类厂商已经积累了数字人的技术经验，对于底层技术、细节把控和场景的探索都有着更为体系化的认知。根据技术路线的不同，原生厂商又被分为2D厂商和3D厂商，2D厂商更倾向于虚拟人与场景的结合，而3D厂商则处于技术迭代的状态。

“2D虚拟人制作有两种方式，一种是请真人录制，然后帮其定制形象。一种是从用户提供的视频中提取形象，再用到各种场景中。但是2D数字人没办法做到3D那样转身、跳舞、做各种动作。”即构科技对二者的制作差异进行了详细解释。

但由于2D虚拟人的制作成本低，带动了整个虚拟人市场“飞入寻常百姓家”，填补了市场由于价格拦路而不能落地的需求鸿沟。「自象限」了解到，目前原厂厂商是大公司和品牌侧倾向的选择，通过行业KA客户打造标杆案例，比如银行、大型消费品品牌（健力宝）、美妆品牌（HR赫莲娜）等等。

换道厂商和跨界厂商有异曲同工之笔，如商汤、美图等换道厂商，在上个阶段积累了CV、图像识别等技术，被应用在了虚拟人的制作中，而像蓝标、谦寻等公司，源于自身的需求出发，为了避免高昂的采购成本，也选择自研虚拟人，技术不够硬核但有固定的客户群，商业化冷启动相对迅速。

02.产品成熟，重在交付

今年8月、9月开始，虚拟人厂商产品开始加速迭代。据不完全统计，两个月内至少有10家厂商发布了新的虚拟人产品。

产品的高度迭代意味着虚拟人正在飞快得适应市场需求，而这也意味着虚拟人第一阶段的赛点已经走入关键阶段。

从类型来看，虚拟人厂商分为两类，一类直接交付虚拟人产品，包括通用虚拟人产品、行业垂直场景的虚拟人产品，比如电商、零售、营销、直播等，客户即拿即用，或标准化或定制化；另一类则提供虚拟人制作平台，客户通过使用平台提供的工具，自主生产虚拟人。

相比之下，产品交付类型更适合企业探索虚拟人初期，几乎不需要技术团队配合，门槛更低，也是目前较多企业选择的方式。

针对这类产品形式，虚拟人厂商也提供了多样的购买方案。如汽车试驾一样，品牌在购买虚拟人之前，可以先可进行Demo的试用，真实感受虚拟人的表情、动作、交互等等。除此之外，品牌在购买前还可以进行方案咨询，厂商会根据客户情况，制定具体的虚拟人传播方案，并有多种不同风格的虚拟人可以选择。

以即构虚拟人Avatar为例，企业可选择拟人形象和Q版形象，并可以在线直接体验给虚拟人换装、捏脸，并通过AI完成了表情驱动、声音驱动、文本驱动、肢体驱动等全方位的驱动方式。

谁在“操控”虚拟人？

▲图源：即构官网截图

提供制作平台的厂商产品则更加复杂，如魔珐科技的三款产品分别针对了不同场景进行，包括虚拟视频、虚拟人直播和独立的虚拟人服务，并且在后端打造了端到端的写实3D虚拟人工业化产线，包括从技术到调试到运营的“星云平台”，让虚拟人能够和大模型结合，长出“脑子”，真正实现3D交互。

谁在“操控”虚拟人？

▲图源：魔珐科技发布会

今年8月，魔珐科技升级了有言AIGC生成平台、有光直播带货平台和有灵虚拟人制作平台，为企业提供系列生成工具，企业根据自身需求，能够更加灵活的调整虚拟人的细节、结构和适配的使用场景。

谁在“操控”虚拟人？

相比之下，商汤既能够直接交付虚拟人产品，也打造了如影虚拟人制作平台，基于在视觉、语音领域积累的3万个算法模型，打造了集智能化生成、智能化驱动、智能化交互的数字人平台。在商汤智能化引擎驱动下，虚拟人能快速识别、反应，与用户建立起对话关系。并且，事后，虚拟人也不会“失忆”，继续学习迭代。

这也说明了，当下厂商不仅是商业模式上的竞争，更是技术先进性的比拼。

03.技术“三级跳”

从整个虚拟人的技术发展进程来说，大模型带来最核心的改变，是推动着虚拟人从第一阶段看起来“像人”，到能够与人实时互动。

谁在“操控”虚拟人？

▲图为自象限原创，转载请注明出处

第一阶段，虚拟人厂商比拼的是“谁看起来更像人”？虚拟人厂商的核心技术多在传统的CG（建模）技术、驱动技术、渲染引擎等等，所以虚拟代言人为代表的表演型虚拟人成为了核心交付产品。

但由于技术的不成熟导致了虚拟人制作成本高企，「自象限」从行业内人士了解到，2022年，某大厂提供的订制虚拟人价格高达10万，这让虚拟人根本无法规模化落地。

大模型来了之后，一方面让虚拟人制作成本进行了大幅度降低；另一方面，AI技术加速了虚拟人的交互功能，让虚拟人交互起来更像人。

某虚拟人制作厂商曾吐槽：“以前6888元一个，卖一个赔一个”，通过智能渲染、智能驱动，流程自动化制作等能力，让虚拟人的制作成本有了30%-50%的缩减，市面上甚至冒出了“99元、299元一个的虚拟人”。

更重要的是，大模型技术加速了虚拟人对语言语义的理解能力，让虚拟人能够从简单的检索生成，到语言文字AI驱动，更快速的对人的需求进行回复，甚至做到“秒回”，同时模型也驱动了渲染技术、拟真技术、超写实技术的进化。

举个具体的例子：交互的核心并不只是动作反馈，更是内容的生成和语音的交流，故而，AIGC技术和语音生成技术成为了当下技术发展的核心。

▲图源：网络

大模型让虚拟人“长了脑子”，有了思考和推理能力，AIGC技术让虚拟人能够有“想法”，TTS（Text To Speech 文本转语音技术）技术则让虚拟人能够“表达”。

几天前，在GPT-4V版本更新，TTS实现了进步，文本驱动语音有了语气和口吻，在停顿、重音和自然交互程度上有了极大的提升。不仅可以模仿不同的口吻，甚至设定“渣女”时还学会了“夹子音”。

有行业专家推测：TTS技术端到端成熟后，对行业格局的改变会很大。因为虚拟人真的能够实时交互后，落到产业里才能产生实际价值。

从看起来像人，到实时互动，大模型推动着虚拟人完成二级阶跃，但这也只是一个新的开始。从元宇宙到大模型时代，虚拟人真正备受关注的内在原因在于，他将有可能是下一个虚拟时代的“入口”，背后连接着新的虚拟世界，入口属性让其变的既性感又危险。

国外最早布局虚拟人的微软小冰CEO李笛则认为：虚拟人未来是混合模型。

本质上，这两种观点的内核是一致的，只不过李笛的假设更为具体。下一阶段，将进入“虚拟人＋”的阶段，虚拟人＋RPA在企业内部打造数字员工；虚拟人＋AI Agent，在C端打造陪伴型机器人；虚拟人＋AR/VR，在3D空间打造可见的游戏NPC；虚拟人＋具身智能，让人型机器人有了灵魂。

若将多种技术进行全面融合，虚拟人才真的能够成为“入口级应用”。届时，比拼的赛点将是虚拟人的开放程度、生态建设、场景拓展等一系列综合能力。

当虚拟人被赋予了更多能力，其背后的木偶引线到底还能否掌握在人的手里？

这个答案，也着实让人期待。

(来源：新浪科技)

2024年 4月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

关联资讯:

用户登录