超越中国式浪漫的北京冬奥会:这个北京姑娘最出人意料

北京冬奥会结束,“中国式浪漫”席卷全网。

从开幕式开始,不仅是恢弘的视觉盛宴,科技之美也始终贯穿其中。

云计算、AI、虚拟现实、5G……在这届冬奥会中可谓是大放异彩。

难怪外界频频发出“科技感十足”之类的赞美之词。

其中,一个数字人的出现,其实可以让商品直播有一个全新的“打开方式”。

不仅吸引了200多万观众,还在短时间内吸引了数十万粉丝。

她叫冬冬,是一位在淘宝直播间售卖冬奥会官方特许商品的“北京大妞”。

但和别人不一样的是,她不仅会在直播间卖货,还会秀“十八般武艺”。

例如,如果奥运会运动员获得冠军,冬冬会模仿他们的经典动作来庆祝:

观众大呼苏,冬冬现场展示了一个1800扭封神:

说实话,这么多才多艺的主播我还是第一次见。

但是有一点要说,眼尖的朋友朋友应该已经发现了,她在冬冬不是人。

是由阿里巴巴为本届北京冬奥会打造的数字人冬奥宣推官。

也许这个时候你会说,那她不就是一台机器吗?不要感情,不要灵魂。

不不不。

如果你看过冬冬的直播,一个很直观的感受就是自然。

人类主播的技能,她也能hold住。感受她的风格:

欢迎姓XX的朋友来直播间!

XX朋友,你的需求已经委托给程序员小哥哥了。别担心。

没错。在实时互动部分,冬冬的位置不错。

单从这一点来说,可以说冬冬在大众眼中已经不再是传统的虚拟人,而是进化成了数字人。

毕竟,能否与人类互动,是划分虚拟人和数字人的分水岭。

而且她也不是那种玩“表面功夫”的。从直播数据来看,她的业务能力足够硬。

据悉,在直播间核心表现数据的转粉率和停留时长,而冬冬的直播间均远超了淘宝直播的平均水平。

于是,这样的冬冬迅速引起关注,网友们感受到了她的“敬业”:

为了实现一套房子,真的太辛苦了,董姐也不容易!

但是,如果我们深入挖掘董冬这个数字人,可以发现,带货直播只是她能力的一个角落。

这个数字人,冬奥很忙

数字冬冬,在整个冬奥会期间,可以说是“多面”。

这不,除了直播,冬冬还开了一个“冬奥脱口秀”的专栏。

等等,数码人?讲笑话?这能行吗?

不要低估数字人的能力。冬冬说,脱口秀的“开场法”是这样的:

在今天的比赛中,有一个项目是冬冬特别想体验的。它在白雪中自由地翻转滑行。感觉光是想想就让冬冬心跳加速.哦,不,是CPU疯了。

你知道是哪个项目吗?冬天是一个提醒。对于初学者来说,这个项目只有两个动作:前滚翻和后滚翻。选择屁股痛还是脸痛?

噗!

另外,冬冬虽然是数字人,但是她的脱口秀还是挺搞笑的。

而且在脱口秀节目中,除了用幽默的语言讲笑话,冬冬还会穿插讲解冬奥会相关的知识。

既科普又搞笑。

但直播间只是冬冬的工作场所之一。不是的,她在冬奥会期间还参加了CCTV-5 《体坛英豪》 节目的录制。.

在其中一个项目中,短道速滑运动员

武大靖,就成了她的采访对象。

现场,冬冬还请求武大靖指导一下她最新学会的短道速滑动作。

在瞬间变装后,便在武大靖面前开始展示:

冬冬问武大靖:“你知道我的动作是跟谁学的吗?”

武大靖自信地回答道:“我呗,肯定是学我呗。”

而后,冬冬和武大靖展开了轻松愉悦的快问快答。

冬冬:这届冬奥会最难忘的时刻是?

武大靖:我们获得首金的时候。

冬冬:头盔的图案为什么选择华夏战神孙大圣?

武大靖:因为它的寓意很好,孙大圣的感觉就是拼命吧。

冬冬:保温杯里泡的是什么?

武大靖:没泡枸杞,泡的是正常的水。

冬冬:金墩墩拿回家,会放在哪里?

武大靖:放保险箱里,其他人说已经联盟要弄我。

……

一番交谈还挺自然,冬冬模仿真人记者有模有样。

那么一个AI数字人,能够做到如此的实时和拟真,接下来的一个问题便是:

冬冬,是怎么炼成的?

随着数字人冬冬在网上的走红,其背后的技术能力也逐渐浮现了出来。

据了解,冬冬之所以能够像人类一样自然,主要得益于阿里巴巴数字人技术团队多年来在此的技术积累。

首先,是在外观的自然度方面。要让虚拟人在说话过程中做到自然,就需得像人类一样,把嘴、表情、肢体动作等等做到统一、协调。

冬冬背后的技术所采取的策略,则是AI实时驱动。

例如在“嘴型驱动”上,冬冬可以做到播报的语音和嘴型对应;并且在说话过程中,会融合适合的面部表情,比如微笑、兴奋、生气、疑问等。

除此之外,冬冬的身子,即肢体动作,也会配合内容而发生改变,例如挥手、鼓掌等等。

而且为了在视觉上达到更加逼真的效果,阿里采用了Unity HDRP高清管线来实时渲染拟真人级别的数字人。

包括实时的模拟自然光照、动力学(比如服装、头发的摆动)等效果。

但若仅仅是停留在外表,那要跟人类相比,还是差点意思的。

要想在直播间里和用户长时间自主互动,流畅对话是一个必要条件。

多模态双工互动能力(MMDI,multi-mode duplex interaction),便是其采取的策略。

具体而言,是在深度融合了多模态理解和双工对话管理技术的基础上,构建了一套全智能驱动的数字人双向互动能力。

这让数字人具备了像人一样边说边听的技能,即使被打断也可以继续顺畅沟通。

而且声音、表情、动作在表达时能够自然地整合在一起。

但光是“形象逼真”、“可以互动”,还是不够的。如何能够让用户觉得冬冬言之有物,内容扎实丰富,是非常重要的。

这就需要冬冬具备“智能脚本生成”(AI Script Generation,AISG)的能力。

为此,阿里数字人技术在深度融合预训练和知识图谱基础上,构建了一套全智能的可控脚本生成方案。

核心就是将以往专家撰写脚本的方式,转变成了机器自动撰写。

更具体一点,AI算法模型会根据“冬奥知识”或“喜剧写作公式”,展开一个自主学习的过程。

而后数字人再结合NLP和风格化生成技术,就可以在面对不同场景的情况下,快速生成顺畅、有逻辑,且自然风趣的语言。

这也就是冬冬为什么能够在长达2小时之久的直播时间里,不间断的输出内容、持续互动的原因了。

不仅如此,冬冬还可以在直播过程中,对突发的赛事新进程做最新的报道。

例如一旦有新的奖牌诞生,她就会立即对与之相关的赛事背景、规则、选手简介等等内容做介绍。

这种即时性,便是得益于新华社与UC的合作,可以让冬冬从新华社UC大鱼号上获取最新赛事动态内容。

另外,冬冬在冬奥会期间身兼数职,这也需要她拿出不同的“职业状态”。

例如在直播间,冬冬就得用主播的口吻来说话;脱口秀环节时候,冬冬的说话方式就得幽默诙谐。

为了达到这种效果,冬冬的智能语音技术团队深度融合端到端语音合成与传统语音技术,能在更低的成本、让数据录制周期变得更短。

同时融入情感语音合成技术,这就冬冬可以在不同场景之中,表达不一样的感情。

……

不过有一说一,从冬冬在冬奥会的种种表现中,其实不难看出一种趋势的发展:

人与虚拟人,界限越发模糊

虽然在近一段时间里,“虚拟人上岗”的消息层出不穷。

不过数字人冬冬的出现,似乎让人类与虚拟人的界面进一步模糊了起来。

以往虚拟人即使在外观和语音的自然度能够做到高度逼真,但人们对他们的印象或许依旧会停留在“莫得灵魂”。

但这一次,却截然不同。

例如在直播间这种高度需要互动的场景中,冬冬就不是“自顾自的”的表演。

当有人在直播间问冬冬:“你吃饭了吗?”

她有时候就会回答“我是吃代码的”,然后开始念自己的二进制代码;但有时候冬冬也会回答说自己在吃烤鸭。

这样的交流方式,就会让屏幕前的观众感受到与人类主播一样的回应与互动。

冬冬的出现,为数字人的生命力探索了一个持续产出内容和互动的新场域。

数字人的生命力,不仅仅是字面上时间的长与短,更多的应当是“成长”与“复制”。

换言之,不是打造出了数字人,这块工作就结束了;而是需要在环境的加持与训练中,不断让自己在“像人”这件事儿上做到极致。

与此同时,能够独当一面地快速上岗和适应新的场景,也是数字人“生命力”的体现。

那么最后,或许也是大家最为关心的一个问题:

我们为什么需要数字人?

从冬冬此次的表现上来看,她能够连续十多天2小时不间断地在直播间带货,并且能够跟观众做到很好的互动,从能力上来讲已经具备了上岗的能力。

与此同时,她还能以同样的业务水平,同时间上岗其它场景,光是这一点,便是人类很难达到的极限。

也就是说,现在的数字人能够以一己之力同时胜任住多项任务,从而大大的释放了人力和物力成本。

而除了冬冬之外,本次冬奥会还有虚拟人上岗运动员助理教练、气象主播等职务。

放眼冬奥会之外,例如柳夜熙、新闻主播N小黑/N小白的爆火,更是从侧面反映出普通大众对虚拟人的认可和接受。

数字人未来想象力的大门,已经打开了。

而更宏观地来看,数字人在本届冬奥会所体现出来的,不仅仅是其本身能力的展示,更是在释放着一种新信号:

前沿技术,正逐步步入常态化。

据悉,此次北京冬奥会实现了212项技术的落地应用,其中33项为首次使用。

在未来,这些技术或许不再是“奥运专享”,走进你我的日常也是大有可能。

……

最后的最后,要问现在虚拟人发展到了什么地步?

无疑的一点是,人与虚拟人的界限越发模糊;或许,随着智能技术越来越发达,人机共生时代已经到来。