百度地图语音定制功能的启示百度正在用人工智能改变一切

5d844e073981a.png

文|吴俊余

美国天才科普作家詹姆斯·弗拉霍斯特用《智能语音时代》这样的标题来描述语音技术对当今人们的影响。

他的副标题是非常有趣的——商业竞争,技术创新和虚拟不朽。

在他看来,每隔十年左右,人们与科技互动的方式就会发生根本性的变化。数十亿美元的财富将“等待”那些定义了新时代模式的公司,而落后者将会破产。

声音正在成为影响现实的通用遥控器,成为控制几乎任何一种技术设备的手段。语音打破了世界上一些最有价值的公司的商业模式,为新的应用创造了机会。

这一次,百度地图展示了品牌营销和技术积累与语音定制的双重能力。其中,语音技术在未来的ToB和ToC领域也将有广阔的应用空间。

一个

品牌营销的创新

过去,地图行业经常通过明星语音包找到明星平台来推出品牌活动。

这一策略确实有效。事实上,汤唯和林志玲的声音都很受用户欢迎。然而,重要的是要知道明星粉丝的圈子有限,而明星代言人可能只吸引了一部分粉丝用户。如果你真的想扩大圈子,实现营销突破,你可能需要采取一些其他的策略。

然而,有趣的是,9月19日,百度地图发布了其语音定制功能,并直接推出了自己的定制语音包。

5d844e07a15e7.png

定制方法非常简单。打开百度地图应用,唤醒“小度”并说出“录制我的声音”,或点击百度地图首页的“旅行助手”,进入“声音定制”开始声音定制之旅。在一个安静的环境中,遵循百度地图指南,读出有趣的文字记录,比如卡通、电影和电视台词,等待大约20分钟,然后你就可以拥有自己的语音包。

5d844e07e9363.png

百度地图事业部总经理李颖

最后,你可以用自己的语音包替换其他的明星语音包,可以在百度地图的所有场景中使用,比如智能语音导航、智能语音交互、导航等。

让用户在使用地图时听到自己的声音。这对每个人来说都是一个有趣的尝试。这一尝试的有趣之处在于:

1.满足新鲜度;星空语音已经成为市场上大多数手机地图的常规操作。由于不同的传输机制,人们经常听自己的声音,并以不同的方式记录自己的声音。这种“美妙而可耻”的感觉往往比明星的声音更有趣。

2.打破循环;明星的声音毕竟只是粉丝群会选择使用的一部分,但是他们的声音是大家都感兴趣的,不要花一分钱请明星代言,不要针对少数粉丝用户群,直接用技术手段来覆盖所有用户群,这个策略就是四两拨千斤。

可以说,这既是一个营销活动,也是一个技术演示。两者有很好的结合。

很少有品牌营销能真正释放技术能力,但这次百度地图做到了。它让技术和营销变得软硬兼施。

语音技术的飞跃

该功能主要应用百度的原创风格转移技术Meitron模型。

所谓风格转移的概念最早起源于意象场的概念。简而言之,就是将一幅画的艺术风格运用到另一幅画中。

语音的风格转换也称为“语音克隆”、“多说话人”、“风格转换”和“语音转换”。

很难知道声音的风格转变。

因为深层网络很难处理声音。一方面,它不像图像和文本领域的研究那样热门;另一方面,语音所拥有的信息很难编码到高维的隐藏空间中。语音时间序列混合了以下信息:说话者特征(如一个人的音色、音调等)。);语言内容(语音内容);副语言特征(如情感等。)。

2017年,美国有一篇名为《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》的关于风格转换的学术论文。

5d844e084ef5b.png

百度地图这次使用的Meitron模型主要表现在三个方面:说话人的声调颜色转换、多情感阅读和韵律风格转换,从而大大降低了个性化语音合成的定制阈值。

你知道,记录星图的声音过去很麻烦。以高德地图中林志玲的发音为例,它的产生分为两个部分。

一个是根据抄本记录的语音内容。另一个是高德正在找人跟踪林志玲几个月,近距离录音,处理原始声音文件提取数字特征。然后,采用通用和完善的波形合成技术对元音、辅音和声调进行采样,并通过该算法实现文本到语音的转换。

这是2014年星空语音生成的处理计划。读完之后,你可能会觉得录音太难了。

然而,在迈特隆模式下情况不同。这个模型背后的技术支持是百度脑语音技术的实现。人工智能的祝福在地图语音包的制作上取得了突破,从每月一级到每分钟一级。

5d844e088e39a.png

百度语音首席架构师雷佳

该模型目前是业界领先的语音合成技术。手机可以完美再现说话者的音色、风格和情感。

关键是,只需要20分钟就可以生成所有的内容。换句话说,不管未来是什么样的恒星,它们的声音只需要在迈特隆模型中运行20分钟,基本上就能生成一个完整的导航声音包。

语音合成能力越强,事实上,这也表明未来人机交互和语义理解的可能性越大,机器阅读能力就越强。

在短短的五年时间里,在人工智能的庇佑下,语音技术突飞猛进。百度大脑的力量是显而易见的。

未来商业的交汇点

这种品牌营销实际上是百度语音技术能力的展示。将来它可以在ToB和ToC有更多的整合。

例如,深入的神经网络技术提供高度拟人化、流畅和自然的语音合成服务,允许客户的应用和设备更具个性地说话。

1.教育和阅读产品:使课程和解释更加生动

在通过阅读APP阅读小说或新闻时,如果使用语音合成技术为用户提供多种发音的阅读功能,则可以放开双手和眼睛,获得更极端的阅读体验。

2.生活和服务产品:提高服务互动的效率

语音合成还可以应用于打车软件、餐厅呼叫、排队软件等场景,通过语音合成可以进行订单播放,方便用户获取通知信息。面部识别可以用来识别顾客和校对订单。

3.智能五金产品:让人们的活动更加生动有趣

可集成到儿童故事机、智能机器人、平板设备等智能硬件设备中,使用户与设备之间的互动更加自然、友好。

当然,对于百度地图本身来说,语音合成技术的使用使得其人工智能地图的名称名副其实。所谓人工智能地图是指在人工智能的支持下,交互体验、位置信息、旅行服务和旅行决策方面的重大变化。

对于ToC用户来说,未来的百度地图将会有更多的人工智能能力和语音交互能力,在使用过程中会变得更加方便和智能。例如,它将通过用户肖像、深入学习等功能,结合用户的使用习惯和当前场景,为每个用户带来个性化的信息和服务建议。

对于ToB用户来说,未来的百度地图还可以利用人工智能功能和语音交互功能,结合人口分布、客流分析和设施分布等大数据分析服务,为客户和企业提供基于语音的地理位置服务。为规划、房地产、商业、零售和其他行业提供解决方案。

当“你回答我”模式出现时,人和机器之间的对话绝不仅仅是一个纯粹的逻辑过程。语言永远不会脱离内容的外壳。人们会被语言影响或感动。

在未来,我们与世界各地的机器形成的世界将比以往任何时候都更加丰富多彩。

詹姆斯·弗拉霍斯特h

在云时代,“任何设备都可以通过添加麦克风和无线芯片来实现语音驱动。从浴室水龙头到儿童玩偶,任何设备都可以利用分布在世界各地的数千台电脑提供的计算能力。”这几乎意味着“一切皆有可能”的童话世界真的实现了。

在这样的世界里,业务逻辑和产品逻辑也会有更多的变化。语音可能真的会成为地图等产品的门户之一。

作者|吴俊余公开号码|有多深

作者是独立作家,852405518