人工智能语音定制将为2020年带来三种可能性

2016年,美国科技记者詹姆斯弗拉霍斯做了一件感动无数人的事情。

在他父亲去世前的几个月,他决定永远保留他父亲的声音和教导。詹姆斯,非技术背景,在人工智能项目的帮助下自学了语音合成和机器学习。在父亲的帮助下,他每天录下父亲的声音一到两个小时,录下超过90,000字用于训练人工智能模型。最后,一个类似siri的声音助手完成了,由父亲的声音组成,让詹姆斯可以随时表达他的悲伤。

在感动世界上无数家庭的同时,这个故事也向人工智能开发者和技术人员展示了用人工智能声音定制的重要性。毫无疑问,世界各地的许多家庭都渴望类似的功能。无论是录制老人的声音让自己的声音能够伴随孩子的成长还是恋人的声音,家庭都成为人工智能语音技术应用场景的主战场。

这种需求也受到了业界的关注。近年来,语音合成、声音克隆等技术相继发展,自然语言处理的整体能力也有了突飞猛进的发展。人工智能语音的定制一直是“飞向普通人的家”,而不是花几个月的时间和使用成千上万的语料库进行机器学习训练。

3月初,一直大力投资人工智能技术的百度推出了小型扬声器的语音定制。在小肚APP的“父母讲故事”功能场景中,用户可以录制自己和家人的语音包。

这是用户的语音定制功能首次出现在对话式人工智能硬件中。当用户可以定制自己的语音包并让智能扬声器持续传送自己的声音时,许多行业规则似乎正在改变。

让我们从语音合成、对话式人工智能和智能语音硬件的融合来看一下2020年进入人工智能语音定制时代时可能出现的三种变化。

门槛消失:人工智能声音进入定制时代

事实上,人工智能语音定制能力一直是人工智能行业和用户的高度期望。一方面,让人工智能模拟用户的声音,这与家庭、公司、记忆等许多社会和情感因素有关。另一方面,熟悉的声音可能会引发许多新的应用想象。例如,你可能懒得开一节音频课,但是如果你的爱豆或女神给你一节音频课,你可能懒得睡觉。

因此,人工智能语音定制的工程和商业应用一直备受期待。这一技术线索可以说是人工智能语音硬件,如智能扬声器、智能屏幕和其他不断发展的产品。

在过去的几年里,人工智能语音定制技术经历了一个不断降低门槛、扩大应用规模的过程。James Vlahos使用了超过90,000个语料库进行机器学习训练,但是现在只需要几分钟就可以训练出一个定制的语音模型,其语义理解和自然语言处理能力远远优于siri。

近年来,随着技术的升级,定制用户语音相关产业的探索不断推进。例如,一个名为Revoice的公益项目希望帮助肌萎缩侧索硬化患者保留他们的声音。然而,汽车人工智能制造商Cerence去年推出了为用户创建语音助手的功能。微软的定制语音服务可以使用户的声音在某种程度上成为小冰块的声音。去年,“语音定制”开始应用于地图场景。用户可以在百度地图应用程序上记录20个句子,生成完整的个人语音包。

现在,定制语音的功能已经到了最复杂的人工智能场景:会话式人工智能设备。

在小语音定制功能中,用户可以进入小APP并在“家长讲故事”功能中录制自己的语音包。更不用说它有多复杂了,它可以在3-5分钟内被记录下来。录制的声音可以播放一个很长的故事,在百度的人工智能语音能力的祝福下,音调、语调和节奏都非常逼真,没有任何异样的感觉。

这意味着人工智能定制语音的能力基本上不再有任何用户门槛。我们不需要学习复杂的技术,不需要浪费大量的时间,也不需要忍受重复的失败。用户将能够以非常简单的方式使用智能语音定制在家庭场景中实现应用。语音定制的产业化渠道也已经启动。

另一方面,我们可以把它看作是智能语音助手和会话式人工智能硬件的整体发展。

自2015年亚马逊的Ehco诞生以来,语音助手已经能够用机器声音提问和回答问题。用户经常找不到继续的动力。问答模式也不同于人类互动。

2019年,小助手实现了全双工免唤醒功能,可以一次唤醒多次,最终在硬件上实现了几轮对话。聊天开始看起来像一个真实的人。

人工智能语音定制的能力可以看作是智能语音助理及相关硬件在2020年的又一次升级,用户可以通过它实现成千上万的人工智能硬件,开发者也有了新的发展基础。产业链的产业影响也会随之而来。

稻圈家族:人工智能硬件或爆发的两个场景

人工智能语音定制带来的第一个变化是,用户可能会重新考虑如何应用对话式人工智能硬件,以及为什么要购买相关产品。

有了人工智能语音定制功能,很明显在业务场景中有两个变化。首先,在家庭场景中,定制家庭声音的能力实际上非常重要。因为家庭的声音代表着友谊、依赖和温暖,这是人的本性,任何时候都不能改变。用父母的声音给孩子们讲故事和知识。让孩子们的声音伴随着智能音箱中的父母。给父母时间阅读新闻。这些温馨的应用是中国人的共同需求,也是繁忙城市工作下的必然选择。

今天的情况就是一个很好的例子。这种流行病推迟了工作的恢复,使许多父母有更多的时间陪伴他们的孩子,从而造成了“流行病下的父母依赖性”。但是当返工开始时,如果父母不得不离开他们的孩子,他们会怎么做?在智能扬声器的家庭使用场景中,语音定制功能提供了一个选项。

另一方面,人工智能语音定制的更大好处取决于用餐圈。如今,餐饮圈的活力给整个社会留下了深刻的印象。然后让艾迪的声音不仅出现在地图导航中,而且永远停留在智能产品中,不断地与自己交谈、聊天、讲故事、玩游戏——来产生购买力和再开发能力,我不敢去想。

在人工智能语音定制功能下,这两个场景最有可能迅速爆发。在此基础上,新一轮开发商奖金将很快推出。

通用化定制:人工智能语音开发人员获得新入场券

随着人工智能语音产业的成熟和开发者技术支持的日益完善,越来越多的语音博客和人工智能开发者加入到人工智能语音生态的浪潮中。然而,随着人工智能语音定制的推出,开发者的基本能力有了很大的提高,“一千人一千声”对话人工智能设备不再只是一个行业的想象。

人工智能语音开发人员可能很快会获得一个新的机会,通过语音定制来“推广定制”。可以预见,人工智能语音定制将从以下几个方面影响人工智能语音的发展空间和产业价值:

1.技能定制发展迅速。用家庭成员的声音定制一种声音技巧是一种广泛的工业想象,甚至仅仅是家庭成员、爱人和粉丝的声音技巧。随着用户语音的选择,许多语音技能将发生全面的变化,这可能会影响娱乐、家庭、教育、公司和其他场景。

2.生活场景的定制已经成为亮点。在智能家庭、智能手机助手和智能可穿戴设备中听到他们的亲戚和偶像的声音是一件可以被各种游戏填满的事情。开发人员将能够使用各种硬件形式,人工智能语音定制想象。

3.无数播放“声音版权”的新方法。如上所述,人工智能语音定制能力的出现和普及将使“高净值语音”成为一种新的版权资本。明星、偶像、公众人物,甚至特定领域的互联网名人的声音,都可以通过人工智能的交互作用推广到各种硬件上,为内容产业和技术产业创造另一个垂直的出口。

人工智能语音泛定制应用、硬件和可以扩展到地面的专有服务是全新的形式,集成了用户、偶像、软件开发商和硬件品牌。由此激发的购买欲望和平台开发机会可能是2020年的独特风景。

4.人工智能语音的社会价值和意义被重新评价。从詹姆斯弗拉霍斯的故事中不难看出,人工智能的声音定制能力包含着深刻而有意义的家庭关怀和家庭意义。人们不能永远陪伴彼此,但是彼此声音的智慧可以放大许多重要的时刻和友谊的感觉。人工智能语音定制的开发者可能会对亲属关系、社会和友谊进行更多的探索。从技术价值到社会价值,人工智能语音定制的影响也将扩大。

人工智能语音定制正在成为对话人工智能硬件市场的一个新的驱动因素。仔细观察过去三年的对话式人工智能硬件和人工智能语音市场,可以发现市场的波动性增长,这与技术突破密切相关。在一种硬件形式还处于初级阶段的时候,这种由技术引发的商业能量爆发是行业标准。

换句话说,由对话人工智能打开的硬件市场显示了这样一种逻辑关系:技术能力的突破代表更好的用户体验,这反过来将直接产生市场反馈。2019年,在实现了少量全双工免唤醒功能后,人工智能语音硬件市场一度脱离了三大支柱,显示出一个巨大的飞跃。然而,人工智能语音定制能力作为一项与开发者、技能生态和内容生态联系更加紧密的技术突破,显然将继续保持这种技术领先地位,并带来更多的市场反馈,因此某些市场质变即将到来。

然而,对于人工智能开发人员来说,语音定制能力带来的行业机遇才刚刚开始,不管哪一个平台最终获得了最终的使用权。拥有数千人的硬件、不断变化的应用和技术突破是我们最终希望看到的新硬件形式的结果。