数据洪流下的语音输入法需要一对钢条和骨头

那些能在网上解决问题的人永远不会见面,这已经成为疫情期间人际交流的头号铁律。

当大部分的交流都在网上进行的时候,是什么样的体验?

根据百度最近发布的数据,自1月25日春节假期以来,百度输入法的日均语音请求量已突破10亿大关,创行业新纪录。

除了高交通流量的影响外,还有必要处理大量新的长尾群体,如边远地区的人们、中老年人、儿童等。许多传统场景的在线使用也导致了使用频率和对各种产品需求的急剧增加。

毫无疑问,流行期间的特殊需求推动输入法行业迎接新的挑战,也让百度输入法如磐石般涌现。

需要什么样的技术来支持国家语音输入波?人工智能驱动的输入法给社交网络生活带来了什么变化,这是一个在智能时代背景下值得思考的重要命题。

数据洪流下的语音输入法需要什么样的钢骨?

这只是一种输入法。技术要求那么高吗?这太简单了,我的朋友。全语音交互式输入法本质上不同于传统输入法。

首先,为了达到高标准输入的水平,语音输入面临着比传统输入方法复杂得多的技术问题。

例如,语音输入必然会产生环境噪声。如果算法不够强大,很可能难以辨认,用户需要手动调整,从而大大降低了产品的效率。

另一个例子是,语音输入需要实时转换,并且不能占用系统太多的计算能力,这需要软件的智能优化。

百度输入法之所以成为人们在特定时期交流的首选,也是因为它在语音识别方面的技术优势。2019年,百度输入法的在线语音识别准确率将提高15%,超过行业最佳竞争对手15%,以抵御用户对语音输入的高标准和严格要求,创造新的行业纪录。

其次,流量的激增必然会使输入法暴露在各种网络环境中。

对于一些偏远地区或受天气影响,当手机网络信号不稳定时,联网状态差的输入法很可能识别成功率低,识别速度慢。

以前,大多数输入法会使用离线语音包来弥补,但这种体验与在线语音大不相同,无法解决广大用户的痛点。

这一次,百度输入法的优势是离线语音输入的准确率比行业平均水平高35%,确保用户在网络不正常的情况下仍能顺利使用。

第三,人口的日益多样化和经济全球化的趋势也使得输入法开始应对外语输入和混合输入。

过去,如果上海某商务中心的白领进行办公室交流,如果他们要混合一些专有的英语单词,他们往往不得不反复在中英文输入之间切换,这样效率低下,而且容易出错。

通过技术创新,百度输入法在不影响中文语音输入准确性的情况下,实现了高精度的汉英混合语言识别输入。

在2019年百度人工智能开发者大会上,百度输入法立即挑战了零错误识别的中英文混合“Rap”——:“你的新模型比基线好多少?探索技术的深度和广度是我们的责任。我非常喜欢屏障这个词。人工智能的价值实际上是突破障碍。”

在当前国际间日益频繁的中英文互联网交流背景下,百度输入法每天接收10亿个语音请求不足为奇。

第四,如果汉英识别测试技术的深度,那么方言识别测试输入法制造商语料库的广度和技术布局的预见性。

特别是,移动智能已经开始为更多的用户所接受,越来越多的方言用户渴望通过发音更有效地进行互动。然而,与丰富的英语语料库不同,方言的准确识别需要前期大量的数据收集、标注、清理、训练、优化等工作。此外,中国各地还有大量的方言,还夹杂着各种少数民族俚语,难度呈指数级增长。

然而,百度输入法通过技术优化,将普通话和六种方言整合到语音识别模型中,实现了方言和方言、方言和普通话的混合语音输入,允许用户“自由说方言”,无需切换。自由不是自由(自由不是自由)。人性化的背后是百度输入法技术人员的不懈努力。

当然,百度,一个“人工智能命名”的技术公司,似乎应该已经完成了语音技术行业的顶级测试。

但是用户的标准远不止这些。我们知道停课使许多95后和00后学生以前所未有的参与度加入了网络力量。

他们的要求不仅仅是“理解、听得清楚、听得快”,还需要冷静和乐趣来占据手机的C位置。

这时,综合人工智能力量的百度输入法开始生效。通过引入图像识别、增强现实等技术,输入法能够具有语音和文本以外的特征,如人工智能涂鸦、神圣句子匹配、空中手写、皮肤主题的C位识别等。它也成为行业中第一个能够在多个场景中智能预测句子的输入法产品,并成功地俘获了许多“Z一代”用户的心。

至此,百度输入法开始让“输入”,一种常见的冲浪动作,开始向“全感觉时代”迈进。

不难看出,百度输入法作为人与机器之间的一种直接交流媒介,依靠支持体验质变的“技术长城”,能够抵御特定时期的数据洪流和批判眼光。

百度输入法背后的“技术长城”是如何炼成的?

在澄清了百度输入法和技术支持之间不可分割的联系之后,不难理解为什么它能支持每天10亿个语音请求的巨大需求。

当然,在线访问的激增只是一个诱因。赢得这场无形的战争的核心是百度输入法已经建立了一个坚实的技术墙,可以抵御外部的洪流。

在这里,百度输入法可以分解成几个核心组件:

1.自行开发的SMLTA模型技术基础。

在国际上,我们经常把百度与中国人工智能力量的代表联系在一起。哪里有比这更强的技术能力,足以写一本书来解释它?

然而,为了支持百度输入法与用户之间的紧密联系,其核心在于自主开发的流截断多层注意模型——流传输多层注意(smlta)。

你知道每一个汉字,但是当你把它们组合起来的时候,你不知道它是什么吗?这是百度去年在语音技术方面的一项重大创新。基于注意力技术的在线语音识别服务首次在世界范围内大规模应用于输入法产品,服务于数亿用户。

截断:原来的整句识别模型已经变成了小片段语音的局部注意模型,如汉语、英语、方言等的截断。它可以更有效地识别其他内容,同时确保主题的准确性不会降低。

流:简单地说,用户说话,而算法根据上传的语音数据进行识别。其优点是可以实时调整,减少延迟,从而避免用户长时间等待上传身份。

多层次:传统注意模型面对的句子越长,选择和匹配语音数据的特征就越困难,出错的概率就越高。然而,SMLTA引入了多级注意机制,允许机器逐步选择语音特征,使得模型的识别率甚至超过了传统的全局注意模型。

这也是为什么在流式解码中,机器只能接收到一些片段,并且模型的准确性往往低于整个句子。但SMLTA可以做到这一点,在说话时识别的前提下保持足够的准确性。

SMLTA模型的另一个创新是将CTC(一种语音识别算法)和注意力模型结合在一起,并且CTC的端到端训练被用来帮助提高注意力模型的准确性。让注意力模型自动找到每个单词的大致范围,并使用CTC截断它,以帮助它更准确地定位。

总的来说,SMLTA模型解决了两个体验问题:一是满足实时性,减少延迟,大大优化用户体验;第二是提高离线和在线语音识别率,在行业中取得完全领先。

这不仅是百度语音的技术制高点,也代表了中国语音识别技术对世界一流的荣耀和贡献。

与此同时,SMLTA模式已经在百度输入法产品上大规模推出,服务于中国数亿用户。在云智能的帮助下,它实现了工业终端的低成本着陆,使实验室技术能够真正赋予每个人权力。这也成为百度人工智能产业化能力的证据,也使百度输入法成为登陆人工智能语音技术的“领头羊”。

2.人工智能技术充满了砖块和石头。

当然,完整的产品体验也需要完整的技术矩阵来支持。如果SMLTA模式“高高在上,斗志昂扬”确立了百度输入法的绝对差异化优势,那么人工智能技术的全面推广就成了百度输入法技术长城不可或缺的一块砖和一块石头。

例如,百度输入法使用深层神经网络对输入文本建模,创建智能预测功能。

它可以根据用户的使用习惯,根据输入的单词完成长句,大大提高了输入效率。在游戏、聊天等场景中,只需要输入前几个词,如“为什么”,百度输入法会根据前后的上下文自动联想,并弹出“为什么不理睬我”和“为什么不上路”等提示,大大方便了在线对话(责骂)?

目前,“智能预测”已经在微信、QQ、淘宝、荣耀之王、绝地生存等场景中实现了逐句预测推荐,还可以根据不同的应用和场景提供不同的预测。

让我们来谈谈其他人工智能技术的应用。

为了让用户能够从图片中完全“挖掘”出自己并做出增强现实表情,他们需要图像分割技术的支持,以便机器能够很好地识别图片的内容,然后叠加全景动态素材,以达到将人物放置在虚拟场景中的效果。

2019年,百度输入法的“增强现实表达”功能被使用超过1亿次,这表明基于人工智能的创新已经无意识地渗透到了年轻人的社会语境中。

另一件值得一提的事情是很酷的笔迹。

如果说语音输入是行业领先的业务,那么空中手写可以说是第一个感受到未来的。

百度使用双神经网络模型——、基于灰度的指尖跟踪模型和多方向特征字符识别模型,使用户可以用最常见的RGB摄像头在空中挥动双手,输入法可以准确地识别他们。

为了保证识别结果的连续性和稳定性,百度输入法研发团队还对三维空间中锯齿和连笔的手写识别算法做了大量的优化工作,并准备大规模应用。

可以说,百度输入法再次站在了行业的桥梁上,引领着行业技术迭代的方向。

行业简历等待百度输入法完成

通过拆解百度输入法的技术路径,我们可以更清楚地看到人工智能支持的技术繁荣将如何更好地促进未来的社会升级。

首先,语音技术在应用端的想象空间进一步开放。

随着大规模用户习惯的形成,语音输入等人工智能功能的登陆也成为利用行业的下一个匹配点。

根据人工智能媒体咨询公司的《2019中国第三方手机输入法市场年度专题研究报告》数据,百度输入法的月增长率在行业中最高,表现最好。

其次,百度的技术标准再次在输入法产品上得到成功验证。

输入法作为在线互动的入口,也是真实反映网络状态和真实趋势的窗口。可以看到的是

智能工具的支持在各行各业都是不可或缺的,以提高社会生产效率,恢复和维持经济发展。人工智能产品和服务的用户范围也在迅速扩大,这不仅考验了科技产品制造商的技术水平,也要求在产业化过程中提供成熟的解决方案。

从这个角度来看,语音请求的数量在一天内超过10亿并不是偶然的。它背后的关联是百度人工智能技术系统的多年布局、输入法产品的迭代方向以及用户需求洞察的敏锐视角。这些元素的迭代最终使我们能够看到这个技术领域的汹涌浪潮。

拿着科技的权杖,你可以看到荣耀的日子,而不用害怕风和电流。