你和人工智能的对话正在被人工监听

资料来源：燃气金融(id:)作者：周晶晶

如今，智能设备越来越多地出现在每个人的生活中。在享受它们带来的便利的同时，许多人可能没有意识到他们所说的可能被“窃听”并被手动分析和标记，因为——制造商希望使这些设备更智能。

“放一首牛德华的歌”。一个带有口音的成年女性的声音从电脑里响起，但机器认出这是“孩子”的声音。这是机器常见的错误。来电者唐顿将其更改为“成人”，然后将“刘德华”标注为“刘德华”，以使机器下次“更智能”。

五年来，这些声音的听写和标记一直是唐顿的日常工作。

在过去的五年里，她每天听大约1000个陌生人的声音。这些声音出现在不同的场景中：一个带有南方口音的尖锐男声发出指令“你好，魏，请玩沙漠骆驼”，背景伴随着汽车闪光灯的滴答声。一个略带不耐烦的女声喊道“关掉导航”；偶尔，也有车主通过咒骂来发泄情绪.

唐顿不明白为什么这些声音应该被贴上标签。在她将问题提交给领导后，她得到的反馈是——“机器需要我的优化数据”唐顿因此嘲笑自己是人工智能背后的女人。

人工智能的进化需要大量的数据来“喂养”，这催生了一个全新的产业。像唐顿这样的注释者越来越多，一个巨大的系统正在形成。

为人工智能工作的年轻人

早上8点，住在河南省的张一成打开电脑，戴上耳机，输入账号和密码，然后进入后台系统，开始他一天的工作。

一个月前，他加入了两个由近2000人组成的标记团队和两个由50人组成的标记团队，一次一个。每次他收到一个大约有150个声音的包，他必须在一个小时内完成，然后才能继续领导这项任务。

张一成向天然气金融和经济部展示了从未知来源窃取的语音包。从内容上看，现场相对比较私密，包括《涛哥，下班后为房东打架》、《好心累了》、《你在哪里》等。

与“领导”任务相比，张一成认为“抓人”更合适，“和尚太多，粥太少，你能抓多少取决于老板的能力”

在张一成向CNFE展示的50人团队中，每个人都称管理者为“老板”。老板之间也有竞争。团队转录的数据的质量和速度越高，老板们就能得到越多的列表，从而“养活”团队并继续扩大其规模。与此同时，团队规模越大，上游话语权越大，它能收到的订单越多，质量越高。这是一种相辅相成的关系。

无论团队是数千人还是数十人，新员工都必须先通过测试，然后是培训，然后是任务，最后必须进行一轮人工质量检查，因为客户通常要求最终准确率在95%以上。

通过考试不容易。有必要记住复杂的详细说明，如哪些客户需要用大小写字母书写英文字母，哪些情况下会直接将发音视为“无效”，哪些发音不清的单词需要音标，哪些不需要，“它们将总是成批地打回来”。此外，他们必须理解特定场景的术语。

语音播报员注释规范(部分)

张一成让燃气财经公司试着转录他收到的10个语音包。从内容来看，这是游戏中其他玩家之间的对话。在国王运动会的荣耀中有许多头衔，包括“吕布”、“李白”和“房主”。通常会有环境噪音。麦克风偶尔喷洒小麦，不容易听到。

标签需要熟悉的专业词汇。

张一成展示的大部分录音来自具有语音互动功能的产品，如汽车语音和智能扬声器，包括百度小都和天猫用户的录音、携程的客服录音和滴滴打车的录音。然而，大多数任务不是以客户的名字命名，而是以音频的长度来区分。

在金融和经济方面的经验之后，发现交互式音频类型大多在2-5秒之间，通常混合有噪声，其中大部分是用户和语音产品之间的对话，其中一些显然可以被判断为意外触发的记录，并且没有暴露用户身份信息和位置信息的情况。

语音呼叫者所需的后台系统和显示界面

其中，小说话者的抄写笔记表明：如果整个句子对与他人聊天无效，只有那些与小说话者交谈的人是有效的。

然而，在CNFE体验到的车载语音中，大部分是带有口音的普通话用户，点播的歌曲类型大多是东北社会流行歌曲和快手。

张一成说这是一项完全没有技能的累人的工作。一个小时的有效录音可以带来100元的报酬，但要听30个小时，平均时薪只有3元多。即使是工作了五年的唐顿，平均月薪也只有3000英镑。

人工智能急需发展。张一成和唐顿只会在数量上增长。其中大部分分布在河南、山东和河北四、五号线沿线的小城市，全天候为全球领先的人工智能产品提供服务。

美国人工智能研究机构Cognilytica预测，到2018年，全球数据标注相关产业产值将增长66%，达到5亿美元，2023年产值将翻一番。然而，由于大部分工作是在“水下”进行的，因此仍然很难准确估计具体的产值。

富数据服务提供商

与分散在第四和第五条线沿线的小城镇的农民工不同，转录的数据包通常由人工智能公司或具有一定规模的数据服务提供商发布。

在BOSS的直接雇佣中，CNFE使用“数据注释器”作为关键词，搜索100多条相关职位信息。发行此类头寸的公司通常在B轮或C轮，并拥有一定的财务实力。有些直接在工作说明中注明——“智能语音、图片等相关数据的语义理解和标注”和“标记数据的清理，以确保标记数据的准确性”。

对于CNFB提出的“什么是数据清理”的问题，一位负责招聘的人力资源回答道：用软件来操作数据并不难。

当CNFE继续询问其是否“将录制内容转换成文字”时，对方回答“是”，并透露该客户是小米，但当被问及将是什么语音包时，对方没有回答。

然而，在张一成加入的四个小组后面，大部分任务来自一家名为海地盛瑞的公司。

根据公开信息，该公司成立于2005年，专注于人工智能上游的数据资源服务。服务场景包括人机交互、智能家居、智能城市等。

根据招股说明书，海天盛瑞有三大业务，即数据资源定制服务、数据库产品和与数据资源相关的应用服务。前五大客户是阿里巴巴、三星、腾讯、微软和百度，贡献了2018年营业收入的59.6%，总计1.1亿元，其中阿里巴巴以5179万元排名第一。

2016年至2018年，海天盛瑞实现营业收入分别为8422.86万元、1.19亿元和1.93亿元，净利润分别为1082.93万元、3414.9万元和6714.16万元。

从2016年到2018年，数据资源定制服务和数据库产品的总收入占运营收入的近99%，两者的总毛利占95%以上。在海天盛瑞的招股说明书中，数据资源定制服务和数据库产品的定义如下图所示：

来源/海地盛瑞招股说明书

无论是从数据资源定制服务还是数据库产品的销售来看，智能语音数据资源的销售都是主要的收入来源。

来源/海地盛瑞招股说明书

2019年，海地盛瑞还上演了一场科学版的“越狱计划”。7月26日，公司董事会审计状态变更，审计终止，中远软件上市结束。公众舆论认为原因是其核心技术不足。

从已公布的软件版权和专利申请来看，海天声音的大多数技术都用于语音数据采集和处理。可见，公司的核心技术主要体现在录音上

"在可预见的将来，我们必须为人工智能工作."

在电影《她》中，由斯嘉丽约翰逊配音的语音智能系统——萨曼莎拥有极高的情商。为了取悦用户继续订阅，萨曼莎不仅需要让男性主人西奥多完全相信她和人类没有什么不同，而且还要努力让对方爱上自己。因此，她永远不会误解或理解西奥多说的任何一句话。

这是一部2013年的电影。时间到了2019年，这与电影中的愿景相去甚远。

北友人工智能研究所的研究员周舟告诉CNFE，一个好的模型中的数据量基本上在数百万左右，用户自发生成的数据是最符合实际业务的数据。

“机器学习，你教他什么，他就能学什么。以目前的技术，它离强大的大数据学习人工智能模型还很远。”周舟说。

他解释了人工智能的训练过程：“首先，人工智能训练需要一个模型。该模型需要通过一定数量的基本标注数据进行训练，以获得预期的训练结果，例如，天气预报的句子识别率达到60%以上。此时，投入使用时会产生大量的用户数据。这些数据将被甲方——去除敏感性，并删除姓名、地址和其他可能暴露用户身份的信息，然后再次手动标记。

这就把我们带到了用大量廉价标签贴标签的阶段。通过一些标准，高质量的音频被屏蔽掉，因为一些不受欢迎的数据的引入会降低模型的性能。通过这些数据，可以进一步调整模型，使其更适合自己的业务场景，从而形成一个迭代，然后不断循环。"

关于语音交互产品，周舟补充说，如果一个说话者在南方地区销售良好，他们可以调整数据，以获得更好的南方口音识别率。

致力于语音互动产品的企业家告诉燃料金融，目前对智能语音产品的需求是，他们能够理解我所说的，并反馈我想要的。中国文化博大精深，不同的地区有不同的表达方式，生活和书面语言也不尽相同。所有这些都需要在系统中解释。

人工智能的发展需要高质量的数据来支撑，而另一方面，毫无戒心的用户也开始反击。

2019年4月，亚马逊爆炸式发展，在世界各地雇佣了数千名员工来转录和注释回声扬声器捕捉到的录音。

今年7月，苹果爆炸式用户和Siri之间的对话可能会被录制并上传到苹果，苹果会将它们分发给Siri的外包公司进行分析。在公众舆论的压力下，苹果公司表示将暂停其语音分析业务。

同月，谷歌承包商从谷歌主页智能扬声器和语音助手中泄露了1000多条用户与谷歌助手对话的记录。

作为回应，亚马逊、苹果和谷歌基本上同意，“窃听”是为了提高他们语音助手的智能。

尽管大多数公司在发布数据包之前会对数据不敏感，但在用户不知情的情况下这样做是否违法？

对此，具有多年司法工作经验的仲景田萍公司副总监王锴告诉中国国家外汇管理局，收集和获取用户数据的首要原则是获得用户授权，无论是为了盈利还是为了提高服务和产品质量。“即使是不涉及用户身份信息的强制性录音，如‘播放音乐’，在未经授权的情况下也是非法的。”

市场上的大多数产品都使用是否同意隐私协议的内容作为用户授权的方式，但是对于用户来说，虽然选项在手边，大多数情况下仍然处于被动状态，因为大多数产品只有在同意授权后才能使用。

对此，王锴说，从法律上讲，还有另一个问题。即使用户被授权，也应考虑用户是否完全理解授权的内容，授权后是否有清晰的提示和显示，操作是否由自己完成等。

“但回到问题的本质，这是否合法取决于最终如何使用数据。将它转售给第三方或者在用户不知道的地方使用它仍然是非法的。

如果协议没有规定如何使用数据，则处于通知不完整的状态，这也有一些法律风险。然而，目前没有明确的法律规定来规范它。只能说，如果用户能找到明显的侵权证据，那就是非法的。"

燃气财经咨询了小发言人的用户协议和隐私协议。协议显示：“当您激活DuerOS程序或唤醒DuerOS设备时，我们将自动接收并记录您与设备终端交互期间生成的音频、视频和其他相关信息。”

值得注意的是，该协议还规定：“如果您拒绝我们收集上述信息.您将无法获得相关服务。”

小型扬声器用户协议

燃气财经就用户协议咨询了百度和阿里。截至本文发表时，尚未收到任何回复。

一方面，人工智能需要更多的用户数据来变得更加智能。另一方面，用户数据属于隐私，应该受到保护。法律的改进不是一蹴而就的，这似乎形成了一个悬而未决的难题。

你能想出一个大胆的主意吗：人工智能培训在不久的将来将不再依赖大数据？

对此，周舟说，“已经有一种强化学习的方法，也就是说，机器可以通过简单学习的一部分来为自主学习生成数据。阿尔法戈就是这样。”

“但目前，强化学习只能在规则已经确立且奖惩分明的情况下使用，如下棋和游戏。如果犯了错误，机器人可以通过奖励和惩罚来学习。然而，现实更加复杂，很难制定明确的奖惩规则。”

他补充说，未来的确是可能的，但不清楚未来会走多远。至少在可预见的未来，我们还得为人工智能工作。

“在你的手机上发生了什么，留在你的手机上(在手机上发生了什么，让它留在手机上)”这是苹果公司今年早些时候在消费电子展会场外推出的一个巨大的广告口号，目前，这可能只是一个美丽的幻想。

你和人工智能的对话正在被人工监听

栏目推荐