数据决定人工智能的前景 测试云测量帮助行业落地

尽管“人工智能第一年”的噱头早在2017年就开始了,但直到最近,业界才最终承认,各种技术落地的2019年才是真正的“人工智能第一年”。今天,当“互联网”成为一个传统产业时,诸如无人驾驶、智能家居和基于各种人工智能技术的新零售等新概念相继出现。然而,物流和制造业等传统行业并没有落后于时代潮流,而是在寻求升级其行业,并借助人工智能实现智能化。然而,在压倒性的智能化趋势之前,数据标签服务在人工智能行业中扮演着关键角色,是真正的“隐形钥匙”,它总是隐藏在幕后,以建立技术基础,辅助技术实现地面支持。

过去,数据标注行业很少出现在人们的视野中,但行业有着同样的共识:没有好的数据,人工智能就没有未来。

这句话一点也不夸张。到目前为止,我们所看到的人工智能已经从枯燥单一的计算中跳出来,转变为一种基于深度神经网络的新型智能系统,它对数据有很强的依赖性。因此,人工智能系统可以通过对海量结构化和半结构化数据的有效深入分析和隐性知识的挖掘,将海量、复杂、多源的语音、图像和视频数据转化为语义清晰的机器可识别信息。然而,不够精确和足够的数据将导致人工智能的识别和学习系统的混乱和错误。在谷歌发布的美国有线电视新闻网的报告中,提到了一个严重的问题:自动驾驶车辆的识别系统很难区分同一个灵长类动物中的黑人和大猩猩,因此黑人的识别率将比白人和黄种人低10%。如果使用更多带有精确标签的数据,这个错误可以大大减少。

事实上,在自动驾驶领域,准确、海量数据标注的价值不仅体现在识别上,而且在逐渐成为汽车标准的辅助驾驶方面也有很强的存在感。在辅助驾驶过程中,有一个关键的功能叫做驾驶员疲劳检测,它通过视觉识别来监控驾驶员的状态,以识别他是否分心、打电话或打瞌睡。在辅助驾驶过程中,驾驶员也可能会失去注意力。经过更加详细和精确的数据标注的介入,识别系统被赋予了一系列的功能,如疲劳监测系统、危险动作监测系统等。用户在享受便利的同时,还能使道路行驶更加安全,解决此类问题,自动驾驶和辅助驾驶可广泛推广应用。

在高科技产业的实际落地中,数据的重要性是显而易见的,而在帮助传统产业走向智能化的同时,数据标注也有着广阔的实现前景。一个很容易被察觉的变化是,当我们给银行、通信运营商打电话或接到他们的服务电话时,我们会发现许多代理已经成为人工智能语音助理,能够准确识别来自世界各地的方言提出的查询。这是由于在数据标签的方言识别方面的突破,这使得代理能够从简单的问题或通知通信中解脱出来,并将精力集中在更难处理的特殊问题上。这不仅提高了代理的工作效率,而且减少了机械劳动的投入。

「我们的使命不仅是服务高科技产业,支持和推动传统产业的智能升级,也是我们的使命。通过高纯度数据标签服务,高技术产业和传统产业都可以获得智能升级的机会。”德信云测量的人工智能数据服务(数据注释收集)品牌——的云测量数据总经理贾亚航表示。

传统数据标注的创新与技术变革

尽管数据标签行业没有科技公司那么有魅力,但它一直处于幕后默默无闻。根据2018年智力研发布《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》,近年来数据标注和审计行业发展迅速,2018年市场规模达到52.55亿元。在这样一个增量市场中,大量看到企业需求的员工涌入行业,导致整个行业的质量良莠不齐。广泛的、混乱的和可重复使用的数据经常出现。在贾雨航看来,将这些数据导入机器学习弊大于利。

“人工智能开发和数据标签行业是一个鸡生蛋、蛋生鸡的逻辑。如果数据不够纯,就像人们吃碎了的食物,只会产生症状,不能起到吸收和利用的作用。当它用于机器学习时,会破坏人工智能的数据学习系统,产生较大的误差。错误产生后,后续的自主学习就会偏离,形成恶性循环。”

面对这样的问题,云测量数据提出了一系列对策。

为了满足不同场景的特殊需求,云数据建立了自己的场景实验室,模拟各种细分场景的无噪声专有数据。在数据标注行业中,在普通场景下,特定场景的数据总是不可用的,例如道路上的坠落场景。如果真的检索到特定道路摄像头的数据,满足“行人坠落”要求的图像可能很难在1000分钟内捕捉一次,甚至无法满足不同角度、不同时间段、不同年龄、不同服装、不同性别的学习要求。面对这种明确的需求,云测量数据将建立一个特定的场景棚,邀请不同的“演员”来模拟不同的收集形式。为了收集不同情绪在面部特征上的表达,云测量数据甚至在横店设立了数据场景实验室,专门邀请横店加贺面部表情来记录准确的情绪,以满足企业识别情绪场景的需要。

完成数据收集后,标记过程仍然面临挑战。在越来越多的数据标注企业中,传统的标注工具“小米加步枪”仍被用于标注数据,而云测量数据团队开发的标注平台在满足人工智能数据的图像、文本和音频三个维度的同时,率先实现了全类别支持。在实际生产过程中,对于一些特殊的标注,如自动驾驶中的三维模型,由于文件大、渲染速度慢,标注效率很低。然而,这个自行开发的注释工具中包含的渲染引擎可以确保整个过程的平滑和快速。通过此类工程研究和开发,云测量数据可确保其在面对客户定制需求时能够及时到达并做出响应,从而提高服务能力和效率。在保证精度的同时,减少了人为因素可能造成的误差,保证了成本的降低和效率的提高。

在数据标签行业,复制数据拷贝非常简单,可以节省大量的人工成本。这已经成为业内众所周知的“潜规则”。作为主要参与者的云数据,核心原则是确保数据隐私和安全,首先要做的是永远不要重用数据。由于有很强的自我调节意识,云测量数据在交付定制数据后不会留空,而是会被完全删除。第二是确保数据隐私。与数据收集的所有用户签署数据授权协议,包括欧盟GDPR协议,以确保人工智能企业用于培训的数据符合法律规定;第三,建立相关的数据安全机制,如防火墙设置,内部信息系统的管理和保护,每个终端还没有连接到互联网,USB接口的封锁和其他管理,从源头上确保客户的数据安全。

“总的来说,人工智能数据行业没有统一的标准,也不重视安全性和隐私。然而,从长远来看,我们一直在努力为行业服务,并从隐私和安全保护的角度建立数据质量基准。只有以这种负责任的态度为客户服务,我们的行业才能“驱逐好硬币和坏硬币”,真正使人工智能成为新一轮技术革命,改变整个社会和人类进程”。cloud张鹏飞说:

告别“血汗工厂”,推动培新打造人工智能

尽管已采用各种技术手段来增加贴标行业的技术含量和安全性,但由于该行业的低调,外界对该行业仍有误解,认为数据贴标是“人工智能行业的富士康”,与人工智能“去人工化”的本质背道而驰。事实上,在云测量数据的每个标签基地中,由近1000人组成的标签团队并不是人们固有印象中的“血汗工厂”。云调查数据非常重视标签人员的专业培训,并致力于使用自主开发的标签工具和其他技术手段来减少数据标签中“人”的重复。

从技术角度来看,自主开发的云测量数据标注平台将根据实际使用中的反馈,以每周甚至更快的频率进行更新,以符合标注平台更人性化的使用。基于过去几年云数据的大规模技术更新,结合更多的登陆场景,数据标注的技术含量也在不断提高。

从管理的角度来看,在过去,数据标签行业经常面临对“血汗工厂”的误解,有着黑暗和机械复制的固有印象。然而,事实上,云测量数据的标签基础采用八小时工作制,并且还提供膳食补贴,以使员工能够吃到安全和充足的工作餐。此外,标记人员还将在云测量数据方面享有完善的推广机制。从标记人员到审计员、项目助理和项目经理,云测量数据提供了清晰的职业道路,并致力于在职业规划和职业发展方面协助标记人员。对于近1000人的就业规模,贾亚航认为这并不违背人工智能的本质:

“人工智能是很做作的,这句话太片面了,它也在创造更多的就业机会。就像工业革命到来后,许多手工业作坊消失了,但我们也看到更多的人参与到工业革命创造的其他行业中。人工智能的出现也扩大了人类的生产力。我相信人工智能实际上会取代许多重复性的工作,但我不认为人们的工作会变得更少。数据标注就像工业革命一样,创造了更多的就业机会,促进了行业的技术升级。”

从云测量数据的角度来看,将技术升级引入数据标注的过程不仅解放了重复劳动生产率,还极大地促进了行业发展。在云测量数据中,有一句谚语叫“一横一竖”。一个水平意味着越来越多的行业将引入人工智能,而云测量数据将继续在更多领域发挥其作用,如驾驶、家庭、零售、金融和智能城市。一个垂直是指深入挖掘行业趋势,结合该领域的相关知识,提高人工智能数据的准确性和效率。

未来,云数据希望通过人工智能数据服务的支持,沿着人工智能的发展路线前进,推动不同行业积极拥抱智能,帮助各行各业发展。在这种趋势下,紧密联系产业链上游和下游的云测量数据已经准备就绪。在潜在的爆发机会中,云测量数据已准备就绪,为行业变革积累了可观的潜在能量。