当人工智能数据服务进入中场战争

毫无疑问,飙升的数据量是人工智能行业爆发的原因之一。很快我们就会发现,数据收集、整理、清理、标注,然后转移到人工智能企业进行模型培训,已经成为一个顺畅的产业链。

长期以来,数据服务一直处于粗放和原始的状态,甚至有一个“数据农场”的说法:数据服务从业者从各种公共数据集或移动互联网产品中获取数据,雇佣大量廉价劳动力以几乎零门槛的形式进行简单的清洁和贴标工作,例如,在照片中查看天空在哪里,地球在哪里。最后,将这些粗略处理过的数据放入神经网络的黑盒中。

但是现在,我们已经看到当前的形势正在发生变化。人工智能企业对数据的应用需求逐渐开始分化。以前粗放型的处理模式已经不能满足他们的需求,从而刺激了人工智能数据服务市场。潮水汹涌而至,让沉积物沉淀和清理。云计算下的人工智能数据服务品牌云测量数据的出现就是一个典型的例子。

这一次,我们采访了云测量数据的总经理贾晓阳,听他谈论他所看到的服务于战争中期的数据。

汹涌澎湃的数据服务战场

如果数据是人工智能的营养成分,那么营养成分自然决定人工智能的强度。算法模型的准确性及其对不同环境的适应性几乎都来自原始数据的积累。

人工智能行业是最先改变的。清华大学发布的《2018年中国人工智能发展报告》数据显示,去年中国人工智能产业的市场规模达到237亿元,同比增长67%。据估计,2019年中国人工智能产业的增长率将达到75%。

工业规模的爆炸性增长意味着竞争将更加激烈。面对这种竞争,人工智能公司对数据的需求将不可避免地发生变化。

5d5d2d9a7e88c.png

例如,企业渴望更精确和定制的数据。

真实场景的环境总是比实验室里的想法更复杂。为了提供一个具有更多落地和差异化优势的模型,仅仅依靠基于移动互联网数据或众包用户数据收集的数据显然是不够的。只有通过定制的数据收集和对人们除了他们自己什么都没有的细节和场景的不断渗透,我们才能不断提高技术价值和立足当前。

例如,企业渴望获得更专业和垂直的数据。

随着人工智能技术深入到各个子领域,许多数据标注工作必须由专业人员来完成。例如,医学图像数据的标记,以及对工业生产线中各种材料的理解。这些不再像过去一样,可以通过召集一群普通人来完成,相反需要的是业内专业人员来进行相关的处理。如何满足这些需求是数据服务企业和人工智能企业都在思考的问题。

以及企业日益增长的数据安全需求。

除了提出传统的数据安全要求,如数据隐私,一些企业已经开始开发自己的硬件,以突破现有模型的限制,走向多模式集成。或者,如上所述,专门收集一些定制的专业数据。此时,这些数据将成为企业构筑自身核心壁垒的发展方向。从那时起,数据安全就成了重中之重。

另一方面,人工智能数据服务企业也是如此。

人工智能数据服务公司意识到,越来越多的人工智能公司对数据准确性、安全性和标签效率提出了更高的要求,人工智能公司开始倾向于与大公司合作,对数据服务公司进行尽职调查,建立供应商名单等。这意味着数据服务企业必须加强自身的技术能力,促进管理的标准化,以满足新的需求。

中场战争的号角已经响起。这场战争决定了人工智能数据服务公司的生存,也是它们力争上游的重要机会。

云数据的挑战逻辑

云数据是数据企业的代表,他们在战争中变得越来越好。

自移动互联网时代以来,云测量已经从手机APP测试作为一个切入点进入企业服务领域,以保护移动互联网应用在真实场景中的使用。在人工智能时代,云测量数据(cloud measurement data)是云测量旗下的人工智能数据服务品牌,它帮助大型企业获得接近真实场景的准确数据,并帮助人工智能在真实场景中落地。

对于人工智能企业来说,自建的数据处理团队可以满足需求,但资金成本和技术门槛相对较高。然而,数据行业中常见的众包模式,如亚马逊机械土耳其,可以在平台上完成大量数据,但无法处理定制的场景数据。

而云数据,则是针对定制数据市场,打磨出一套自己的战斗逻辑:

首先,通过产业链的延伸来满足企业丰富的业务需求。

云测量数据发现,当人工智能企业对算法着陆的要求越来越高时,他们需要更多接近真实场景的数据来满足要求。贾亚航提到,互联网上积累的数据和众包数据不足以支持现阶段安全或金融所要求的人脸识别的安全级别。多维和精确的数据,例如在不同光照条件下从不同角度获得的面部数据,是最好的药物。面对这种情况,数据企业有必要延伸产业链,进行定制化的数据收集。除了安全和金融领域,云测量数据还将涵盖辅助驾驶场景中的驾驶员表情、新零售场景中的角色服装、智能生活中的音箱唤醒词、智能行业中的质量检测等场景。涵盖了这个阶段的大多数着陆场景。

5d5d2d9b1b5e7.png

第二,重视人员培训,提高标注的准确性。

在意识到定制数据对人工智能企业的重要性后,云测量数据开始关注培训和提高员工素质。不仅建立了数据库,对贴标人员进行了贴标技能的教学培训,还积累了各相关行业的专业知识,确保贴标人员对贴标任务的理解。如果自动驾驶数据标注涉及交通法规和驾驶经验,云测量数据将由具有丰富驾驶经验的标注管理人员提供,定期向员工解释,而其他行业将逐渐需要“老司机”的介入来提高数据的准确性。

第三,坚持安全底线。

最后但同样重要的是,这里有安全。首先,云测量数据的核心价值是让企业拥有数据,为企业构筑核心竞争壁垒。因此,数据安全性是一个核心指标。为了保证人们数据隐私的安全,云测量数据不仅在硬件和操作系统上采取加密措施,密封了USB接口,使用内网浏览器操作标注数据,保证所有参与工作的员工只能操作数据而不能获取数据,并且在每次标注任务传递数据结果后销毁数据。不仅保护了数据隐私,还保障了人工智能企业的利益。

中场大战改变了什么:人工智能数据服务行业的下一幕

贾亚航告诉我们,云测量数据的发展目标是在更细分的领域积累更深的领域知识、更准确的数据和更安全的数据。有了这三种能力,云数据可以准确地抓住数据服务回路中的变化机会。为了解决人工智能企业希望依靠独特的专业数据来提高自己的技术能力和无法建立数据团队的问题。

我们也担心中场战争后数据服务行业会发生什么。

在一次采访中,玉伽向我们提到了一个有趣的事实:目前,他们所服务的甲方除了一些技术巨头之外,还有许多传统企业。

5d5d2d9b7e4c6.png

这一事实反映了越来越多的企业参与人工智能,其类型也越来越丰富。将会有对技术一无所知的小型传统企业,扎根于农业和化学工业等细分行业的企业,以及依靠大量数据积累和提炼人工智能技术的技术巨人。他们对数据类型的需求将变得越来越详细、专业和垂直。在这种趋势下,数据和算法之间的产业分工将逐渐变得清晰。或许数据公司需要“伸出更长的手”来更好地为他们服务。

据信,在中期战争的转折点之后,数据服务行业将从简单的劳动力演变为技能、专业和垂直。

对于数据服务行业来说,这也是一个重组的过程。超过一半的工业发展旅程,真正的竞争才刚刚开始。数据服务业作为人工智能的“源头”,也为人工智能在优胜劣汰后的发展提供了更强的推动力。