走进智能数据Fabric——寻找数据价值中的“星”

1944年,电子管计算机MARK-1和MARK-2被制造出来。1964年,划时代的System/360主机问世。1981年,世界上第一台个人电脑发布;2011年,沃森在《Jeopardy!》节目中击败人类冠军,刷新了人们对AI能力边界的认识……这一系列技术创新的背后,总有一个“蓝色巨人”。现在,该公司正计划在2023年推出一款拥有1000个量子比特的量子计算机,引领行业进入新的量子时代。那是IBM。

在110年的漫长历史中,科技行业发生了翻天覆地的变化,许多商业巨头消失,无数行业先驱涌现。在瞬息万变的科技浪潮下,IBM一直通过不断的创新和转型,不断保持竞争力。其实力来自公司3000多名科学家和10多万名研究人员,甚至培养了6名诺贝尔奖获得者和6名图灵奖获得者。2020年,IBM科学家和研究人员获得9130项专利,在所有企业中排名第一。当然,IBM之所以能在每一次技术变革的十字路口找到正确的方向,在于果断的决策和坚定的执行。

“从IBM的技术开发方式和策略来看,主轴始终是稳定统一的。”IBM大中华区技术事业部客户成功管理部总经理朱晖表示,“我们相信,IBM现在是全球领先的混合云和AI技术供应商,并秉承一贯的理念,正在成为数字化转型过程中值得客户信赖的合作伙伴。”IBM的这种变化是从上到下,从内到外。在营销层面,IBM形成了以数字化转型、混合云和AI能力为核心的咨询服务体系,并通过Technology Garage和Design Thinking Workshop与客户进行创新,帮助客户在利用最新技术产生新业务价值的过程中发现和定义新的业务场景和MVPs(最小可行产品)。在产品研发层面,软件产品线基于客户使用场景进行集成和打包,通过Cloud Paks以微服务方式在任何平台上以容器化方式交付。

(IBM大中华区技术事业部客户成功管理部总经理朱晖)

上述变化已经完全融入了IBM的日常走向市场战略。在过去的12个月里,IBM的云业务收入达到了270亿美元,超过总收入的三分之一。超过3200家企业级客户正在使用IBM的混合云平台,4万名用户正在使用IBM的企业级AI技术。与此同时,这些企业也在思考如何在混合IT环境下取得更大的突破,比如,就是以快速、简单、低风险、低成本来构建混合云环境的基础设施;实现智能自动化,专注高价值工作,提高生产力;利用人工智能最大化数据的价值。IDC 2020年初的一份调查报告显示,90%的企业数据要么不可访问、不可信,要么未被分析利用,导致决策障碍极大。面对这些新的需求,IBM提供了一个支持人工智能的数据架构——智能数据结构。

构建数据神经网络。

从20年前的数据仓库到10年前的大数据和数据湖,企业业务的演进促使数据架构发生变化。起初,企业会将每个业务系统的数据提取出来,集中放在几个仓库中,不需要复杂的数据架构和数据模型,因为前期的数据量很小。随着非结构化数据的涌入,大数据处理成为常态,企业越来越重视数据的价值,开始寻找深度挖掘和元数据管理的新工具。因此,数据架构逐渐走向分布式和跨平台。然而,这又提出了一个新的问题:如何解决数据迁移的成本?研究人员如何快速高效地找到正确的数据?如何保证数据安全?

数据结构给出了答案。“简单来说,就是在合适的时间、从任何位置把合适的数据和合适的人连接起来,从而充分释放数据价值,加速企业数字化转型。”朱晖解释道。此外,数据结构以智能、安全和自助的方式动态协调分布式数据源,并提供跨数据平台的可靠数据,从而支持各种分析和应用场景。在工作模式下,Data Fabric不是简单的点对点连接,而是像人脑一样的虚拟“神经元网络”。

对于那些担心数据共享效率和可靠性的人来说,他们可以从Data Fabric中找到新的价值,这样他们就可以更加专注于数据分析,避免数据访问限制带来的数据分析偏差,大大优化数据质量和处理。这种转变离不开企业自动化能力的提升。一项关于企业采用AI的调查显示,在疫情期间,将AI融入业务流程已经成为当务之急。在受访的IT专业人士中,43%的人表示他们的公司加快了AI进程。接受采访的全球近一半的IT专业人士表示,当他们评估AI供应商时,很大一部分人会衡量供应商自动化流程的能力。

IBM智能数据结构的自动化能力体现在四个方面:AutoSQL,可以在不移动数据的情况下实现大规模的自动分布式查询,从而降低了人们掌握数据源的门槛;AutoCatalog,可以根据发现数据和分类的过程实现自动化,分类后建立自动编目,维护来自不同数据环境的数据资产的动态实时编目,实现企业内部不同业务团队之间轻松查找数据;AutoAI实现了模型训练优化的自动化,提高了准确性和可解释性;AutoPriv

acy,实现企业内部敏感数据识别、监控,以及后续政策实施的自动化。

数据经纬的最佳载体

基于开放的混合云平台OpenShift,IBM将Intelligent Data Fabric融入到Cloud Pak for Data中,以容器化产品的方式快速向客户交付。可以说,承载了IBM企业级AI能力的Cloud Paks,是IBM混合云与AI战略的一个重要支点。在Cloud Pak for Data 4.0版本中,整合了AutoSQL、AutoCatalog、AutoPrivacy、AutoAI能力,以及WKC、Watson Knowledge Catalog等数仓、数据治理和机器学习能力。通过在实验室环境中与Snowflake的比较,Data Fabric能够把查询的速度提高8倍以上,成本降低一半。

不过,Data Fabric并不是IBM独有的概念,诸如NetApp、informatica、Talend等IT企业均推出了针对Data Fabric的解决方案,那为什么说IBM Cloud Pak for Data应该是当前业界应对Data Fabric功能最完善的数据平台之一呢?首先,其对于Data Fabric需要具备的四种能力有着较好的支持,包括数据之间的虚拟连接、企业数据目录、自动化数据平台、自动化安全策略,这也使得上述四大自动化能力之间有着更好的“化学反应”。

其次,IBM数十年来的技术积累给了Cloud Pak for Data更多的底气,例如容器化的DB2云数仓、数据虚拟化技术的沉淀,以及结合了机器学习、知识图谱等能力的Watson Knowledge Catalog等等,交付客户上线之初就能确保在数据共享的过程中能符合类似GDPR的数据隐私保护要求。同时,IBM作为一家老牌的专业数据集成的供应商,数据复制和数据集成的自服务能力也在日趋完善。

许伟杰是IBM中国混合云与AI华东及华南大区的总经理,加入IBM已有15年的时间。作为一线的业务人员,他深知企业需求的变化和客户对IBM产品的反馈。“前段时间,我和上海某家著名的医疗大数据公司交流。面临的一个问题是,医院一方面不愿意把数据开放给某个大数据平台,但另一方面,医院又想分析数据,而单个医院的数据量又不够。如果采用了Data Fabric架构,加上IBM的区块链技术,使用类似联邦学习的概念,是不是就能让数据的读写、分析,以及拥有的权限相互独立?这样就把问题解决了。”许伟杰说。

(IBM中国混合云与AI华东及华南大区总经理许伟杰)

12星座中的黑科技

几乎每过五年,许伟杰销售的产品中就会有70%-80%发生变化,这种现象既代表着IBM在不断推出新的技术和产品(很多黑科技产品的销量甚至是前两年的3-4倍),也说明了中国客户的需求和认知能力在快速变化和提升。算法求解器Cplex和Planning Analytics是IBM Cloud Pak for Data包含的两项能力,其中,Cplex在生产环境中计算最优解时有着更好速度和质量表现,在疫情期间帮助不少制造型企业实现了降本增效,例如在一些车企中支持多产线小时级的自动排产、在产销协同系统中做APS模块优化等,实现了单人跟进项目数量十倍的提升。

Planning Analytics是一款AI赋能的绩效管理,主要用于全面预算、投资模拟、测算等领域,底层基于多维cube内存数据库,为企业提供了更强的预测能力,例如帮助芯片制造企业预估三年后给下游厂商的报价,以及与合作伙伴联手帮助房地产公司实现集中供地,在两分钟内算出200套方案,让经营者了解到如果某小区原材料晚进一天,具体到每个房间的成本变化。类似的产品还有很多,像Aspera可以让异国的客户在同等线路和带宽的情况下,数据传输速度提升10-20倍,这种技术还可能用于新能源的OTA升级等更多的场景。

许伟杰希望在IBM的众多黑科技中,挑选出更具创新性且能快速在业务场景落地的产品,并将这一项目命名为“12星座”计划,这些产品与中国客户的需求紧密结合,包括超算调度软件LSF、算法求解器Cplex、集成规划解决方案PA、建模与分析工具SPSS、AI赋能应用资源管理平台Turbonomic、可观测性APM平台Instana等等。值得一提的是,今年上半年Cplex、PA在中国交付的营收已经是去年的三倍。随着越来越多的标杆案例成功落地,将有更多的行业客户借助混合云与AI技术,解锁业务转型过程中的数据价值。

“如果了解IBM的产品就会知道,12星座的产品,在我1月份接手的时候都不是主力产品。但是我有一个梦想,就是可以从我们的宝库里面200多个产品中,挑出12个真正能帮助中国企业带来价值的产品。之后,我希望把这部分的营收做到比传统主力产品的营收还要多,这是我一两年之内的愿景。”对此,许伟杰有着十足的信心。

结束语

未来5年,IBM希望专注做好一件事:那就是利用IBM的平台、软件、硬件、服务和生态的全方位能力,成为企业数字化转型的最佳技术伙伴。Data Fabric的出现,正是为了帮助企业在茫茫的数据浪潮之中,找到最具价值的“那颗星”。而就像朱辉所说的,这条围绕数据价值的技术创新之路将会一直走下去,利用混合云和AI技术,让数据更公开、更民主、更安全,更能被普适的使用,让更多的人和企业充分享受到数据的价值。(作者:中关村在线 徐鹏)