华为云 GaussDB 亮相数据库顶会 SIGMOD2021,解读五大创新技术

近日,在2021ACM SIGMOD国际学术会议技术分论坛,华为云GaussDB内核首席架构师发表了《华为自研分布式数据库》主题演讲,分享了华为云新一代自研分布式数据库GaussDB的发展和使用现状,介绍了其5大创新技术,并解读了华为云GaussDB最新研究成果论文。

2021年,华为云GaussDB研究论文《Learned Cardinality Estimation for Similarity Queries》入选SIGMOD,该论文提出使用DNN进行基数预测,为了解决DNN训练问题,提出了极具创新的模型分割和数据分割解决方法,同时在此基础上提出了使用该方法进行连接操作结果集预测。该方法在BMS、GloVe300、ImageNetde等数据集上取得了很好的效果。

华为云GaussDB内核首席架构师表示,华为从2007年开始进行数据库内核方面的开发,于2011年启动分布式数据库内核研发,2014年发布商用版本的OLAP分布式数据库,2017年发布商用版本的OLTP分布式数据库,2020年发布基于云服务的GaussDB分布式数据库。历经10+年千锤百炼,华为云GaussDB当前广泛应用于金融、政企以及大企业领域,中国头部的六家银行中有四家选择了GaussDB分布式数据库。在全国范围内目前已经有1000+企业级客户广泛应用华为自研分布式数据库GaussDB。在华为内部,终端云服务、流程IT等业务已经大量使用华为自研分布式数据库GaussDB。

基于云化和企业2C业务的快速发展,华为云将GaussDB分布式数据库的竞争力定义为五个维度,即高性能、高可用、混合负载、高安全以及易运维能力,打造了极具竞争力的能力优势。

高性能:华为云GaussDB在充分利用硬件能力基础上,如鲲鹏处理的多线程、原子指令、智能网卡的计算下推、RDMA的短时延高带宽、SCM的字节寻址持久化能力等,在软件技术领域通过动态编译、向量化引擎、SQL By Pass等能力,提供基于鲲鹏2路服务器150万tpmC,鲲鹏4路服务器230万tpmC,32节点全局强一致的1500万tpmC(基于SQL,非存储过程)能力。

高可用:华为云GaussDB提供AZ内、跨AZ以及跨Region等各级的高可用能力。在单AZ内,基于无单点故障的设计,提供RPO=0,RTO < 10秒的高可用能力。在跨AZ场景下,提供同城跨AZ能力以及两地三中心能力,分别提供RPO=0,RTO < 60秒以及RPO < 10秒,RTO分钟级能力。对于有超过2000公里跨Region的需求场景,提供基于全球时钟的全球分布式能力,全局提供强一致性及五个九(99.999%)的可用性。

混合负载:对于企业级数据库来说,混合负载是不可或缺的能力。第一,在实际系统中,很难将客户的实际业务负载区分为纯TP负载或者纯AP负载,例如我们在某银行中碰到的业务基本都是这个状况;第二,业界领先的主流商业数据库都具备混合负载能力。在华为云GaussDB分布式数据库中,我们通过全并行架构以及分布式优化器能力,可以很好地支持复杂查询能力,通过轻量级全局一致性事务协议(也叫GTM Lite)使得系统很好地支持短查询能力,同时系统具备极好的线性扩展性。

高安全:云化系统需要在数据流转的整个生命周期中保证客户数据的安全性,其中包括数据传输、数据存储、数据查询以及数据正确性。对于数据传输和数据存储,这个是常规特性,可以通过传输加密和存储加密进行解决,但华为云GaussDB解决了数据查询和数据正确性方面的安全问题,通过密态查询,即在查询状态下数据始终处于加密状态解决数据查询的安全性问题。通过使用追踪链的方式,在多方状况下能够识别被篡改的数据,从而解决数据正确性问题。

易运维:华为云GaussDB通过将AI能力引入数据库系统从而大幅度提升管理和运维能力,比如通过自调优,极大解放了DBA枯燥的调优工作,使其更聚焦于业务本身;通过引入索引推荐,帮助客户减少83%的索引冗余,索引占用空间减少70%;同时还使用AI技术重构了优化器、自诊断等一系列数据库核心模块。

此外,围绕AI-Native数据库主题,华为云GaussDB基于AI技术,对SQL生成、SQL诊断、优化器等方进行深度研究,目前已经在该领域取得突破性成就,并不断持续创新。值得一提的是,2020年,华为云GaussDB系列数据库产品入选Gartner数据库魔力象限,其技术实力屡获权威认可。

618云数据库专场活动火热进行中,全场低至19.9元,欢迎登录华为云官网活动专区选购。