作者老鱼
不知不觉,华为携GaussDB正式产业化运作已经有两年多了。这两年,国内数据库市场在多维度发生着巨大的变化,国际局势、疫情、数字化转型、信创等加速了全社会对国产数据库的认知和接受程度,而GaussDB自身也变化极大。
-
2019年5月15日,华为正式推出GaussDB数据库,当时老鱼有幸采访到了GaussDB多位骨干研发成员,并写下了《华为“高斯”战记》。
-
2020年5月初,华为GaussDB做了战略升级,覆盖关系型、非关系型数据库以及生态工具类产品,聚焦客户业务,打造全场景云数据库服务。
-
2020年6月30日,华为正式将GaussDB单机主备能力开源到openGauss社区,鼓励有能力的合作伙伴打造基于openGauss的自有品牌商业数据库。
……
这些变化与调整的背后意味着什么?显然,是华为对数据库的思考在变化,随之而来的是发展策略也有所调整。GaussDB为什么会并入华为云?华为为什么要开源openGauss?openGauss与GaussDB是怎样的关系?GaussDB未来将如何发展?这些就成为外界关注的焦点。
在刚刚结束的DTCC2021大会上,老鱼带着很多问题及想法,围绕数据库产业趋势及华为战略,华为数据库基础研究方向,GaussDB商业实践及生态建设,与华为云数据库首席架构师冯柯、华为云数据库副总经理丁晨进行了一场深入交流。
华为对数据库的思考及战略现在谈论数据库不可回避的需要讨论的另一个话题,就是云计算。
云计算给今天的中国数据库产业带来的不仅是技术上的更新,更重要的是商业模式的重塑。在云化大潮下,作为信息系统核心软件的数据库发展出了云数据库的技术路线。
Gartner预测,云将主导数据库市场的未来,到2021年,云数据库在整个数据库市场中的占比将首次达到50%;到2022年,75%的数据库将被部署或迁移至云平台。
冯柯表示,这几年我们能够越来越深刻地感受到整个行业在全面走向云化,即使是一些传统的政企企业,它的整个数字化也在不断加速。这当中我们也看到了很多客户,他们已经完成了从ON Cloud到IN Cloud的转变,可以说如今业务是真正生于云、长于云。
中国云计算产业已经逐步进入下半场,冯柯指出,进入下半场一个很明显的特征是大中型金融政企的应用加速云化,而这将主导云数据库市场高速增长。
华为预测,大中型金融政企客户在云数据库方面的支出会占到整个中国云数据库市场的3/4,其中OLTP类型数据库市场空间为60%,OLAP为23%,NoSQL为17%。
冯柯强调,华为对于整个中国数据库市场是坚定长期看好的,所以,会持续战略投入去做。而基于对整个行业的趋势的判断,华为对数据库进行了战略聚焦,即把云数据库作为华为在数据库方向上的主赛道,虽然冯柯并没有直接回答,但老鱼认为,这或许就是为什么GaussDB会并入华为云的主要原因。
华为数据库发展战略,用一句话总结即“发挥软硬件全栈优势,共建开放生态,打造GaussDB全场景云服务”。
数据库是一个非常有黏性的行业,因为数据是核心资产,牵一发而动全身,直接影响客户业务,所以一旦上去,基本就很难下来。数据库行业发展的这40年来,以Oracle、SQL Server为首的主流数据库占据了大量的数据库市场,但也带来了很多问题。尤其是这两年来和A国的科技战,卡脖子问题,所以无论是国产化,还是行业,都需要开放的生态,不能从一个传统封闭生态再走向另一个封闭生态。
而华为开源openGauss,其核心主要两点,其一、华为在拥抱MySQL等开放生态的同时,也会以openGauss开源生态为主体,打造开放的数据库生态。其二、支持客户多样化(非云)的诉求。
未来投入数据库六大技术方向基于新需求、新场景、新技术,最终,华为选择了六大数据库领域基础研究方向来构筑竞争力,这是此次大会上,华为透露出的另外一个要点。也就是说,未来华为在数据库上将在这六个方向重点投入,打造根技术的竞争力。
一、高可用
高可用是目前大多数金融政企客户首要关注的问题,特别是对于多地、多中心容灾有要求的客户。冯柯表示,针对这样的客户,华为云数据库已经提供了多种解决方案,如支持同城双活、异地容灾、两地三中心的解决方案,支持同城双活强同步的解决方案,支持异步数据复制、多地多活的高可用解决方案。
在这当中,华为两地三中心的高可用解决方案已经在国有大行,从A类到D类全类业务进行了验证,满足金融监管的要求。基于双集群RPO=0的方案,华为也即将迎来正式投产。在所有的解决方案当中,华为既提供通过软件机制本身来实现高可用解决方案,也提供基于华为企业级存储,通过软硬协同实现的高可用解决方案,以不同的解决方案来满足不同行业、不同客户对于高可用的需求。
面向未来,华为也在探讨物理距离在一千公里以上,真正具备全球部署能力的多活架构。
二、软硬深度协同
得益于华为从芯片、服务器、存储、网络、操作系统、数据库全栈软硬件能力,华为云GaussDB可以实现软硬件垂直整合,提升性能和高可用能力。
首先,数据库的持久化逻辑,深度整合到了计算与存储分离的技术底座中,基于这样一个公共技术底座,华为云数据库全系列产品都可以获得在容量、弹性、扩展性方面的巨大提升,同时能提供给客户一致的体验。
其次,据冯柯透露,华为这两年的投入重点是把数据库里的各种计算逻辑,从计算节点卸载下来,下推到存储当中去,特别是对一些复杂的查询处理,同时叠加并行处理能力,使得这些计算逻辑能充分利用下面整个存储池的能力,同时最关键的是能做到对业务透明。
第三,就是高性能,高性能的实现除了IO聚合之外,单条交易的本质就是网络的时延和处理的时延。所以,网络对于分布式数据库的时延(性能)影响是巨大的。
总而言之,软硬协同带给我们的不仅仅是性能扩展方面的优势,更是可以通过软硬协同打造真正企业级的可靠性。
三、企业级混合负载
为什么会将混合负载(HTAP)作为华为云数据库根技术方向之一,这样选择的背后有着怎样的思考?冯柯表示,这是因为性能对今天的金融政企客户来说,有两层重要的现实含义:
第一层:性能提升能够真正降低业务迁移的风险,过去一直在谈怎样降低业务迁移风险,谈怎么提高产品的兼容性,怎么保证数据迁移的质量,可是会有怎样的风险比性能不足而导致业务必须在架构上做重大变更所带来的风险更大呢?用户增长已经非常确定的说明了这一点,这是第一层含义。
第二层:对分布式数据库而言,在分布式数据库上性能意味着什么?意味着成本。在很多实践中,华为发现一个规律和问题,就是当把客户基于主机或者基于小机的业务下移到开放式的分布式系统中,很多时候客户成本反而上升了,这是非常有意思的话题。
通过对这些问题反思,华为明白了一个道理,这个行业最终还是要回到对于数据库本身能力的关注上。
四、云原生多主
单一架构其实并不能解决今天行业所碰到的所有问题,这两年,华为也在打造另外一款基于云原生的多主架构,希望通过这种架构能够解决两个阶段的问题,冯柯说。
第一个问题,是高可用的问题,华为希望能基于多主架构,能解决切换时业务中断的问题。
第二个问题,是扩展性的问题,华为希望基于多主架构,融合软硬协同的进展,真正能在计算节点以下,在巨大冰山水面以下的部分持续提升这个产品性能和弹性,最终,华为希望提供给行业客户另一种选择,一种不需要通过数据拆分也可以获得透明扩展能力的选择,从而更好的匹配另外一些行业客户,特别是一些传统的政企客户的模型。
不久前,华为也发布了基于多主架构的路线图。据了解,华为计划到今年年底或者明年年初,会正式将基于这种架构的第一代产品投入商用。
五、数据安全与可信
当今世界,每个组织,每个国家,每个人都在关注安全、合规和隐私的问题,几年前数据无保护随意使用的红利是不可能了,这也促进了技术的进步和落地。
未来,全行业都会面临越来越严格的对于可信安全方面的要求。
全密态是华为数据库为了提升隐私保护能力研制的一项关键技术,全密态跟以前谈论的脱敏加密不同,数据存储和传输过程中是匿名性存在的脱敏加密,全密态支持数据在整个计算过程中同样是以密钥形式存在的,这就实现了让整个敏感数据在全生命周期当中都得到保护。华为希望通过全密态的技术能够给对于安全可信,有更高要求的应用场景更多选择。
如果把云数据库看成是一种基础专利,这种基础专利供给方和需求方之间不需要事先建立可信关系,就可以达成服务契约,华为希望通过这样的技术,通过在整个安全可信方面的投入来拓展今天的云数据库,整个云基础设施的业务边界,这是华为想做的事情。
六、AI-Native(智能运维与调优)
云计算所带来的规模化挑战,在运维侧的复杂度和运营成本是今天所有云服务提供商面临的共同挑战。
另一方面,由于分布式数据库自身架构决定,在开发侧,运维侧复杂度的增加,这种复杂度会反过来阻碍架构实践在行业进一步的应用,而解法就一个智能化。
华为在智能化进展体现在2个主要运维场景,其一,参数自调优,通过深度学习/强化学习与全局调优算法,已经覆盖了500+重点参数。相比DBA人工根据经验调优,性能提升30%的同时,耗费时间从天缩短到分钟级。
其二、智能索引推荐,通过启发式推荐算法,实现了语句级和负载级智能索引推荐,将效率从小时级提升到秒级,并在benchmark测试中实测性能提升了约40倍。
同时,GaussDB还在分布列推荐、慢SQL发现与诊断、负载趋势预测与异常检测等领域,引入AI技术,大幅提升管理效率。
华为这两年正在持续将AI技术融入数据库内核中,实现数据库自动优化与调优等功能。
华为云数据库竞争力在冯柯看来,华为云数据库的竞争力有三个方面:
其一,研发投入,华为在数据库研发投入上是世界领先的,布局了全球7大研究所来构建数据库研发能力,包括(爱尔兰研究所、欧洲德国研究所、以色列研究所、俄罗斯研究所、印度研究所、中国深圳、北京、上海、西安研究所、加拿大多伦多研究所)。长期的战略投入保证华为在数据库专家人才方面储备充足。根据了解,目前华为荟聚了全球1000+的数据库专家人才。
其二、技术战略布局,华为在整个基础软硬件的基础上,如芯片、存储、网络、操作系统、数据库有着完整的软硬件布局。这意味着华为可以通过软硬的全栈系统,来打造全场景的云服务。
其三、生态,数据库生态是数据库重要的一环,也是华为今天最大的优势,冯柯说, GaussDB从一开始就注重生态和社区的构建。华为做生态是认真的且富有经验的。冯柯强调,最关键的一点是,华为把生态当做业务来做,而且首先需要解决生态中怎样实现商业利益共享,华为愿意去跟伙伴分享市场机会。目前,已经有12家DBV基于openGauss社区版发布了自己的品牌数据库。
应对线下市场之争云数据库上半场,是线上市场(公有云)之争,目前大局已定,云数据库之战逐步进行到下半场,即线下市场(私有云、混合云)之争。
线下市场之争,华为云又将如何应对?冯柯强调,华为战略聚焦云数据库,云数据库包括公有云服务,也包含专有云、混合云服务。华为舍弃的只是线下纯软件(光盘)销售和交付,而非云部署方式。华为云数据库副总经理丁晨也强调,华为并没有舍弃线下市场,而是通过华为云Stack+GaussDB部署到客户数据中心,为客户提供与华为云一致的服务体验。
线下市场对于有着ToB基因的华为无疑是优势领域,IDC2020《中国关系型数据库软件市场跟踪报告》显示,华为云Stack在中国政务云,金融云市场长期保持市场份额第一。GaussDB数据库在中国关系型数据库本地部署市场中,国产第一。
面向金融政企市场,华为云Stack+GaussDB,为客户提供符合政策监管要求本地部署的云服务。目前,华为云GaussDB已经在助力国有大行核心交易与数仓系统分布式改造,并已经在4家国有大行和多家股份制银行商用,并通过联创攻克关键核心技术。
最后,丁晨强调,国产数据库完全能满足企业核心业务需求,只不过相对Oracle而言,国产数据库还没有那么完美,这需要时间,现在最欠缺的是信心,而信心是需要时间来培养的。