工程项目 | 联系我们 您好,欢迎访问杏彩网官方网站,我们将竭诚为您服务!
专注带压施工 工业设备修复 带压开孔 带压封堵 带压堵漏
全国咨询热线:18920585015
您的位置: 首页 > 杏彩网页登录
杏彩网页登录

联系我们contact us

杏彩网
地址:天津市河东区晨景大厦12层
联系人:高经理
电话:18920585015
手机:18920585015

杏彩网页登录

浅谈软件国产化对数据技术发展的影响

时间:2024-04-03 06:51:54 来源:杏彩网页登录 点击:186次

  长期以来,国内数据技术都由海外厂商主导。然而随着国际竞争环境日益激烈,争端所引发的技术卡脖子事件频发, 2022年3月Cloudera宣布停止对CDH技术上的支持以及Apache Log4j引发严重安全漏洞的问题,企业对核心技术自主可控的意愿急迫,国产化替换需求慢慢地加强。本文将探讨国产化趋势下,大数据平台该何去何从。最重要的包含以下几大方面:

  从2020年至今,随着中美贸易战的一直在升级,美国商务部限制美企对华为、中兴、大疆等企业的各种零部件出口。此外,俄乌战争导致Oracle、Apple、Google等被限制向俄罗斯出口。面对特殊的大环境,全球化带来的科学技术创新共同体背后,国家IT产业实现自主可控的重要性不言而喻。

  2021年底爆出的log4J漏洞,因使用率较高且没有修复方案,尤其对于一些信息安全要求比较高的金融或政府类单位来说,影响区域极大。对于一个产品来说,若无法掌握源代码,那只能通过等待发版或者一些治标不治本的封禁手段来修复漏洞,然而大多时候产品的发版速度跟不上实际应用节奏,因此急需一个可以掌控的技术环境,能满足我们对安全的要求。

  我国在软件国产化方面正在向自主可控方向发展。芯片领域如飞腾、鲲鹏、龙芯、海光等;服务器PC产品有华为、浪潮、新华三等。数据库也正在往国产化方向发展,如OceanBase、PostgreSQL、TiDB、达梦、人大金仓等。

  为确保国家信息安全,政府部门出台了一系列的有关政策以支持IT系统的国产化。政策导向也在鼓励国内的各行业向自主可控方向发展。

  《数据库导论》的作者Andy Pavlo称国内大部分自主可控的数据库系统都是从MySQL或者Postgres的分支上发展起来的,这些数据库算不算国产化?

  国产化的核心并不是从0到1的建设,而是能够掌握源代码,深入理解其原理和实现,对不合理的内容做改造,并在此基础上进行更多的优化和功能增强。这就是软件国产化自主可控的表现。

  软件国产化自主可控另一个方面是整个软件生态的建设,通过做一些工具让生态闭环更加完整,在兼容老的生态的基础上构建自身生态。

  操作系统领域:作为软硬件的纽带,国内如中标麒麟、统信UOS、OpenEuler等都有了不错的发展。

  数据库领域:大批数据库厂商不断涌现,如OceanBase、TiDB、GaussDB及达梦数据库等。

  经过一段时间的发展后,我国在软件方面产品的成熟度以及认知度日渐提升。从图表中能够正常的看到,2021年OpenEuler在金融行业的装机量占比23.3%,金融机构的操作系统正在慢慢的向国产化方向转变。数据库方面虽然也有部分机构做了一些替换,但是案例较少,原因主要在于金融核心交易系统的稳定性是第一要义,新研发数据库产品对于上层系统的兼容性难以完全覆盖,如果出现问题,可能会影响整个交易链路,这对于金融机构是不能接受的。

  中国信息通讯研究院在2019做了一个关于国内大数据平台发行版本的统计,其中超过70%是在CDH 或者HDP的基础上包装成产品对外提供的,24%是在Apache开源产品上做一些加工,6%的版本是自研产品。从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,并且只可以通过付费墙进行访问。这说明大数据平台免费的时代将要终结。

  大数据平台正在慢慢向付费方向切换,如果继续保持版本不变 ,由于官方不再提供服务,则可能会存在严重漏洞及性能上的不足,对于安全要求比较高的金融或政府行业来说,在生产上存在比较大的风险。

  如果做升级改造,也会存在升级风险,对于一些服务不可中断的行业,需要一个更平滑更稳定的迁移方式,同时上层产品的兼容性也是一个重要的考量标准。

  网易数帆从2009年就开始研发大规模分布式系统,2015年大数据平台、数据可视化平台上线,经过十多年的发展,已形成从数据存储、数据治理、数据研发、数据展示的完整的解决方案和产品架构。

  网易有数基础团队主要负责集团内部大数据平台内核底层技术的研发,如Hadoop 、OLAP 、Impala 、Spark 等,还贡献了Apache的 Kyuubi 项目,是支撑网易数帆产品的底层基座。

  在持续保持良好的核心技术支撑的同时 ,有数平台同时还在积极做国内信创安全适配,通过一系列的技术改造,有数整体平台能够兼容包括华为鲲鹏芯片、麒麟操作系统等符合信创要求的基础设施。有数平台后续的发展会致力于搭建更兼容的平台架构。

  数帆有数平台融合了网易10多年的平台建设经验,依托社区优势,致力于打造自主可控的数据底座,并实现易用性、稳定性、安全性等的升级。

  有数平台还会在开源大数据框架的基础上做一些增强,如Hadoop的回收站功能、Impala的虚拟数仓隔离和负载均衡、Spark的权限管控和 Ranger 兼容、Hive的负载问题等。

  Impala 的增强体现在把所有的节点通过 group分组,对不同业务进行隔离,从而避免业务之间的资源冲突。同时也通过自研管理服务器进行SQL审计,通过收集查询习惯进行预计算,由此减少部分查询对整体的影响。

  此外在HDFS上也做了增强回收站的功能,经过仔细修改 HDFS源码,确保删除数据首先保存到回收站,防止数据异常删除。

  有数平台还提供三位一体的服务支持。技术人员帮助客户快速熟悉产品,使得用户遇上问题可以有效解决,用户遇到故障时,运维人员能快速主动提供运维增值服务。此外还提供研发兜底机制,如果出现内核层面的问题,研发团队会快速响应进行修复。

  平台支持Apache Hadoop、CDP、HDP等的迁移。在Hive元数据迁移过程中需要仔细考虑元数据兼容性问题,业务数据的迁移主要是通过镜像后定时增量拷贝的形式同步数据,同时提供迁移工具进行权限的一键式迁移,我们还构建了调度平台,并提供Oozie调度任务的迁移工具。

  A1:CDH迁移涉及到平台的构建、兼容性的迁移等等,由于迁移过程的复杂性,我们会针对每个用户设计迁移方案,按照每个用户的使用习惯进行迁移。

  A2:第一个关注点是目标供应商对大数据平台的自主可控能力,是否有对底层源码的一个掌控能力。第二个关注点是供应商能否完全兼容平台的平滑迁移。

  A3:数据中台主要做数据研发、数据质量、数据服务的事情,各个业务单元所提供的数据口径是不一致的,数据中台可以将数据口径进行统一,这样做才能够在权限管控、质量管控、资源管控等方面做更好的控制。

  A4:CDH+ cloud manager是商业化的产品,HDP+Ambari是开源的,这也是大家都选择的原因。CDH更改了扩展后,若使用Ambari属于盗版行为,会被追究法律责任。数帆也是因为Ambari 的问题,基于hadoop官方社区,建立一套自己的管控平台。

  A5:从大的方向来说,升级是有必要的,版本升级换代有助于性能和安全层面的提升,如果老版本的安全风险和性能是可接受的,可以暂不升级,若需要更高的性能或安全需求,则可优先考虑升级。

  A6:网易大数据平台依托于现有开源的社区的组件能力,基于Kerberos加 Ranger 的权限控制体系,同时做一些增强,对于组和用户对资源的访问权限进行细粒度的控制。此外在产品层面也做了安全中心,来保证底层数据访问的安全性。

  A7:这是我们未来的发展趋势,去年在K8S 上做了Spark调度,以解决在线业务的错峰调度,今年会慢慢地会考虑整个底层基础平台往 K8S 方向上做,如OLAP、Flink 等的业务。

  A8:网易做了一套EasyOps来管控整个大数据的底座,提供自动化运维方案。

  A9:网易的基础组件是跟CDH等的大的社区一致的,同时结合实际应用情况对一些基础组件进行深度增强及性能上的改善。

  在讲淘宝文件系统TFS之前,先回顾一下上面几个版本。1.0版的PHP系统运行了将近一年的时间(2003.052004.01);后来数据库变成Oracle之后(2004.012004.05,叫1.1版本吧),不到半年就把开发语言转换为Java系统了(2004.022005.03,叫2.0版本);进行分库、加入缓存、CDN之后我们叫它2.1版本(2004.102007.01)。

  作为集团“大数据平台技术”战略研究的准备工作,本文梳理了近年来作者观测到的大数据行业技术演进的路径,希望把握发展脉络,找到符合公司业务实际的方向。文章力求用通俗的方式描述概念,最大限度减少专业图表与细节,以便向公司管理层与业务部门同事介绍大数据平台技术的发展与趋势,这里分享给金融行业的朋友参考。