偶数科技:基于oushudb的新一代云原生湖仓一体为企业助力

author author     2023-02-07     531

关键词:


实时性数据分析需求暴增,偶数湖仓一体为企业助力

在愈发复杂的大数据场景下,数据仓库与数据湖各自的弊端开始显现,湖仓一体架构走向舞台中央。在国外有两种流行的实现数据湖仓的技术,他们分别是基于数据仓库和基于数据湖的解决方案,他们的代表分别是Snowflake和Databricks。 去年11月,双方曾就两者性能差异吵得不可开交,作为大数据分析赛道的代表性厂商,不论是具备数据仓库功能的数据湖工具Databricks,还是借鉴数据湖范式的可扩展数据仓库Snowflakes,其发展路线都说明“湖仓一体化”已成为了目前市场主流的技术发展方向。

虽然业界对于湖仓一体的价值是高度认同的,但作为一种新兴的架构,大多数公司对于湖仓一体仍处在初期的探索阶段,有些企业甚至对于要选择怎样的湖仓一体架构仍旧是云里雾里。很多人难免会问,我们到底需要什么样的湖仓一体?

1 当下企业实时性数据分析需求暴增
随着网络的高速发展,产生的数据也爆炸性增长,企业对数据的使用也逐步从离线场景到实时数据分析场景的转变。刚开始,很多企业主要是利用离线场景对历史数据进行分析,而随着业务发展到一定规模以后,离线数据的缺点就愈发凸显,公司的业务方、决策方对实时化数据提出了更高的诉求,希望从业务端获取到数据以后,便能够立即被清洗处理,从而满足基于数据的事前预测、事中判断和事后分析。

实时数据分析的需求场景一般分为四个层面:

运营层面:实时业务变化、实时营销效果、当日业务趋势分析;
用户层面:搜索推荐排序、实时行为等特征变量的生产,为用户推荐更精准的内容;
风控层面:实时风险识别、反欺诈、异常交易等;
生产层面:实时监控系统的稳定性和健康状况等。
不难发现,无论是互联网企业还是传统企业,数据的时效性都被摆在了重要位置,甚至有些企业已经从 PV、UV 指标等单点实时化进阶到了全面实时化的阶段。也正于因此,数据的时效性也就成为了企业判断自身架构设计是否满足真正湖仓一体的关键因素。

总体来看,企业到底需要怎样的湖仓一体架构?除了要满足实时化数据需求这一关键要素以外,数据一致性、超高并发、云原生、支持多类型数据以及一份数据也被列入了湖仓一体的 ANCHOR 六大特征。

2 基于OushuDB的云原生湖仓一体
如前文所言,随着市场竞争和用户需求的不断变幻,企业对于数据的时效性需求不断攀升,但实时数据的分析场景出现以后,也给数据技术的实现带来了很大的挑战。目前,无论是擅长事务型工作的数据仓库,还是数据类型更为丰富的数据湖,亦或是 Hadoop+MPP 模式下的湖仓分体,其都是基于 T+1 设计的,即便引入了流处理引擎实现了部分固定模式的实时分析,仍无法达到 T+0 全实时的水平。

为了让数据实现全面实时化,行业内也衍生出了不同的湖仓一体方案,可以将其大致分为两类:一类是基于Hadoop 的改造方案,拿 Hudi、Iceberg 两款开源数据湖项目为例,结构化、半结构化及非结构化的数据通过SparkSQL/Flink 引擎不断流转与计算,再基于 HDFS/S3 实现事务存储,但此类方案在性能支持上与 Hadoop 的区别并不大;

另一类则是从新的基础架构发展出的云原生数据仓库,其中比较典型的代表有 Snowflake、OushuDB 方案,二者均突破了传统 MPP 和 Hadoop 的局限性,实现了存储和计算的完全分离,并且通过虚拟计算集群技术,其单个集群可以达到数万节点,同时在复杂查询性能和 SQL 兼容性上也非常完善。在国外,Snowflake 可以算作落地湖仓一体的成功先例之一,而偶数科技围绕 OushuDB 提出的湖仓一体解决方案,也成为国内该赛道中的一颗耀眼的新星。

若想了解 OushuDB 性能的强大之处,我们大抵可以从以下这组公开数据中窥知一二:由于 OushuDB 使用了SIMD(单指令多数据流)的执行器优化策略,其全面性能超过 Spark 性能相差 8 倍以上,最大相差 55 倍。通过横向对比几类湖仓一体解决方案,我们发现,在 T+0全实时方面,基于 OushuDB 的方案也展现出了较大的优势。





3 为什么偶数科技的实时湖仓性能卓越?
那么问题来了,偶数科技是如何实现具备实时能力的湖仓一体架构?我们可以先从 Lambda 以及 Kappa 这两种典型架构的优劣说起。

为了能够让流处理与批处理配合使用,Lambda 架构应运而生,基于这套架构,任务可以根据是否需要被实时处理进行分离,然而,这套架构背后也隐藏了很多问题。首先,离线和实时两套方案会产生不同的计算结果,当发生数据产生不一致问题时,对比排查需要花费较长时间。此外,由于 Lambda 架构由多个引擎和系统组成,其学习成本、运维成本也相对较高。

可见,Lambda 架构在开发割裂感、资源重复、集群维护成本以及数据一致性等问题上存在较大的问题。为了解决 Lambda 架构需要维护两套代码的难题,Kappa 架构又出现了,即在 Lambda 架构的基础上移除了批处理层,利用流计算的分布式特征,加大流数据的时间窗口,统一批处理和流处理,最终处理后的数据可以直接给业务层使用。相比之下,虽然 Kappa 架构的优点显而易见,但其也存在以下两方面的缺点:

依赖 Kafka 等消息队列来保存所有历史,而 Kafka 难以实现数据的更新和纠错,发生故障或者升级时需要重做所有历史,周期较长;
Kappa 依然是针对不可变更数据,无法实时汇集多个可变数据源形成的数据集快照,不适合即席查询。
面对 Lambda 架构与 Kappa 架构的局限性,业内也亟需一种新型技术架构来满足企业的实时分析需求。为此,偶数科技在 2021 年初提出了同时满足实时流处理、实时按需分析以及离线分析的 Omega 架构,其是根据流数据处理系统和实时数仓构成的。





需要强调的一点是,在 Omega 架构中需要变更流处理版本时,不再需要流处理引擎访问 Kafka,直接访问OushuDB 即可获得所有历史数据,这样一来,便规避了 Kafka 难以实现数据更新和纠错的问题,大大提升了数据处理的效率。在 Omega 全实时架构的加持下,偶数科技实现了具备实时能力的湖仓一体,即实时湖仓。

4 行业的广泛认可与偶数的持续创新
尽管OushuDB只是一个诞生5年的云数据库,但OushuDB却是由国内顶尖工程师自主开发,其研发团队曾主导国际顶级的数据库开源项目,符合国家信创标准。偶数科技作为一家新兴的数据库公司,自2017年诞生以来,作为微软加速器和腾讯加速器成员企业,已经获得世界顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,并入选福布斯中国企业科技 50 强以及美国著名商业杂志《快公司》中国最佳创新公司 50 强。

除了OushuDB,偶数科技的实时湖仓一体解决方案还包含自动化机器学习平台 LittleBoy 、数据分析与应用平台Kepler以及数据管理平台 Lava等多个产品, 深厚的研发实力和优秀的产品性能吸引了广泛的知名用户群,目前已在金融、电信、制造、公安、能源和互联网等行业得到广泛的部署和应用。

 

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

...#xff0c;这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。林伟,阿里云智能研究员、阿里云智能通用计算平台MaxCompute、机器学习PAI平台技术负责人本篇内容将从三个部分为读者讲述离线实时一体化数仓与湖仓一... 查看详情

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

...#xff0c;这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。林伟,阿里云智能研究员、阿里云智能通用计算平台MaxCompute、机器学习PAI平台技术负责人本篇内容将从三个部分为读者讲述离线实时一体化数仓与湖仓一... 查看详情

阿里云云原生一体化数仓—湖仓一体新能力解读

一、基于MaxCompute的湖仓一体架构更新基于MaxCompute云数据仓库的湖仓一体架构近期进行架构升级。了解MaxCompute的同学可能比较清楚,MaxCompute有两层结构,需要先创建Project,在Project里面创建表、资源等。传统数据库&#x... 查看详情

云原生一体化数仓发布

云原生一体化数仓是集阿里云大数据产品MaxCompute、DataWorks、Hologres三种产品能力于一体的一站式大数据处理平台。技术上通过离线实时一体、分析服务一体、湖仓一体和数据综合治理架构实现成本更低、速度更快、性能更好、运... 查看详情

坚持开源开放青云科技kubesphere容器生态显现

...嵌入到KubeSphere的管理体系中。此外,青云科技也在打造新一代的信创云原生基础设施,基于国产芯片实现“一云多芯”,帮助客户完成信创的落地。同时,青云科技也发布了KubeSphereKF3000容器一体机。开源,KubeSphere从一开始就是... 查看详情

基于deltalakehudi格式的湖仓一体方案

...播视频请点击直播观看一、最佳实践背景整个最佳实践是基于MaxCompute的湖仓一体架构,模拟公司使用场景。比如公司A使用云上关系型数据库RDS作为自己的业务库,同时使用阿里云EMR系统做日志数据采集。将数据汇集到云... 查看详情

基于deltalakehudi格式的湖仓一体方案

...播视频请点击直播观看一、最佳实践背景整个最佳实践是基于MaxCompute的湖仓一体架构,模拟公司使用场景。比如公司A使用云上关系型数据库RDS作为自己的业务库,同时使用阿里云EMR系统做日志数据采集。将数据汇集到云... 查看详情

大数据架构系列:如何理解湖仓一体?

...言这十多年大数据技术蓬勃发展,从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务 查看详情

大数据架构系列:如何理解湖仓一体?

...言这十多年大数据技术蓬勃发展,从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务 查看详情

汽车之家基于flink+iceberg的湖仓一体架构实践

...计算平台负责人邸星星在4月17日上海站Meetup分享的,基于Flink+Iceberg的湖仓一体架构实践,内容包括:数据仓库架构升级的背景基于Iceberg的湖仓一体架构实践总结与收益后续规划Tips:点击文末「阅读原文」即可... 查看详情

湖仓一体化存or算之争?spl我都要

...的资源之一。数据的产生、收集和分析,已经成为了科技公司最为重要的一环。到底什么是湖仓一体?它和数据仓库、数据湖的关系是什么?为什么要用一体来形容呢?从一体机、超融合到云计算、HTAP,我们... 查看详情

百丽时尚×优维科技×道客战略启动「云原生一体化项目」

...7日,由百丽时尚集团(以下简称:百丽时尚)联合优维科技、道客共同举办的「云原生一体化项目启动会」在深圳百丽国际大厦圆满落幕,项目合作三方齐聚一堂,就云原生一体化建设战略方案达成合作共识,并进一步将该项... 查看详情

基于kafka+sparkstreaming+oushudb搭建批流一体大数据分析架构

实时消息KafkaKafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等... 查看详情

基于deltalakehudi格式的湖仓一体方案(代码片段)

简介: DeltaLake和Hudi是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行BI等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察... 查看详情

b站基于iceberg+alluxio助力湖仓一体项目落地实践

...微直播间】,2min纵览大咖观点本期分享的题目是B站基于Iceberg+Alluxio助力湖仓一体项目落地实践,内容包含诸多技术细节,主要从以下4个维度进行分享:摘要01.B站湖仓一体项目的背景介绍当前B站每天会有pb级... 查看详情

b站基于iceberg+alluxio助力湖仓一体项目落地实践

...微直播间】,2min纵览大咖观点本期分享的题目是B站基于Iceberg+Alluxio助力湖仓一体项目落地实践,内容包含诸多技术细节,主要从以下4个维度进行分享:摘要01.B站湖仓一体项目的背景介绍当前B站每天会有pb级... 查看详情

指数级暴增场景复杂下,揭秘百度云原生湖仓架构等系列数据产品

9月28日,百度智能云2021“云智技术论坛”智能大数据专场在上海举办。本次会议以“云智一体,让大数据发挥大价值”为主题,百度副总裁谢广军携百度多位资深技术专家与行业伙伴出席会议,共同探讨了大数据... 查看详情

用友云平台,真正的云原生架构,加速云应用落地

...!用友公司聚焦企业服务领域近30年的时间,用友云基于新一代信息技术,构建数字化商业的基础设施,为企业提供2.0版智能化企业云服务,解决企业上云的“最后一公里”问题,让云计算在千家万户企业真正落地。用友云在新... 查看详情