思考:真正的分布式数据库是否让“数据湖”概念成为历史?

author author     2022-11-08     353

关键词:

原文地址:http://www.fromgeek.com/ai/152830.html

最近吴宁川一篇《厉害了,蚂蚁金服!创造了中国自己的数据库OceanBase》报道了OceanBase诞生的前因后果。内容非常详实,值得分享。同时自己也分享几点杂想:
第一,杀熟不仅仅是大数据时代的产物
之前从某网平台爆出的订购酒店或者是约车出行的杀熟案例。说明大数据时代我们每个人都处于一个小白,随时宰割的状态。
其实这种现象在各个领域都存在。比如,技术壁垒也是杀熟的条件之一。就像文章中谈到的,王坚在2008年阿里的时候,提出的去IOE行为。就是因为技术壁垒产生的杀熟情况。正常来看,IT采购是一个促进企业效率的工具。但是采购包括向小型机、高端存储、数据库,其采购的越多,成本是呈现几何式增长。其IT采购不在是促进因素,甚至严重的阻碍了企业的发展。
就像IOE这样的设备在阿里云业务大规模发展过程中,带来的成本越来越高。对于阿里来说,失去了其技术促进生产的原动力。在这样的情况下,蚂蚁金服自主研发的OceanBase数据库。
第二,真正的分布式数据库诞生,打破了传统的“数据湖”概念。
何为传统的“数据湖”概念,就是把多个物理上的磁盘看成是虚拟的一个存储单元,OceanBase 团队SQL开发方向负责人陈萌萌的说法是把所有的数据库看到的是同一个数据磁盘、共享数据访问,可以确保所有的数据都可被访问到,但是对硬件要求提出很高的要求,就是底层硬件本身要稳定可靠。可以看到这种理念被绝大多数的传统企业甚至包括互联网企业所接受。
而阿里打破了这个理念,全球仅有两家企业打破了这个理念,一个是阿里,一个是Google。
陈萌萌认为目前真正的分布式数据库全球仅有两家,阿里的OceanBase,以及谷歌于2017年2月发布的全部自研的Spanner分布式数据库云服务。
即使是AWS推出的Aurora数据库,其设计原理更接近于传统数据库的共享磁盘设计。
具体来讲OceanBase在处理数据访问的时候,相当于把一台原来的小型机或存储设备从纵向“切片”成很多机器,再把数据分布到这些分散在不同的机器上,个人理解应该是把一个整体“数据湖”分成了多个小的“数据池”。
OceanBase的一个基础设计思想是把每一份数据存放在三台不同的机器上,那么一台PC服务器出故障的概率为千分之一的话,两台同时坏的概率可能就是百万分之一,三台同时坏的概率则是十亿分之一。
第三,OceanBase分布式数据库是否可以与区块链技术结合?
首先我们看到王坚提出阿里要建设分布式数据库与中本聪提出的比特币白皮书是同一个时期。这里我们看到,从2009年开始,王坚就在考虑一个真正适应未来互联网业务的分布式数据库。大家可以换个角度看,也是在同一时期,中本聪提出了一种点对点的电子货币系统,其背后采用的区块链(被人们戏称也叫做“有史以来最慢的分布式数据库”)技术。
不同的是,Oceanbase作为一个商业项目,经过这几年的不断发展,单纯看这个数据库,既实现了分布式的数据存储,又做到了数据库查询优化。在真是应用场景上,相对于传统的银行柜台,人工窗口提供服务花费大量的时间获得服务,蚂蚁金服基于oceanbase提供的互联网金融应用,为用户提供了优质的互联网服务体验。
所有区块链这种缓慢的分布式数据库技术,可以参考阿里的Oceanbase或者Google的Spanner数据库技术。这样,对于区块链技术的推进有着积极的作用。

2万字,详解数据湖,概念特征架构方案场景以及建湖全过程(建议收藏)

...尝试写了这样一篇文章,希望能抛砖引玉,引起大家一些思考和共鸣。本文共有以下7个章节:什么是数据湖数据湖的基本特征数据湖基本架构各厂商的数据湖解决方案典型的数据湖应用场景数据湖建设的基本过 查看详情

mrs+lakeformation:打造一站式湖仓,释放数据价值

...大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如Hive、华为DWS等数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本... 查看详情

华为云mrs支持lakeformation能力,打造一站式湖仓,释放数据价值

...大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如Hive、华为DWS等数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本... 查看详情

当云原生成为一种显学,对象存储和数据湖如何顺势而为

...天生为云而设计,充分利用和发挥云平台的弹性+分布式优势。据相关机构(Gartn 查看详情

数据湖架构及概念简介

摘要:本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。本篇内容主要分为两个部分:1.数据湖演进历程2.云原生数据湖架构一、数据湖演进历程什么是数据湖?数据湖概念... 查看详情

alluxio源码完整解析|你不知道的开源数据编排系统(上篇)

...据的存储能力,支持多类型的底层存储系统,如分布式存储HDFS、对象存储AWSS3、腾讯云对象存储COS等,除此之外,在数据湖场景中计算和存储分离,使得计算的数据本地性不复存在。因此有必要在数据湖存储... 查看详情

数据湖:分布式容错数据仓库hive

... 1.什么是Hive        ApacheHive是可实现大规模分析的分布式容错数据仓库系统。该数据仓库集中存储信息,您可以轻松对此类信息进行分析,从而做出明智的数据驱动决策。Hive让用户可以利用SQL读取、写入和管理PB级... 查看详情

数据湖:分布式容错数据仓库hive

... 1.什么是Hive        ApacheHive是可实现大规模分析的分布式容错数据仓库系统。该数据仓库集中存储信息,您可以轻松对此类信息进行分析,从而做出明智的数据驱动决策。Hive让用户可以利用SQL读取、写入和管理PB级... 查看详情

基于数据湖格式构建流式增量数仓—cdc

...个部分:1.湖格式&Hudi&CDC2.湖格式设计实现CDC的思考3.HudiCDC实现4.湖格式Streaming的优化2021年中Databricks发布了一篇基于DeltaLake实现CDC场景的介绍文档,2022年初我们在阿里云EMR内部DeltaLake版本实现的CDC的能力,同期... 查看详情

数据湖:分布式开源处理引擎spark

         系列专题:数据湖系列文章1.什么是Spark        ApacheSpark是一种高效且多用途的集群计算平台。换句话说,Spark是一种开源的,大规模数据处理引擎。它提供了一整套开发API,包括流计算、机器学... 查看详情

数据湖:分布式开源处理引擎spark

         系列专题:数据湖系列文章1.什么是Spark        ApacheSpark是一种高效且多用途的集群计算平台。换句话说,Spark是一种开源的,大规模数据处理引擎。它提供了一整套开发API,包括流计算、机器学... 查看详情

数据仓库与数据湖的区别(代码片段)

...其进行筛选。当数据湖首次出现时,它们通常与Hadoop分布式处理框架相关联,但随着企业中数据的不断涌入,架构选项已经增加到包括其他大数据平台。许多T供应商现在还支持云中的数据湖,通常将Spak处理引擎... 查看详情

贾扬清谈云原生-让数据湖加速迈入3.0时代

简介: 摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生--让数据湖加速迈入3.0时代》的分享。摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研... 查看详情

一文读懂xfs的分布式数据湖

18年,百度创始人李彦宏表示,中国人对隐私问题更加开放,会愿意用自身隐私来换取更便捷的互联网服务。他还同时表示,网络搜索数据的80%都在企业手中,要实现"指数级增长"。不久后,Facebook泄... 查看详情

数据湖:海量日志采集引擎flume

...系列专题:数据湖系列文章1.概述    Flume是的一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理并写到... 查看详情

数据湖:海量日志采集引擎flume

...系列专题:数据湖系列文章1.概述    Flume是的一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理并写到... 查看详情

数据湖:海量日志采集引擎flume

...系列专题:数据湖系列文章1.概述    Flume是的一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理并写到... 查看详情

从“智能湖仓”升级看数据平台架构未来方向

在2021年初全年技术趋势展望中,数据湖与数据仓库的融合,成为大数据领域的趋势重点。直至年末,关于二者的讨论依然热烈,行业内的主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控... 查看详情