数据集市是什么?(代码片段)

宝哥大数据 宝哥大数据     2022-12-28     328

关键词:

一、数据集市简介

在数据仓库环境中用于检索客户端数据的模式称为数据集市。它是数据仓库特有的结构,供团队中的业务领域使用。每个组织都有一个位于数据仓库存储库中的数据集市。不同类型的数据集市是从属的、独立的和混合的数据集市。从属数据集市获取已经创建的数据,而独立数据集市从外部源和数据仓库获取数据。我们可以将数据集市称为数据仓库的逻辑子集。

1.1、数据集市与数据仓库

数据仓库是一个包含来自多个主题流的数据集合的仓库。维护和控制部分,如原始数据的收集和处理,主要由企业信息技术 IT 小组处理,该小组为上级组织提供各种服务。

数据仓库也称为中央或企业数据仓库。因此,在某些情况下,数据仓库的来源将是多个,而数据集市是数据仓库的一个子集。

二、数据集市的类型

2.1. 依赖数据仓库

依赖数据集市纯粹来自数据仓库,所有分组的依赖将形成企业数据仓库。它纯粹是数据仓库的一个子集,因为它是从中央 DW 创建的。

由于中央数据仓库 ETT 流程或提取转换和传输中已经存在干净和汇总的数据,因此简化了。我们只需要在这里识别特定的子集并在其上执行 ETT。

这些数据集市通常旨在通过更好的控制和效率实现更好的可用性和大量改进的性能

2.2. 独立数据集市

这不是从中央数据仓库创建的,其来源可能不同。由于数据来自中央 DW 之外的其他 ETT 过程有点不同。

大多数独立数据集市被较小的组织使用,其来源也有限。当我们需要在相对较短的时间内获得解决方案时,通常会创建独立数据集市。

2.3. 混合数据集市

混合数据集市将允许您将来自中央数据仓库 DW 以外的所有其他来源的数据分组。当我们处理临时集成时,这将大大有利于外部添加到组织的所有产品的顶级工作。

三、数据集市的特点

以下是一些功能:

  • 由于数据源集中于主体,因此通过使用它可以提高用户响应时间。
  • 对于经常需要的数据,使用数据集市将是有益的,因为它是中央 DW 的子集,因此数据大小会更小。
  • 此外,由于数据量有限,与中央 Dws 相比,处理时间将大大减少。
  • 这些基本上是敏捷的,与数据仓库相比,可以非常快速有效地适应模型中的变化。
  • 与仓库数据相比,Datamart 需要单个主题专家来处理我们在多个主题仓库中所需的专业知识。正因为如此,我们说数据集市更敏捷。
  • 我们可以使用分区数据和数据集市将访问类别隔离到较低级别,这很容易。
  • 基础设施依赖性非常有限,数据可以在分段后存储在不同的硬件平台上。

四、数据集市的优点

  • 对于您只需要处理一小部分数据的数据仓库,它是最具成本效益的替代方案之一。
  • 从源中分离数据将使数据集市高效,因为特定的一组人可以处理来自特定源的数据,而不是所有人都使用数据仓库。
  • 如果我们知道需要访问哪个子集,则可以使用数据集市更快地访问数据。
  • 数据集市更易于使用,因此最终用户可以轻松地对其进行查询。
  • 由于数据是按组隔离的,因此与数据仓库相比,进入实施时间数据集市所需的时间更少。
  • 来自特定主题的历史数据可用于轻松的趋势分析。

因为它集中在一个单一的功能领域,所以对流程实施者和最终用户都有许多好处。因此,需要高效的集市实施以及组织中的数据仓库。

五、实施数据集市的步骤

  1. 设计
    这将是实施的第一步,其中确定了收集技术和业务信息所需的所有任务和来源。稍后实施逻辑计划,经过审查,这将转换为物理计划。此外,这里决定了数据的逻辑和物理结构,例如如何分区数据和分区字段,如日期或任何其他文件。

  2. 施工
    这是实施的第二个阶段,在 RDBMS 的帮助下生成物理数据库,被确定为设计过程和逻辑结构的一部分。创建所有对象,如schema、索引、表、视图等。

  3. 填充
    这是第三阶段,这里在获取数据时将数据填充到其中。所有必需的转换都在填充数据之前实现。

  4. 访问
    这是实施的下一步,我们将使用填充的数据进行查询以创建报告。最终用户使用此步骤来了解使用查询的数据。

  5. 管理
    这是数据集市实施的最后阶段,这里处理各种任务,例如访问管理、系统优化以及调整、管理和向数据集市添加新数据以及规划恢复场景以处理任何故障情况。

关注我的公众号【宝哥大数据】,更多干货

数据仓库和数据集市的区别

 见过很多人搞不清楚数据仓库和数据集市的区别,下面是我见过的最好的关于“什么是数据仓库”的回答:  “数据仓库是一种关系数据库模式,其中保存了来自一个或者多个源数据库的历史数据和元数据。数据仓库的目... 查看详情

数据仓库与数据集市的概念区别

企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。由于术语定义不统一,另外各个供应商销售策略不一... 查看详情

texttodo集市迁移(代码片段)

查看详情

数据仓库中事实表的复合索引 - 数据集市

】数据仓库中事实表的复合索引-数据集市【英文标题】:Compositeindexesonfacttablesinadatawarehouse-datamart【发布时间】:2014-01-2620:38:13【问题描述】:在OracleEDW中的事实表上保留复合唯一索引是否是一种最佳实践-避免重复的数据集市... 查看详情

数据集市

数据集市,也叫数据市场,是一个从操作的数据和其他的为某种特殊的专业人员团体服务的数据源中收集数据的仓库。数据集市也只是一个数据仓库,数据集市的特点:规模小,通常是面向部门的有特定的应用由业务部门定义,... 查看详情

sql新集市蜂巢脚本参数(代码片段)

查看详情

数据仓库数据集市数据湖数据中台到底有什么区别?

经常看到有人问这个问题,数据玩家也看过很多解释,感觉都不够直观,这里,我尝试用一个大家都理解的例子来说明。什么是数据仓库?大家都去宜家买过东西吧,还记得一楼的大仓库不,你如果看... 查看详情

是啥让访问 OLAP 多维数据集/数据集市和类似数据结构比访问关系数据库更快?

】是啥让访问OLAP多维数据集/数据集市和类似数据结构比访问关系数据库更快?【英文标题】:WhatmakesaccesstoOLAPCubes/Datamartsandsimilardatastructures,fasterthantorelationaldatabases?是什么让访问OLAP多维数据集/数据集市和类似数据结构比访问... 查看详情

Inmon 数据集市与 Kimball 数据集市

】Inmon数据集市与Kimball数据集市【英文标题】:InmondataMartsvsKimballdatamarts【发布时间】:2016-04-0719:27:20【问题描述】:是kimball和inmon的唯一区别,企业层(EDW)。我四处搜索,发现inmon也使用EDW创建数据集市。那么这是否意味着... 查看详情

离线数仓:什么是数据仓库

目录0.相关文章链接1.数据仓库概念2.数仓仓库为何而来2.1.操作型记录的保存2.2.分析型决策的制定2.3.OLTP环境开展分析可行吗?2.4.数据仓库的构建3.数据仓库主要特征3.1.面向主题性3.2.集成性3.3.非易失性3.4.时变性4.数据仓库、... 查看详情

什么是星型模型

1.什么是星型模型?Starschema星型模型是最简单的数据集市模型,是最广泛用于开发数据仓库和维度数据集市的方法。星型模型由一个或多个引用任意数量的维度表的事实表组成。星型模型是雪花模型的一个重要特例,... 查看详情

我们都是赶集人

...,仅代表个人观点,难免有所偏颇,欢迎指正。赶集人与集市正如题目所说的那样,我们都是赶集人,赶的是开源这个集市。可能很多同学不是很能理解,为什么开源称之为“集市”,正如《大教堂和集市》这本书所说的,开源... 查看详情

数据挖掘恒生金融有限公司2023届秋招数据etl工程师笔试题解析(代码片段)

...司:恒生科技笔试时间:2022年9月24号岗位:数据ETL工程师时间:120分钟1不定项选择题1、SQL修改表结构的关键词是A.alterB.createC.descD.rename答案:A2、正确的是A.一个表中,主键可以唯标识一行记录B.一个事务... 查看详情

如何创建数据集市

】如何创建数据集市【英文标题】:howtocreateadata-mart【发布时间】:2012-02-0216:35:46【问题描述】:这是我第一次尝试创建数据集市/仓库,我对如何最好地设计架构有点困惑。项目背景:我最初创建了一个关系数据库,用于捕获... 查看详情

数据仓库或孤岛数据集市

】数据仓库或孤岛数据集市【英文标题】:Datawarehouseorsilodatamarts【发布时间】:2019-04-2417:23:11【问题描述】:目前我们有12个不同的数据库,其中7个是维度的。我们是一个以知识为基础的非营利组织,我们拥有基于患者所患疾... 查看详情

hive数据仓库建设(代码片段)

原文:https://www.jianshu.com/p/4e72b22edf491、数据仓库与数据库数据仓库是数据库概念的升级,和数据库相比,数据仓库要比数据库更加庞大;数据仓库主要用于分析数据,数据库主要用于捕获数据;数据仓库主要存储历史数据,数据... 查看详情

数据仓库和数据集市新手

】数据仓库和数据集市新手【英文标题】:NewtoDataWarehousingandDataMarts【发布时间】:2015-01-1412:31:49【问题描述】:我对DataWarehousing和Marts完全陌生,想就学习和获取知识的最佳资源寻求一些建议,让我开始走上正确的道路。我有... 查看详情

数据集市记录的追溯更新

】数据集市记录的追溯更新【英文标题】:Retrospectiveupdateofdatamartrecords【发布时间】:2021-02-1121:32:29【问题描述】:我有一个数据集市,它在BigQuery数据库中保存了数十亿条事件记录。每条记录都有一个唯一的事件ID,并包含一... 查看详情