关于数据仓库的若干想法

dlgh dlgh     2022-12-06     610

关键词:

  今天无意在简书看到一篇文章题目是  数据仓库灵魂30问,感觉这写问题确实需要总结和归纳,先做个标记,后续整理答案。

1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问)

2.如何建设数据中台?可简单说下理解与思路

3.数据仓库、数据中台、数据湖的理解

4.传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)

5.传统数仓和大数据数仓的异同?有哪些大的变化?

6.印象最深刻的项目?为什么?亮点与优势?

7.数仓最重要的是什么?

8.实时数仓做过吗?采用什么架构?lambda有哪些优缺点?

9.如何看待kappa架构?iota架构呢?

10.责任心?沟通能力?团队协作?数据思维?

11.用户画像(静态、动态标签,统计、规则、预测标签,衰退系数、标签权重)

12.推荐系统(协同过滤,基于用户、商品,SVD,各种距离算法等)

13.数仓基础理念理解

14.数仓如何确定主题域?CDM?

15.数仓如何分层的?及每一层的作用?思考:为什么要这么分层?

16.数仓有哪几种建模思想?维度建模、范式建模、datavault?.. 有什么优劣,如何选择?

17.SCD的常用处理方式?优劣?与SCD2与拉链表有什么异同?

18.元数据的理解?元数据管理系统?

19.如何控制 数据质量?

20.如何做 数据治理?数据资产管理呢?

21.Hive优化?SQL优化,参数优化

22.数据倾斜 

23.小文件问题

24.order by、sort by、distribute by、cluster by

25.udf、udtf?处理的问题?

26.shuffer优化

27.MySQL如何改写row_number

28.连续n天登录用户

29.用户留存、用户活跃、沉默用户、回流用户

30.lag/lead()over()函数、ntile() 等分析函数

31.rollup、cube、grouping sets grouping_id

32.partition和分桶 order by和sort by



作者:Eva菠萝
链接:https://www.jianshu.com/p/6ac75e9a60fe

关于数据仓库的基本问题

】关于数据仓库的基本问题【英文标题】:BasicquestionsregardingDataWarehousing【发布时间】:2014-04-1905:10:33【问题描述】:我想使用OLAP多维数据集,必须先设计一个数据仓库。我要使用星型模式。我对如何从普通数据库转换为数据仓... 查看详情

关于场景服务的一些想法

最近由于遇到一些问题,老大们决定把场景显示相关的代码拆分出来用一个独立的线程去做(大概是实现一个独立的场景服务吧),感觉这样挺好的,毕竟这部分功能本来就较为独立。我对这部分内容还挺感兴趣的,思考了一下... 查看详情

将关系数据库 (OLTP) 转换为数据仓库模型

...6个具有许多关系的表的数据库(一对多)我想给你一个关于关系数据库现有模式的想法:-------------HeadOpe 查看详情

关于云数据仓库的几项关键思考

...计费且易于上手的规模化优势切实同市场需求相对接。而关于云数据仓库,我们在投身其中之前显然有必要作出以下思考。1.确定用例2.机器学习与数据科学3.实时与可操作分析4.混合型工作负载分析5.切实把握云数据仓库能力二... 查看详情

关于程序可维护性的一些想法

SAP系统作为企业的信息系统,其生命周期通常是漫长的,比单个程序员的在职时间要长得多。早期实施阶段花大力气开发的自定义程序,通常会托付给企业内部或外部的运维团队来维护——不管怎么样,一般不是最初的开... 查看详情

关于捕获审计跟踪的数据库设计的想法[关闭]

】关于捕获审计跟踪的数据库设计的想法[关闭]【英文标题】:Ideasondatabasedesignforcapturingaudittrails[closed]【发布时间】:2010-11-0606:59:58【问题描述】:如何维护数据库中的数据日志?我必须维护对每一行所做的每次更改的日志。这... 查看详情

我的数据清理脚本很慢,关于如何改进的任何想法?

】我的数据清理脚本很慢,关于如何改进的任何想法?【英文标题】:mydatacleaningscriptisslow,anyideasonhowtoimprove?【发布时间】:2019-03-1909:58:07【问题描述】:我有一个数据(csv格式),其中第一列是纪元时间戳(严格增加),其他... 查看详情

关于数据仓库,你想知道的全在这里(建议收藏)

一、什么是数据仓库W.H.Inmon在《BuildingtheDataWarehouse》一书中,对数据仓库的定义为:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。1.1面向主题 操作型数据库的数据组... 查看详情

关于为啥我的数据没有被传递到新的表格视图的任何想法?

】关于为啥我的数据没有被传递到新的表格视图的任何想法?【英文标题】:Anyideaastowhymydataisn\'tbeingpassedtothenewtableview?关于为什么我的数据没有被传递到新的表格视图的任何想法?【发布时间】:2021-12-1304:34:18【问题描述】:... 查看详情

“数据科学”面临的若干问题

一、“数据科学”研究的对象是什么?计算机科学是关于算法的科学,数据科学是关于数据的科学。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个“自然体”来研究,提出所谓“数据界”的概念,颇有把... 查看详情

费元星-关于百度在数据仓库-层级架构上的思考

 目前在做的数据产品都是基于数据仓库上实现,主要的应用方式包括固定报表、数据查询、数据挖掘等。在知识类相关的数据分析产品中,通常需要对多个业务系统的数据进行集成,更需要对数据分层进行科学的规划。为什... 查看详情

关于系统监控的想法和实施:数据监控

  大家好,我是爱吃里脊,下面由我来讨论下监控的想法。提到监控,对于维护系统至关重要,对发现问题,解决问题起着决定性的作用。  我们来先来进行整体拆解,一个监控系统包含三个主体:... 查看详情

关于数据库优化的一些想法(代码片段)

优化table结构#1列数据类型尽量使用数字类型,避免使用字符类型,后者不仅会占用较多存储空间而且会降低查询效率(逐字符比较);#2优先使用VARCHAR,变长字段存储空间小,还可以提升查询效率;#3对需要经常作为where条件出... 查看详情

数据仓库教程 [关闭]

...板发现了一本提到数据仓库的新杂志。因此,我正在寻找关于数据仓库的好的教程或书籍。我也会接受关于如何阻止我的老板阅读的建议。【问题讨论】:在此处发帖之前,您至少尝试过Google搜索吗?+1因为我为你感到难过:-(@Jim... 查看详情

为啥我们需要数据仓库?

...法可以使用DBMS构建报告,它可以从多维视图生成报告,关于数据库的大小,大小可以增量制作,关于集成DBMS也可以从多个数据源进行集成,如果它们与多个数据源 查看详情

关于监控系统的一些想法心得

我这篇文章[http://blog.csdn.net/u014654002/article/details/54345381]里写过的kairosdb,那是我开始接触监控系统的第一步,它帮助我了解了时序数据库在监控端的优秀表现。kairosdb算是相当优秀的监控系统存储后端,并且支持使用grafana(一款... 查看详情

关于集群的一些概念

集群分两大类:应用程序集群与数据集群。应用程序集群:此类集群很好做,没有资源限制。类似于现实中的仓库管理员,没有地域与空间的限制,只是一个入口,只要知道入口在哪就行了。        &n... 查看详情

关于apm数据采集实例以及eureka整合的一个想法

AGENT在使用的时候需要根据没一个机器生成一个对应的AGENT-ID,但是针对EUREKA的时候优惠自动生成一个ID,但是为了数据的统一,在运行时系统中不出现重复的实例数据AGENT在生成ID的时候可以通过这个值最终生成的值作为INSTANCE-ID... 查看详情