大数据路线

辉常努腻 辉常努腻     2022-12-09     721

关键词:

一、概念部分

1.1 大数据、数仓、数据湖、中台的概念
区别数仓数据湖
使用场景批处理,BI,数据可视化机器学习、预测分析、数据分析
Schema写入型读取型
数据源类型OLTP为主的结构化数据loT,日志,各个端等结构非结构均可
性价比需要快速查询,高优化存储需要高成本查询实时性要求地,可使用低成本存储套件
数据质量高,需要高度监管一般,部分数据无监管
面对用户业务分析和决策数据开发,数据科学家和业务分析

部分参考资料:

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体-阿里云开发者社区

数据湖是什么_数据湖和数据仓库的差别_数据湖架构-AWS云服务

1.2 数仓分层理论
  1. 为什么要分层?
  2. 如何分层?
1.3 数据模型之建模理论
1.4 数据治理:结合项目来沟通
  1. 数据资源管理:包括但不限于元数据,血缘,共享渠道,权限管控
  2. 数据质量管控:如何考核质量,如何动态获取,如何处置问题数据
  3. 数据安全把控:哪些问题需要关注,具体的管控方法如数据分级管理,审计和脱敏等
  4. SLA:如何高效运维,无法达成的SLA除了技术层面的优化如何通过沟通和任务分级来解决等
  5. 数据服务输出:API网关,表共享管理,标签/算法等如何更便捷的使用数据

二、技术框架部分

重点考核部分。请各位ETL工程师补充完善。

2.1 Hadoop生态
  1. yarn的基本理念和底层架构
  2. hdfs的读写基本流程,数据如何分片,多副本写入算法等
  3. mr的原理描述
  4. 目前hadoop的局限不足,有那些优化空间如namenode的瓶颈问题等
2.2 其他大数据技术
  1. Kafka等消息队列:为什么能做到高吞吐,高性能,one copy原理等
  2. Flink等实时流处理:双流join,断流监控处理等
  3. 运维调度工具
2.3 传统数据库的技术问题
  1. OLAP/OLTP区别
  2. 传统数据库索引,如mysql的B+树原理解析
2.4 数仓建设的lambda架构
  1. 实时数仓和离线数仓共存的架构解析
2.5 性能优化相关
  1. 如果高效使用索引
  2. 大数据中的数据倾斜及解决方案
  3. 小文件问题
  4. 数据建模前的模型设计考量
  5. 上线后的任务监控和优化
  6. 服务器资源的监控和调试

三、代码能力

3.1 SQL
  1. 常用窗口函数考察
  2. Join相关
  3. 复制查询如子查询,行转列,排序分组等

3.2 数据结构和算法

目前该部分不做强制要求,是否需要考察需要看候选人背景,有开发背景的可以适当考核。

  1. 常见数据结构的实现和基本操作:基本的链表(反转,是否有环),二叉树(BFS/DFS,高度等),大小堆(如何创建),hash表(原理和冲突解决),树(BFS/DFS,是否有环)等结构
  2. 常见的数组操作:几种排序和查找的考察(二分查找及其优化的空间,各种排序原理如选排,插排,冒泡,快排等和时间复杂度),一些简答的如topN大的数查询,寻找重复数字,矩阵转置等
  3. 常见算法思路:分治,贪心,动规(背包问题),递归回溯(8皇后)原理等
  4. 综合编码能力考察:java/python任选实现以上问题

四、开放问题

以下问题并没有标准答案,需要去考量解决问题的思路,考察综合能力,如沟通,管理和应急处置等。

4.1 项目中遇到的技术问题
  1. 项目使用的架构和数据流解析
  2. 从0搭建的过程中的问题
  3. 硬件配置如何考量
  4. 软件如何选型
4.2 项目中遇到的沟通问题
  1. 项目技术落地推动问题
  2. 升级沟通
  3. 交付延期
  4. 和售前的gap
  5. 开发团队之间技术gap
4.3 项目中遇到的管理问题
  1. 人月不足
  2. 团队流动快
  3. 人员技术层次不一致
  4. 日常管理方法
4.4 业务能力考察
  1. 项目中解决的业务问题:沟通为主
4.5 自我提升
  1. 如何快速学习新技术
  2. 项目中完全没遇到过的问题的解决思路

大数据新手的0基础学习路线,从菜鸟到高手的成长之路

大数据作为一个新兴的热门行业,吸引了很多人,但是对于大数据新手来说,按照什么路线去学习,才能够学习好大数据,实现从大数据菜鸟到高手的转变。这是很多想要学习大数据的朋友们想要了解的。今天我们就来和大家分... 查看详情

大数据入门学习路线

现阶段大数据如火如荼,很多人想要学习大数据,但是却不了解大数据,也不知道该从哪开始学起的同学,希望这篇文章能够帮到你们。  1.Linux基础和JavaSE基础【包含mysql】这些是基本功,刚开始也不可能学的很精通,... 查看详情

大数据学习路线整理(代码片段)

大数据学习路线整理编程语言:推荐语言为Javajava可以说是大数据最基础的编程语言,据我这些年的经验,我接触的很大一部分的大数据开发都是从JaveWeb开发转岗过来的。一是因为大数据的本质无非就是海量数据的计... 查看详情

大数据学习路线整理(代码片段)

大数据学习路线整理编程语言:推荐语言为Javajava可以说是大数据最基础的编程语言,据我这些年的经验,我接触的很大一部分的大数据开发都是从JaveWeb开发转岗过来的。一是因为大数据的本质无非就是海量数据的计... 查看详情

零基础大数据新手学习路线教程

大数据~数据挖掘,越来越火,90%的企业都在运用或者都想要利用大数据为其带来更便利的服务,从而大数据高端软件类人才可谓供不应求。如何学好大数据?第一阶段:大数据新手入门系统教程Java+MySQL+关系型数据库+阿里巴巴... 查看详情

大数据入门初学者需要学习的内容及学习路线详解

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。先说一下大数据的4V... 查看详情

大数据入门初学者需要学习的内容及学习路线详解

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。先说一下大数据的4V... 查看详情

大数据路线

一、概念部分1.1大数据、数仓、数据湖、中台的概念区别数仓数据湖使用场景批处理,BI,数据可视化机器学习、预测分析、数据分析Schema写入型读取型数据源类型OLTP为主的结构化数据loT,日志,各个端等结构非... 查看详情

自学大数据路线

大数据学习线路图这个学习线路图,主要是介绍接下来要学习的买个阶段,以及每个阶段能学到什么知识!   第一阶段:主要学习java基础,学完出来并不能找工作,因为学的都是基础,需要更进一步的努力,如果本... 查看详情

2019大数据学习路线指南(最全知识点总结)

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、... 查看详情

如何成为一个大数据工程师?学习路线图是什么?

看到很多小伙伴都在学习大数据开发的路上很迷茫,不知道该如何成为一名合格的大数据开发工程师,也不知道该学习哪些技术,下面就给大家谈谈如何成为一个大数据开发工程师!想要成为大数据工程师,首先要更新自己的技... 查看详情

揭秘java大数据学习路线图

...功半,有的时候遇到一个bug真的很难受,无限互联java大数据培训专家为大家整理了一篇很值得大家去借鉴的学习路线图文章,希望大家在学习的路上一能帆风顺!  一、Java的核心  这就是学习Java的基础,掌握程度的深与浅... 查看详情

大数据初学者必备的详细版学习路线图

大数据终将主宰经济社会,消除个体差异,成就一元化的经济体系。网络经济时代,人们在经济社会中的诸种活动通过网络账户体系来实现,这些活动也就是所谓的网络账户活动,其基本内容更多地体现为账户间的关系。这些账... 查看详情

大数据存储与应用特点及技术路线分析

大数据存储与应用特点及技术路线分析大数据时代,数据呈爆炸式增长。从存储服务的发展趋势来看,一方面,对数据的存储量的需求越来越大;另参考技术A大数据存储与应用特点及技术路线分析大数据时代,数据呈爆炸式增... 查看详情

如何进入现在较火热的大数据领域,学习路线是什么?

大数据不是某个专业或一门编程语言,实际上它是一系列技术的组合运用。有人通过下方的等式给出了大数据的定义。大数据=编程技巧+数据结构和算法+分析能力+数据库技能+数学+机器学习+NLP+OS+密码学+并行编程虽然这个等式看... 查看详情

大数据云计算学习路线图(纯属个人看法和观点)

【ps:以下纯属个人观点和看法,有什么不对的,还请多多指教。】1:之前发过一个Java攻城狮的学习路线图【ps:挺详细的~~~】:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上看到了... 查看详情

大数据云计算学习路线图(纯属个人看法和观点)

【ps:以下纯属个人观点和看法,有什么不对的,还请多多指教。】1:之前发过一个Java攻城狮的学习路线图【ps:挺详细的~~~】:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上看到了... 查看详情

大数据云计算学习路线图(纯属个人看法和观点)

【ps:下面纯属个人观点和看法,有什么不正确的,还请多多不吝赐教。】1:之前发过一个Java攻城狮的学习路线图【ps:挺具体的~~~】:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上... 查看详情