大数据,只看这个就够了

author author     2022-09-01     283

关键词:

    2016年5月25日上午,由贵州省政府举办的以"大数据开启智能时代"为主题的中国大数据产业峰会在贵阳开幕,国务院总理李克强发表主旨演讲。腾讯集团马化腾,高通公司总裁Derek Aberle,百度公司李彦宏,微软全球陆奇,京东集团刘强东,阿里巴巴王坚,滴滴出行程维,HTC王雪红,戴尔Michael Dell等重要嘉宾出席会议并发言。至此,大数据发展已经上升到国家战略层次,其热度可见一斑。如图一为李克强总理发表讲话:

 

技术分享

图一

 

  自2016年起,大数据与人工智能,虚拟现实相继重新进入了我们的视线,不论是贵阳的大数据产业峰会,还是BAT巨头对大数据作出的投资,可谓是屡放大招,频频吸引我们的眼球。那么大数据究竟是什么神奇的东西呢?让我们揭开大数据面纱感受它的改变世界的神奇吧!

那么究竟什么是大数据呢?

  大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。其特点是数据量大,形式多样,读写速度快,如图二,三为大数据渲染图:

                                                                   技术分享                                      技术分享

图二                                                                                      图三

 

  在大数据里大概可以分为两个体系,数据分析师和Hadoop工程师,在数据分析体系下业务数据分析师和数据挖掘工程师,在Hadoop里可分为开发工程师,架构工程师,运维工程师。另外大数据可以提供的工作有大数据分析工程师、大数据咨询顾问、大数据统计工程师、大数据运营经理、大数据挖掘与处理专员、大数据存储工程师。详见图四:

 

技术分享

图四

 

  现如今,大数据业界内部有非常多就业机会,尤其是北京,上海,深圳,杭州急需大数据相关专业型人才。现收集大数据在北京的相关职位相关薪资如表一所示:

 

职位 Hadoop开发工程师 数据挖掘工程师 数据分析工程师 数据运维师
工作地 北京 北京 北京 北京
平均薪资 1.9万 2.1万 1.1万 1.0万
3-5年工作经验 1.5-3万 1.5-3万 0.5-3万 1.3-5万
 

表一:北京数据工程师薪资表

 

  从今年4月份北京市公布的数据来看,北京2016平均工资8717元,智联招聘统计了2016年下半年互联网/电子商务、网络游戏、计算机软件、计算机硬件、IT服务、电子技术/半导体/集成电路等6个细分行业的企业招聘职位信息。

在2016年6月前,大数据的平均薪水为6K,之后,行业薪资水平显著提高,平均水平在15K,最低工资涨幅不大,在北京平均工资水平为8717元,行业内平均工资水平已达到甚至超越北京市人均工资水平。如图五所示:

 

技术分享

图五

 

  1年内对498份Hadoop开发工程师进行样本数据分析,月平均工资为19050元,月收入在1W~3W的员工占绝大比重,达到81.3%,其中在月收入在1W~1.5W之间占比19.5%,1.5W~2W之间占比29.7%,2W~3W占比32.1%。另外,工作经验是决定薪资水平的一大因素,我们可以看出,拥有的工作经验越丰富,往往可以得到比较高的薪酬。 如图六,图七,图八所示:

 

 

                                                                  技术分享                                                技术分享

图六 工资收入                                                                                 图七 按工作经验分

  

技术分享

图八 历年平均薪资

 

  数据挖掘工程师在北京的薪资待遇如图九,图十,图十一所示:

 

                                                                 技术分享                                                  技术分享

图九 工资收入                                                                                图十 按工作经验分

 

技术分享

图十一 历年平均薪资

 

  数据分析工程师在北京的薪资待遇如图十二,图十三,图十四所示:

 

                                                                 技术分享                                              技术分享

图十二 工资收入                                                                          图十三 按工作经验分

 

技术分享

图十四 历年平均薪资

 

  数据运维师在北京的薪资待遇如图十五,图十六,图十七所示:

 

                                                                 技术分享                                               技术分享

图十五 工资收入                                                                           图十六 按工作经验分

 

技术分享

图十七 历年平均薪资

 

  大数据工资竟然这么高,看得我蠢蠢欲动呢,那么大数据里都包含哪些理论呢?大数据的知识体系暂时分为5个部分:

  第一部分:java语言基础与Linux系统基础,包括java语言的面向对象编程,网络编程,Linux系统的基本命令操作和系统下shell脚本的使用。Linux系统对于编程而言,拥有开源,免费,稳定,安全,高效的优点。Java Web 大数据同系连枝,这造成了java语言成为和大数据平台交互的主流语言。

  第二部分:数据平台(Hadoop),数据存储,资源调度与监控集群资源。在Hadoop平台下,分布式文件系统HDFS来存储海量数据,分布式资源管理框架YARN管理集群资源和MapReduce、Spark应用的资源实现资源的调度监控。

  第三部分:数据处理,Spark框架。kafka(分布式高吞吐的轻量级消息系统,Storm(实时的、分布式以及具备高容错的计算系统)实时数据处理,Redis(高性能key-value)数据库,Spark(数据平台)的应用,内存计算框架Spark以及Impala查询。

  第四部分:数据挖掘、数据分析与机器学习。应用Python语言来实现常出库,网络爬虫,Solr集群,机器学习,Mahout技术学习

  第五部分:大数据运维,云计算平台管理。运维基础zookeeper框架,Docker引擎以及OpenStack云计算平台。

  这么多公司都在大量招收大数据专业人才,那么都有哪些成功的案例值得参考呢? 

  电子商务:淘宝网平台用户/商户行为分析。利用大数据技术,建立人群分布,尤其是以性别,年龄,工作,地域为主的成交量数据分布模型;建立类品分布,尤其是以食品,服饰,书籍,药品,数码,母婴,家居为主的成交量数据分布模型;通过海量数据进行分析计算资源整合,从而,及时有效调整公司战略方针,有效调整商业结构,做到对在不同城市,年龄段,工作的客户有针对性的区别对待,来进一步扩大平台的利润。如图十八,图十九所示:

 

                                                                 技术分享                               技术分享

图十八                                                                                 图十九

  

  零售业:沃尔玛连锁百货数据分析。在美国,沃尔玛通过数据关联规则发现一种类似草莓的水果在台风发生前后销售量相差7倍,通过数据挖掘确定了该水果在台风的影响下的销量关系,从而在之后的台风发生前期将所有该水果全部签出,有效的降低商场存货,提高商场的经济效益。如图二十所示:

 

技术分享

图二十 消费变化数据示意图

 

  航空:Farecast靠大数据预测机票价格。2003年,Oren Etzioni将要乘坐从西雅图到洛杉矶的飞机,他认为机票越早买越便宜,在飞机上,他好奇地问邻座的乘客花了多少钱购买机票。事实却是那个人的机票比他买得更晚,但是票价却比他便宜得多,于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜,他非常气愤,他想要开发一款可以预测机票价格走势的软件,最终由此成立公司运营该软件。基于深度学习及数据挖掘技术,预测航班未来可能出现的低价,提前给出报价销售给消费者。2008年微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入必应搜索引擎。被称为"一张机票成就了Farecast"。

  警务:利用大数据分析犯罪高发地点。洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型,把过去80年内的130万个犯罪记录数据输入进去,结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进,已经成为了当地警局重要的参考依据,大大降低了当地的犯罪率。如图二十一所示:

 

技术分享

图二十一

  

  不禁有人就有疑问了,既然大数据这么火爆,就像当年的O2O一样,所有人都想到里面分一杯羹,可是市场就这么大,到底有多少是炒作,大数据又能火多久呢?

  最近凯捷咨询和Informatica共同进行了一项和大数据相关的商业调查,调查人群包括在美国和欧洲的大型企业和其高管。分析结果发现:少于三分之一的大数据项目被认为是盈利的;剩下的45% 是持平12%是亏损,12%很难确定他们的大数据项目是盈利还是亏损(如图二十二)

 

技术分享

图二十二

 

 

  其实这些数据并不是那么让人惊讶, 凯捷全球大数据副总史蒂夫说"许多的大数据项目是为了解决技术学习曲线的目标(比如如果建立大数据集群)而进行,这些项目甚至于并没有考虑投资回报ROI"。也就是说一些大型企业目前在实施的大数据项目的目的是提高数据专家对大数据的理解,而不是提高投资回报ROI。

  虽说大数据上升到了国家战略层次,但回想到同为国家战略层次的互联网+下的O2O商业模式,还是要擦亮双眼慎重考虑。数据科学在多年前就被提上日程,早些年由于技术手段有限,面对庞大的数据,数据的价值不容易被挖掘出来,近些年技术和数据的双重积累极大地促进了大数据领域的发展。

  由此看来,大数据虽然火爆,但也是风险与机遇并存,小伙伴们,你们懂大数据了吗?

关于类的加载机制和反射机制只看这一篇就够了,分析的非常详细(代码片段)

类加载机制的原理1.启动JVM2.将需要运行的class文件加载到虚拟机内存中3.找到主类,开始执行主函数加载步骤:1.先委托父类加载类,如果父类已经加载,就不需要再次加载,如果父类没有加载,再由本加载器加载2.解析类路径,... 查看详情

全国计算机非全研究生学校清单(python抓取),只看这篇就够了!(代码片段)

1.前言很多it从业者竟然不知道计算机专业也有非全日制,看了我上一篇文章后豁然开朗,但是不知道从哪里入手取报考,有哪些学校可以选择?针对这些问题然后就有了该篇文章。因此下面的内容主要围绕下面主... 查看详情

2021超全大数据面试宝典,吐血总结十万字,大数据面试收藏这一篇就够了

本文最新版已发布至公众号【五分钟学大数据】获取此套面试题最新pdf版,请搜索公众号【五分钟学大数据】,对话框发送 面试宝典扫码获取最新PDF版:版本时间描述V1.02020-02-18创建V1.22020-06-17新增spark、flink相关面... 查看详情

数据库架构选型与落地,看这篇就够了

参考技术A随着时间和业务的发展,数据库中的数据量增长是不可控的,库和表中的数据会越来越大,随之带来的是更高的磁盘、IO、系统开销,甚至性能上的瓶颈,而单台服务器的资源终究是有限的。因此在面对业务扩张过程中... 查看详情

知道hardtop就够了?这九项必备技术你也必须掌握!

除Hadoop外的9个大数据技术:1.ApacheFlink2.ApacheSamza3.GoogleCloudDataFlow4.StreamSets5.TensorFlow6.ApacheNiFi7.Druid8.LinkedInWhereHows9.MicrosoftCognitiveServicesHadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了 查看详情

es6这些就够了

...6这些就够了刚开始用vue或者react,很多时候我们都会把ES6这个大兄弟加入我们的技术栈中。但是ES6那么多那么多特性,我们需要全部都掌握吗?秉着二八原则,掌握好常用的,有用的这个可以让我们快速起飞。接下来我们就聊聊... 查看详情

java集合看这一篇就够了

大家好,这里是《齐姐聊数据结构》系列之大集合。话不多说,直接上图:Java集合,也称作容器,主要是由两大接口(Interface)派生出来的:Collection和Map顾名思义,容器就是用来存放数据的。那么这两大接口的不同之处在于:Colle... 查看详情

超强大!python可视化这款大屏就够了!(代码片段)

对于从事数据领域的小伙伴来说,当需要阐述自己观点、展示项目成果时,我们需要在最短时间内让别人知道你的想法。我相信单调乏味的语言很难让别人快速理解,最直接有效的方式就是将数据进行可视化展现。提... 查看详情

真的,java并发编程入门看这个就够了(代码片段)

(真的,Java并发编程入门看这个就够了)1.Java天生多线程importjava.lang.management.ManagementFactory;importjava.lang.management.ThreadInfo;importjava.lang.management.ThreadMXBean;publicclassJavaThreadpublicstaticvoidmain(Str 查看详情

jetpackworkmanager看这一篇就够了~

...应用实战》​​中并没有提及到WorkManager,这是因为目前这个东西在国内并不是很好用。最近因为工作需要正好研究了下,也作为补充章节分享给读者。什么是WorkManager按照官方描述,WorkManager是适合用于持久性工作的推荐解决方... 查看详情

es6这些就够了

开始用vue或者react,很多时候我们都会把ES6这个大兄弟加入我们的技术栈中。但是ES6那么多那么多特性,我们需要全部都掌握吗?秉着二八原则,掌握好常用的,有用的这个可以让我们快速起飞。接下来我们就聊聊ES6那些可爱的... 查看详情

就够了

...之前,让我们来看一个在缓存中最经典的案例场景,理解这个运用场景之后,我们再去理解一致性hash算法就更容易了,在这个过程中我们还能体会一致性hash算法的优势之处,好了,让我们来描述一下这个经典的分布式缓存案例... 查看详情

图片压缩,用这个就够了(代码片段)

现在的智能手机分辨率都很高,拍的高清照片动辄5M甚至7M。上传到系统的图片太大了,导致页面加载缓慢。为此,让组里一小伙做一个压缩工具。发版后,发现图片虽然是压缩了,不过有个别图片严重失真。  然后,在... 查看详情

看这篇就够了丨基于calcite框架的sql语法扩展探索

Calcite在大数据系统中有着广泛的运用,比如ApacheFlink,ApacheDrill等都大量使用了Calcite,理解Calcite的原理可以说已经成为理解大数据系统中SQL访问层实现原理的必备条件之一。但是不少人在学习Calcite的过程中都发现关于Calcite的实践... 查看详情

c语言有这个就够了五.指针

...通过&取出变量的内存地址,把地址放在一个变量中,这个变量就是指针变量。总结:指针就是变量,用来存放地址的单位变量。(存放在指针中的值,都被当做地址处理 查看详情

mysqlorderby排序一篇就够了

...必要的。ORDERBY排序可以分为静态排序和动态排序,当然这个静态和动态是我自己取的名字,其他地方找不到。ORDERBY语法ORDERBYcolumn1 查看详情

了解kotlin,看这个就够了

在这本书中,我会使用Kotlin作为主要的语言来开发一个android应用。方式是通过开发一个应用来学习这门语言,而不是根据传统的结构来学习。我会在感兴趣的点停下来通过与Java1.7对比的方式讲讲Kotlin的一些概念和特性。用这种... 查看详情

webpack3.x看这个就够了

本文介绍webpack3.x的使用说明,本文前后连贯性很强,建议从头往后看目录开始css文件打包image文件打包字体文件打包json文件打包csv文件和xml文件打包多入口文件打包清理dist目录development开发环境错误定位development开发环境开发模... 查看详情