大数据的误区

zhulinu zhulinu     2022-12-15     393

关键词:

  个人言论,本文仅从另一个视角看待大数据,如不能理解请一笑而过,勿做无谓的拍砖,仅此而已。

1什么是大数据

   现在很多人都热衷于把大数据放在嘴边,但你要问一下什么是大数据,大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着很深的原始渴求,至少在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了。

    最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

    IBM 最早将大数据的特征归纳为4个“V”(体量Volume,多样Variety,价值Value,快速Velocity),第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

    维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

    书中提到大数据的核心是预测。有三个思路的转变:1-不是随机样本,而是全量数据;2-不是精确性,而是混杂型;3-不是因果关系,而是相关关系。

2现状分析

   根据国家统计局2014年12月16日发布的《第三次全国经济普查主要数据公报》中显示全国共有从事第二产业和第三产业活动的法人单位1085.7万个,占全部企业法人单位95.6%。从业人员35602.3万人,平均每个单位32.8人。这个数据说明了中国绝大多数的企业都是中小企业,在这种情况下,有多少企业有海量数据呢?

    我们换个角度在看看一下数据,我们搜索一下国内几个典型客户的网站排名情况查询网站是alexa。

用友:

东软:

绿盟:

    

从中可以看出用友的pv最大,也就是一天63000个,一年的数据量也就是2300万,在加上别的数据,数据的量级也就是G级别的,还远未到T级,更别说P级了。在这个量级上,一台好点的pc server就可以处理完成大部分的需求,如果考虑到可靠性最多需要两台。通过上面的分析,我们可以发现在中国,绝大多数的公司是没有太多数据的。

3大数据的核心价值

   《大数据时代》中提到的大数据的核心价值是预测,但我们提到大数据往往提到都是大数据技术,比如hadoop,spark,storm,hbase,hlive,spark等等,人们对此的讨论总是乐此不彼。但现实的情况往往是数据只能验证现在,数据无法预见未来!

    举个最近的例子:

    大数据告诉我们股市暴跌后必然有反弹。于是6.25大跌后,大家都认为周5必然有一个反弹。结果周5就被庄家们狠狠的教育了一把。6.28的双降(降息,降准),所有都说周一6.29会上涨,可周一中国的庄家让散户们明白,数据和经验只是你的一厢情愿,他不会给你一丝的喘息机会

    一切不以解决业务为出发点的技术都是耍流氓,计算机技术的发展是非常迅速的,往往一个技术可能没有多长时间就会被淘汰或者升级。如果没有业务场景作为支持,存粹的学习大数据的技术是没有太大的价值,笔者崇尚的是学以致用。因为大脑有个很明显的特征是健忘,如果用不到,学这些技术过一段时间就会忘记,还不如暂时不学,等后面需要用到的时候在学。原理基础知识等除外。

 赛克蓝德(secisland)原创,请勿转载。

4数据真的值钱吗

   很多时候数据并没有我们想象的这么值钱,尤其是互联网上很容易采集到的数据,比如:爬虫这个东西,我一开始不是太懂,但是花点时间,基本上通了,无论是用python自己写一个,还是直接用现成的各种软件,都是很快就可以部署并开始采集。中国有大量的程序员,还有的稍微懂点编程的计算机爱好者,另外爬虫软件的出现可以让一个新手随便花点时间就可以学会采集。所以采集的门槛在降低;其次数据的可复制性导致其廉价,尤其是非结构性的数据,从现在互联网上大量的转载文章就可以看出知识的传播复制是非常廉价的。

    数据的利用才是有价值的。比如一个老板,他每天看几十个零散数据放到他面前,但是却没有把行为数据和商业数据的关系告诉他有什么用呢?一个公司CEO,每天看到几十个数据,什么PV、PU、UV等等是没有意义的,对于他们来说,只需要知道有问题吗?问题是什么?有新的发现吗?需要做什么?这就行了。

5大数据的泡沫

   伯克利的Jordan教授给出了答案,他是机器学习世界范围内最被尊敬的专家之一(下面的翻译是知乎上的作者Quinn Sure)

1. 目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”,一大波“false positive”(假阳性)正在接近,因为数据增长的速度不够支撑我们把大数据到处乱用的欲望。作为一个科学,不够严谨(原文是“没有error bar”)。不像造桥的土木工程,经过多年的积累,明确地能告诉我们什么样的情况可以造,什么不可以。而大数据没有。

2. 目前在computer vision领域进展还很小,只能在非常有限的范围内识别,比如人脸识别这样非常具体的引用(虽然这个不是直接说大数据,但是可以看出,作者认为真正做到万物都sensor还很远,大数据的采集能力终究还是有限的)

3. neural network根本和人脑的neural network不是一回儿事,我们对大脑的理解根本没到可以引用到计算机科学的程度,现在deep learning所采用的back propagation技巧,明显不是大脑的运作方式,network的结构都完全不同,什么对数据的模糊性处理已经达到人脑的境界云云,主要是媒体扯谈。

对他观点的总结:

有些媒体为了让公众容易理解打了些比方,但是这种比方造成了太多误解,进而造成了太多hype(夸张的大肆宣传)。大数据还是一个没有足够严谨程度的科学,可能有一定的概率做出一些有用的预测,但是使用不当,过分过早地依赖,则会造成灾难性的后果。

很多时候大家过早对一个技术爆发热情,寄希望她可以改变世界,如果短时间没有成果,有可能热情一下子转冷又觉得这是个错误,加速抽离给这个技术的资源。显然Michael很担心现在公众对这个技术的热情,并不是基于对这个技术的理解,从而有可能会经历这样的态度转变。但是他认为这个领域是现实存在的,很多重要的应用,假以时日,是会创造价值的。但是现在很多媒体宣传,甚至投资行为,都是泡沫。

6从小数据开始

   那怎么做的呢,从小数据开始,小数据就是个体化的数据,是我们每个个体或组织的数字化信息。比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼。这就是我生活中的“小数据”,它不比大数据那样浩瀚繁杂,却对我自己至关重要。现在很多企业面临的最大问题不是怎么用大数据,而是小数据都没用好的情况下怎么用大数据。大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的。

    首先要了解自己的企业,自己所在的行业的核心是什么。有很多企业在竞争的过程中,最终不是被现在的竞争对手打败,而是被很多不是你的竞争对手所打败。很简单的一个例子,大家都认为亚马逊是做电商的,但这是错的,它现在最主要的收入来自于云服务。所以要找到企业的核心数据,这个是最关键的。只有在这个基础上,利用分析好这些数据,然后在做一些延伸。其次,在找与内部相关的一些数据,去慢慢地成长它。有点像滚雪球,第一层是核心,第二层是外围相关的数据。第三层是外部机构的一些结构化数据。第四层是社会化的,以及各种现在所谓的非结构化的数据。这几层要一层一层地找到它,而且要找到与自己相关的有价值的东西。这样你的数据才能利用起来。

    赛克蓝德(secisland)原创,请勿转载。

使用缓存的9大误区(下)(转)

...础上继续讨论了使用缓存的几个误区,包括:缓存大量的数据集合,而读取其中一部分;缓存大量具有图结构的对象导致内存浪费;缓存应用程序的配置信息;使用很多不同的键指向相同的缓存项;没有及时的更新或者删除再缓... 查看详情

数据中台建设的9大误区,你中了几条?

...同企业的发展程度存在差异,因此会导致不同企业的数据中台的建设起点不同。虽然起点存在差异,但是数据中台的建设应该是一个不断迭代和优化的过程,没有终点。另外,不是每个企业都需要建设一个大而全... 查看详情

数据中台建设常见的几大误区,如何规避,你需要知道这几点

...、不同企业的发展程度存在差异,因此会导致不同企业的数据中台的建设起点不同。虽然起点存在差异,但是数据中台的建设应该是一个不断迭代和优化的过程,没有终点。另外,不是每个企业都需要建设一个大而全的数据中台... 查看详情

数据中台建设常见的几大误区,如何规避,你需要知道这几点

...、不同企业的发展程度存在差异,因此会导致不同企业的数据中台的建设起点不同。虽然起点存在差异,但是数据中台的建设应该是一个不断迭代和优化的过程,没有终点。另外,不是每个企业都需要建设一个大而全的数据中台... 查看详情

使用缓存的9大误区

...把一些常用的,或者需要花费大量的资源或时间而产生的数据缓存起来,使得后续的使用更加快速。  如果真要细说缓存的好处,还真是不少,但是在实际的应用中,很多时候使用缓存的时候,总是那 查看详情

如何应对上手英文工具站的8大误区

...尝试去卖过,比如直接做一个落地页,去卖卖看,然后看数据做决策,而不是盲目的先去做。最好的MVP应该是像生财有术说过的卖空气,我理解为是最快完成商业闭环的验证。然后根据数据去决策是否要做这个“空气”,拿英文... 查看详情

3网站架构设计误区

在大型网站架构发展过程中有如下几个容易岀现的误区。1一味追随大公司的解决方案由于大公司巨大成功的光环效应,再加上从大公司挖来的技术高手的影响,网站在讨论架构决策时,最有说服力的一句话就成了“... 查看详情

7大编程误区,你避开了吗?

作者|MohamedBarouma    译者|王启隆出品|CSDN(ID:CSDNnews)我们很少看到有人公开谈论自己的错误。人非圣贤,孰能无过?虽然难言出口,但反思过去所犯的错误可以让人不会在未来——至少是短期的未来&#x... 查看详情

电脑菜鸟对杀毒软件的常见4大误区

...于电脑菜鸟,一般对于杀毒软件或多或少都存在以下四个误区:1)只要不上网就不会中病毒了好多人认为只要不连接到网络,电脑就不会中病毒,确实有很多病毒是通过网络传播,但移动存储也是传播病毒的一大根源,如U盘、... 查看详情

陈松松:新人操作视频营销的5大误区

650)this.width=650;"src="https://s2.51cto.com/wyfs02/M00/9A/9C/wKioL1lYbynw039mAAGvwBUOuIM986.jpg-wh_500x0-wm_3-wmp_4-s_4092234148.jpg"title="2017.4.1tt.jpg"alt="wKioL1lYbynw039mAAGvwBUOuIM986.jpg-wh_ 查看详情

socket网络编程的5大误区(代码片段)

隐患1.忽略返回状态第一个隐患很明显,但它是开发新手最容易犯的一个错误。如果您忽略函数的返回状态,当它们失败或部分成功的时候,您也许会迷失。反过来,这可能传播错误,使定位问题的源头... 查看详情

新人制作机器人的7大误区——你中招了吗?

我想做一个Wall-E一样的机器人,买了零部件就迫不及待的开始组装,不想用别人的模块产品就想自己搞.....作为一个初学者的你,是否也有过这些想法呢?1、机器人编程用什么语言?实际上并没有“机器人编程”这个说法,甚至... 查看详情

初学者机器人制作的7大误区——你中招了吗?

 我想做一个Wall-E一样的机器人,买了零部件就迫不及待的开始组装,不想用别人的模块产品就想自己搞.....作为一个初学者的你,是否也有过这些想法呢?1、机器人编程用什么语言?实际上并没有“机器人编程”这个说法,... 查看详情

数据模型的常见误区

数据模型的要求 1.要直观的模拟真实世界 2.容易被人理解 3.便于计算实现一、低质量建模 SteveHoberman的《DataModelScorecard》一书中详细罗列了低质量建模的十宗罪 1. 没有准确的捕获到需求这个属于数据建模最... 查看详情

数据库优化的常见误区

MYSQL数据库常见优化误区?分配内存越多越好,可能导致OSSwap?session级内存分配过大,导致OOM?索引越多越好,可能导致更多IO?Qcache设置过大,实际效果差?认为MyISAM的只读效率远高于InnoDB?人云亦云,不自己动手实践?过度优化,反而... 查看详情

自学编程的5大误区,早知道早避坑,过来人的宝贵经验

...用场景。我举几个例子,比如说java它适合做安卓、大数据,或者是我们的javaEE,C和C++它比较适合做底层开发;比如说像游戏引擎、系统软件;你再比如说汇编语言适合做驱动开发,比如python它比较... 查看详情

数据防泄漏有哪些常见误区?

近年来,随着信息技术的发展,目前国内的数据规模和应用模式发生了极大的变化,不仅是数据的规模逐渐扩大,数据的地位与应用对于企事业单位来说也变得越来越重要。与此同时,数据泄露的风险也在不... 查看详情

数据防泄漏有哪些常见误区?

近年来,随着信息技术的发展,目前国内的数据规模和应用模式发生了极大的变化,不仅是数据的规模逐渐扩大,数据的地位与应用对于企事业单位来说也变得越来越重要。与此同时,数据泄露的风险也在不... 查看详情