数据分析基础概念

author author     2022-11-10     178

关键词:

互联网进一步聚合,对大数据的分析必然会成为一个关键的策略部门的工作。

像很多事物先是存在,然后再变得合理一样,数据分析师也会因为一些公司的实际需求而存在,然后从事的工作与技能也会不断地变得丰富与完善。

说到数据分析,小程会想起Sherlock Home,破案是需要分析数据的:
技术分享图片

但作为一般的技术人员,读者并不需要像电视剧的人物那么“聪明”,只需要掌握一般的知识与技能就有可能胜任工作了,然后才是不断的能力提升。

已经有一些机构根据自己的理解,定义了数据分析师应该掌握的技能,比如下面这个来自网上的图片:
技术分享图片

这个图有一定的合理性,立志成为数据分析师的读者,可以参考一下其中提到的技能要求。

作为数据分析的开篇,本文介绍几个在数据分析时经常会说到的概念。

以下介绍的概念,读者有可能会觉得枯燥,建议跳读即可。

(1)平均数

平均数,指得是算术平均值,也就是总和除以个数(或其它单位的和)。平均值,是经常用到的概念,比如“平均每个同学可以分到2个苹果手机”、“下载的平均速度是1MB/s”、“一个月的花费平均是4千块”。

均值有一个缺陷就是在极端情况存在时,也就是极大与极小都很离谱时,平均出来的值就变得不合理,这也是投票取平均分时,可能会考虑把最高分与最低分去掉再作平均的原因。

对于这种缺陷的例子,可以看看下面来自网络的图片:
技术分享图片

招聘者告诉读者,就职的话平均工资有1800,而实际当读者就的是员工一职时,工资就只有800了。

这个也是平均值谬误的一个例子。

再看另一张图:
技术分享图片

不同等级的收入差距很大,假如收集到若干家庭的收入,并取平均数来代表普遍家庭收入的话,就是不靠谱的,富人把穷人平均了。

对于这种统计,可以去掉极端值再统计,或者取每个区间的比例,或者用下面介绍的中值或众数。

(2)中位数

中位数是大小值的分隔值,出现极大值或极小值都不影响到中位数,所以在这种极端的情况下,中位数是可用的一个参考值。

对于奇数个数的数值序列(已排序),中位数就是中间那个值。对于偶数个数的,中位数就是中间两个值的和除以2。

比如:1,2,3,4,5 中位数是3。

比如:1, 2, 3, 4, 5, 6 中位数是(3+4)/2=3.5。

(3)众数

众数,就是出现次数最多的值。可能一个众数都没有,也可能有多个众数。

比如:1, 1, 2, 5, 3, 5, 1 众数是1。

比如:5, 4, 6, 2, 5, 6 众数是5跟6。

众数就是“大家都这样”,是具有一定参考意义的。

(4)绝对数与相对数

绝对数是没有对比的数,比如天气是27度、一个班有50名学生、月薪是5万块,等等。

相对数是一个比值,比如提升了10%、体重不到某人的一半、比例是1:3,等等。

简单来说,绝对数是自然数,而相对数一般是百分比(或能转为百分比)。

(5)百分比与百分点

成本上涨了80%、速度下降了30%,这些都是百分比,这是一个经常出现的形式。

一个点,或一个百分点,就是1%。

一般在百分比的幅度变化时,使用百分点,比如从3%到5%,提升了2个百分点。

(6)比例与比率

部分占总体的比重,为比例。比如失败率是0.01%(占失败与成功的总和)、男同事占所有同事的70%,等等。

比率,是各部分的比,比如女学员与男学员的比率是1:3,等等。

(7)倍数与番数

一般在上涨的情景,用倍数,比如涨了2倍。而在下降的情景要用百分比,比如收入减少了30%,当然在上涨的时候也可以使用百分比,比如参会人数增加了300%。

番数,表示2的N次方。

纯收益番了一番,表示增加1倍(2的1次方,也就是原来的2倍)。

番了两番,表示变成了4倍(2的2次方);番3番,表示8倍,等等。

(8)同比与环比

同比,用于比较,比如现在是5月,同比于去年的5月,这个月的重大故障下降了30%。

环比,用于趋势,比如环比上一周、环比上一个月,这一周或这一个月是怎么样的。


总结一下,本文简单介绍了数据分析中经常会遇到的概念,比如平均数、百分比、番数、同比与环比等。

数据结构与算法基础概念

基础概念数据结构讨论的范畴,算法、数据结构概念,算法和算法的度量算法讨论的范畴算法:处理问题的策略。数据结构:问题的数学模型(非数值计算)及其上的操作在计算机中的表示和实现。数值计算使用计算数学。数据... 查看详情

数据结构基础概念

1.数据的特点:可以输入到计算机,可以被计算机程序处理2.数据是一个抽象的概念,将其进行分类后得到程序设计语言中的类型。如:intfloatchar等等3.数据元素-组成数据的基本单位,数据项:一个数据元素由若干数据项组成4.数... 查看详情

数据库——基础概念

1、数据库系统=数据库+数据库管理系统+应用开发工具+数据库管理员+用户+......;2、SQL=structuredquerylanguage;   SQL=DDL(数据定义语言)+DML(数据库操作语言)+DCL(数据控制语言);3、数据存储发展阶段:人工管理—文件系统阶... 查看详情

数据库设计基础

  数据库设计分为需求分析、概念设计、逻辑设计和数据库物理设计四部分,如图。1.需求分析:  阶段成果:需求说明书。2.概念结构设计:  概念结构设计主要是对用户需求进行综合、归纳与抽象,形成一个独立于具... 查看详情

数据分析基础概念

...门的工作。像很多事物先是存在,然后再变得合理一样,数据分析师也会因为一些公司的实际需求而存在,然后从事的工作与技能也会不断地变得丰富与完善。说到数据分析,小程会想起SherlockHome,破案是需要分析数据的:但作... 查看详情

[es]基础概念

...,支持分布式和集群,并且搜索近实时,主要用于搜索和数据分析索引index可以理解为数据库中的database,存储的是实际数据,因为ES是以Luence为基础的,Luence索引是一种倒排索引结构,不同于数据库中的表面向行数据,索引是面... 查看详情

sparkstreaming基础概念

  为了更好地理解SparkStreaming子框架的处理机制,必须得要自己弄清楚这些最基本概念。   1、离散流(DiscretizedStream,DStream):这是SparkStreaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spar... 查看详情

etl基础1(概念)

抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是ETL解决方案的成功实施的一个主要障碍。转换(Transform):任何对数据的处理过程都是转换。这些处理过... 查看详情

servlet基础概念

一、servlet是什么?运行在Web服务器上(如:tomcat),作为浏览器请求与数据库或其他应用程序之间的中间层二、servlet主要任务:1.读取浏览器发送的显式数据(如:html表单)隐式数据(如:cookies);2.处理数据并生成结果,期... 查看详情

爬虫基础概念

一、什么是爬虫如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据爬虫的基本定义向网站发起请求,获取资源后分析并... 查看详情

小白学es01-elasticsearch的基础概念

...h的使用场景2Elasticsearch的功能概述2.1分布式的搜索引擎和数据分析引擎2.2全文检索结构化检索数据分析2.3海量数据的近实时处理3Elasticsearch的核心概念3.1ES服务的相关概念3.2ES 查看详情

hbase基础概念

定义非关系型分布式列式数据库,支持大数据量查询(百万,上亿行)概要数据存储:HDFS数据计算:MapReduce/Spark服务协调:Zookeeper特征列式存储(列只有一种类型byte[])分布式大数据存储(百万,上亿行;上万列)伸缩性,扩展性(列... 查看详情

基础概念2

账本(ledger)  在每个peer节点中都有一个账本:  在每个账本里的东西:    1.TransactionLog//交易记录,就是一个区块保存在FileSystem中    2.StateDatabass//状态数据库,存储的是数据状态,也就是最新的用户信息 查看详情

storm篇--storm基础概念

一、前述Storm是个实时的、分布式以及具备高容错的计算系统,Storm进程常驻内存,Storm数据不经过磁盘,在内存中处理。二、相关概念1.异步:流式处理(异步)客户端提交数据进行结算,并不会等待数据计算结果。2.同步:实... 查看详情

机器学习基础概念笔记

监督学习:分类和回归属于监督学习。这类算法必须知道预测什么,即目标变量的分类信息。  常见算法:k-近邻算法、线性回归、朴素贝叶斯算法、支持向量机、决策树、Lasso最小回归系数估计、Ridge回归、局部加权线性回归... 查看详情

文件系统基础概念(代码片段)

文件系统文件系统:数据+元数据文件系统划分为多个块组块组中划分为:1、数据区:数据块:超级块:存储了所有结构2、元数据区:inode其中存储了正在使用的数据块地址。数据块是否使用:全盘扫描:将使用的标记为1,未使... 查看详情

rocketmq基础概念剖析,并分析一下producer的底层源码

...谈》已经聊过了,如果需要了解的话可以回过头去看看。基础概念Broker首先我们要知道,使用RocketMQ时我们经历了什么。那 查看详情

大数据&人工智能统计学入门——数据科学领域最需要了解的统计学基础概念

目录统计学入门——数据科学领域最需要了解的统计学基础概念什么是统计学?数据科学入门必备统计学概念什么是对象?什么是总体& 查看详情