数据驱动的基本原理是什么?

author author     2022-09-17     673

关键词:

人人都在谈数据驱动,如数据化管理、数据驱动的运营、或者数据驱动的测试等,关于数据驱动的应用的讨论很多,但关于数据驱动基本原理的讨论较少,本文试图追根溯源,谈一谈数据驱动的基本原理:数据如何驱动?能够驱动什么?

谈原理之前,先说一个我个人的经历。

有一次我老婆从首都机场T3航站楼回家,我帮她叫了一个滴滴,后来我看到账单显示是80多元,路程是20多公里,而我家离机场不过7-8公里,一般滴滴专车的费用是40多元,显然司机是绕路了,滴滴的APP上同时也显示了一条信息,大致意思是:车费异常,是否需要申诉?

我点击了“需要申诉”,滴滴APP立刻弹出一个界面,大意是:您有很好的信誉记录,接受您的申诉,此次收费按42元计算(具体数字忘了,反正是按正常的计费水平)。

当时觉得,哇,滴滴这个功能太牛了,给客户的体验太好了!

试想一下,在滴滴之前打出租车,类似状况是完全不同的场景:

    1,  你可能根本不知道司机绕路了

    2,  你事后发现司机绕路了,但你下车时忘了要票据,无法举证

    3,  你当时就发现司机绕路了,跟司机要了票据,但票据上只有里程和时间,而没有出发地点、目的地和行车路线,你无法证明司机绕了路

 而滴滴则彻底改变了这一状况:主动提醒你是否需要投诉,你提出申诉后,立刻就做出令你满意的处理!

滴滴的投诉处理如此贴心而智能,它是怎么做到的呢?如果我们对数据,以及数据与信息、知识和人工智能的关系有一些基本的了解,就能理解滴滴这种投诉处理的运作机制。

数据金字塔可以帮助我们理解数据与信息、知识和人工智能的关系。


技术分享

数据:本身无意义的客观存在

 数据的定义:更确切的说法是原始资料(raw data),它本身没有任何意义和价值,只是一个客观的存在,因此它可以作为证据发挥作用。

数据本身是没有意义的,如果它不能转化为信息和知识的话;但如果没有数据,或者数据匮乏,信息和知识的产生也就成了无水之源。

 《未来简史》作者尤瓦尔·赫拉利认为,人类将进入数据主义(dataism)时代,在这个时代,每个人都应该信奉这样一个格言:如果你经历了某件事,把它记录下来。如果你记录了某件事,把它上传。如果你上传了某件事,分享它。这意味着每个人都成为数据的采集、处理和分享者。这当然是数据从业者所向往的一种理想状态。

 在上述滴滴的例子里,滴滴显然做到了这一点:乘客的所有用车经历都由系统做了记录、上传和分享。

 但大多数企业在数据层面存在以下两个问题:

一是数据存在缺失:比如我所服务的一家互联网公司,他们就没有关于客户推荐的数据(有多少客户向他人推荐了产品),这是一个很小的例子,但数据缺失是企业普遍存在的现象,原因在于目前企业所拥有的数据主要来自于各业务系统CRMERP等,而业务系统是为完成特定业务而设计的,数据只是副产品而已,必然导致决策所需的一些数据是缺失的;

 二是数据采集的无效性:一些传统企业很重视数据的采集,例如他们会要求门店的员工将接待客户的相关信息记录下来,但所记录的数据质量不高,用途极有限,这里面原因有二:一是采用纸笔或者Excel来记录,过程比较麻烦,二是他们只是单纯的数据采集、处理和分享,但数据的应用却基本和他们无关,员工采集数据只是应付了事,缺乏内在的动力。

互联网公司也同样存在数据采集无效的情况,如一家互联网公司通过QQ和潜在客户沟通,他们所了解到的客户需求信息记录都在QQ里,如果要想过一段时间再跟进某个客户,往往很难找到这个客户的相关信息,QQ里记录的这些数据实际上无法为业务所用。

要解决企业在数据层的这两个问题,需要企业基于经营决策需要,对数据进行统一的规划:需要哪些数据,如何采集,以什么方式记录;比如上面所说的互联网公司,如果一开始就有关于潜在客户开发需要哪些数据支持的规划,就有可能设计出一个结构化的需求沟通工具,既可以有效记录客户的需求信息,又利于后期的数据分析。。

 如果没有对数据的统一规划,企业的数据将很可能会处于“ROT垃圾状态”,即冗余(Redundant)、过时无用 (Obsolete)和琐碎(Trivial)。

信息:被组织起来的数据

信息:是被组织起来的数据,是为了特定目的对数据进行处理和建立内在关联,从而让数据具有意义,它可以回答谁(who)、什么(what)、哪里(where)、什么时候(when)的问题,对于企业经营而言,信息的作用在于过程管理绩效评估

在上述例子里,滴滴的系统将时间、出发地、目的地、行驶路线、会员等资料整合起来,就形成了一条完整的乘客乘车信息,从而实现了对司机服务过程的监控和管理。

在将数据转化为信息的阶段,目前企业存在两个问题:

一是缺乏有效的数据分析工具:少数大型企业(如银行和电信公司)一般拥有BI系统可以实现将不同源的数据进行整合、并支持在线分析处理和报表,但很多企业还是依靠Excel进行分析和报表,比如一家拥有上百家门店的中型珠宝公司,老板很重视数据,强调用数据说话,每次开经营分析会,大区经理就要熬夜用Excel来做各种分析报表,效率很低,也很让区域经理窝火:我是带兵打仗的,却需要我做这么多案头工作!

二是缺乏将数据转化为信息的分析能力:有一定规模的企业现在都拥有大量的数据,例如我们从一家互联网公司各业务系统导出来的数据,就达数千万行之多,如何从这些数据里看到数据之间的联系,将他们组织成有意义的信息,无疑是一个挑战,一般的企业不具备既了解业务又会数据分析的人才。

这导致企业所拥有的数据里,只有很少一部分得到了有效处理,变成了有价值的信息,而大部分数据停留在其原始状态:只是一个无意义的客观存在。

知识:对信息的总结和提炼

知识是基于信息之间的联系,总结出来的规律和方法论,主要用于回答为什么(why)和怎么做(how)的问题,在企业里的应用包括问题诊断预测最佳做法。

举个例子,北京夏季高温多雨,8月份温度在20-36度之间,平均降水天数12天,这是根据多年资料总结出来的北京气候的规律,这个知识有三个作用:

    1,  问题诊断(回答为什么),如这个知识解释了北京今年8月份为什么下了那么多雨

    2,  预测:明年8月份北京很可能温度还在20-36度之间,平均降水天数12

    3,  最佳做法:8月份来北京旅游穿短袖衣服即可,体弱者要带长袖,最好带伞。

滴滴的系统里应该有一个关于如何处理司机绕路问题的知识库,否则就不会这么智能化地完成投诉处理了。

大多数企业在知识层面做得较差,一些企业虽然建立了知识管理系统,但并没有一个有效的知识生成、应用和更新机制;更多的企业没有知识管理的体系,这些企业存在大量隐性知识,比如企业里总有一些销售高手,他们凭直觉或经验能够取得突出的销售业绩,他们也许说不清楚,但他们知道怎么筛选潜在客户、知道何时跟进、知道何时应该促成,这就是所谓“隐性知识”,隐性知识显得如此神秘,导致很多管理者认为销售高手是天生的,是无法复制的。

有效的数据驱动机制将能实现企业里隐性知识显性化,显性知识结构化,从而让企业里的每个人可以随时随地获取相关知识进行业务操作。

以销售为例,克隆一个销售高手或许不可能,但从数据的角度来看,如果销售人员的销售行为资料都能够得以完整记录,并得到有效整理和总结,就可以提炼出销售的最佳做法,从而让每个销售人员都可以在销售中运用这些做法。(对这个议题感兴趣的可以看看Jenny Dearborn所著《销售的革命》,它以讲故事的方式阐述了数据如何帮助销售管理者进行问题诊断、预测以及销售最佳做法总结)


人工智能:机器对信息和知识的自主应用

人工智能是系统基于数据、信息和知识,形成类似于人脑的思维能力(包括学习、推理、决策等)。

在信息和知识层面,数据都是提供决策支持作用,而到了人工智能阶段,则是系统模仿人类应用信息和知识进行自主决策了。

我所经历的滴滴司机绕路的例子,就是滴滴的系统根据我的乘车信息,以及滴滴系统里的知识库,由系统而非滴滴员工完成了一个投诉处理过程。

实际上,这样的应用早已很普遍,亚马逊著名的推荐机制也是类似的,系统代替了员工,不厌其烦地向顾客推荐他可能感兴趣的商品。

不少人认为,数据金字塔的顶端是智慧而非人工智能,对此我有不同看法:智慧不是建立在知识基础上的,知识不是智慧的必要条件,很多高僧很有智慧,但并没有很多的知识,比如六祖慧能从小不识字,却能闻经解义。

原因在于,知识来源于经验(数据),来源于人类对这个三维世界的观察,而智慧可以无需通过经验,有可能通过与高维度建立连接而获得(北大的刘丰教授有一个演讲,名字叫《开启你的高维智慧》,大家可以参考)

而人工智能则一定要建立在数据基础之上,没有数据,无论是专家算法还是深度学习都无用武之地,有了数据,计算机才有可能通过专家算法或深度学习形成知识,进而具备类似人类头脑的思维能力。

从这个意义上来说,人工智能永远无法超越人类的智慧。由此我们也可以看到数据的局限性:它可以将人类的理性发挥到极致,但它只会模仿却无法创造,它无法替代人类的感性和直觉,而正是这份感性和直觉,让生命多了一些有趣和柔软,真正的创造也由此发生!



本文出自 “数据信徒占向东” 博客,转载请与作者联系!

数据库基本原理#3:一个数据库中有什么?

数据库基本原理#3:一个数据库中有什么?值得一提的是很多人将不需要去创建他们自己的数据库。你可能从不会去创建你自己的表格或者是其他的一些数据结构。你可能是安装应用系统为你创建数据库,你也只是做一些备份修复... 查看详情

爬虫基本原理

...网一样。#2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数... 查看详情

爬虫基本原理(代码片段)

...。  2、互联网建立的目的  互联网的核心价值在于数据的共享/传递:数据是存放于一台计算机上的,而将计算机互联到一起的目的就是为了能够便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机拷贝数据了。... 查看详情

爬虫基本原理

...网一样。2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的 查看详情

爬虫-基本原理

...网一样。#2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算 查看详情

爬虫基本原理

...网一样。#2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算 查看详情

数据库基本原理#3:数据库中是什么

...赖慧芳译文:值得注意的是,很多人都不需要创建自己的数据库。可能也不会创建自己的表或其他数据结构。又可能只需要运行备份,重新存储并操作系统上的安全性,让应用程序安装为您创建数据库。这完全可以理 查看详情

vue实现数据驱动视图原理(代码片段)

一、什么是数据驱动  数据驱动是vuejs最大的特点。在vuejs中,所谓的数据驱动就是当数据发生变化的时候,用户界面发生相应的变化,开发者不需要手动的去修改dom。  比如说我们点击一个button,需要元素的文本进行是和... 查看详情

关于raid的基本原理软raid的实现演示(代码片段)

...、提高传输速率。RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量。原因:在RAID中,可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动 查看详情

clickhouse系列-第二节-基本原理

...已经能够达到很高的性能了。因此,在现阶段,制约着大数据OLAP查询速度的已经不再是算法了。那么这个问题的答案是什么呢?实践是检验整理的唯一标准,我们来做个实验看一下。实验我们写一段代码来模拟数据库执行SELECTma... 查看详情

what'sthe爬虫之基本原理

...样。2、互联网建立的目的?  互联网的核心价值在于数据的共享和传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数... 查看详情

memecached缓存原理及基本操作分布式(一致性hash)

...存是什么?为什么要使用缓存?缓存,通过在内存中缓存数据和对象来减少读取数据库的次数,从而提供动态、数据库驱动网站的速度。缓存工具有哪些?区别在哪里?      缓存工具:Memecached、redis、 查看详情

abtest基本原理与框架一

...环:衡量-发现-迭代-验证。所谓精细化迭代是一种建立在数据基础上的思维方式——用较少的成本获得较好的效果。无数据,不优化,线上分流实验是进行推荐算法优化的必由之路。并且abtest不仅是推荐迭代的利器,他还可服务... 查看详情

什么是泛型?泛型的基本原理与使用优势。(代码片段)

...可以应用于非常广泛的类型,代码与它们能够操作的数据类型不再 查看详情

sqoop基本原理

...o-Hadoop)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库... 查看详情

爬虫基本原理(代码片段)

...网一样。#2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数... 查看详情

storm基本原理概念及基本使用

1.背景介绍1.1离线计算是什么离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示;代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据1.2流式计算是什么流式计算:数... 查看详情

爬虫基本原理

什么是爬虫?即“请求”网站并“提取”数据的“自动化”程序。爬虫基本流程:发起请求:通过HTTP库向目标站点发起请求,即发送一个Reques,请求可以包含额外的headers等信息,等待服务器相应。获取相应内容:如果服务器能正... 查看详情