数据中台的分类vs标签,到底有啥区别?终于有人讲明白了

大数据v 大数据v     2023-02-22     228

关键词:


导读:数据标签到底是什么?是“真的香”,还是“弱爆了”?

作者:石秀峰

来源:谈数据(ID:learning-bigdata)

数据中台为什么要建标签体系,分类它不香吗?

在众多的数据中台的解决方案中,一个叫做“标签中心”或“标签体系”的应用,几乎成了数据中台的“标配”。

乍一看,标签体系就像一个树状的分类。

因此,有专家吐槽:“现在讲啥数据标签,数据类目,跟SAP Classification比真是弱爆了”。

注:SAP Classification为SAP产品中的一个分类系统,它支持以有序的结构将特定对象(例如,文章和站点)组合在一起。它的基本功能是为各种不同类型对象的所有属性特征提供存储库。然后将相似特征的对象分组到类中(“分类”对象),以便系统可以更容易地在事务中找到它们。

那数据标签到底是什么?它与数据分类体系相比,是“真的香”,还是“弱爆了”?

01 概念的澄清

无论是在数据中台,还是传统产品设计中,绕不开的几个概念:分类、属性、标签。

1. 什么是分类

分类,就是指按照种类、等级、性质或特征的归类。也就是把相同属性或特征的“对象”归集在一起,形成不同的类别,方便人们通过类别来对“对象”进行的查询、识别、管理和使用。“对象”可以是人、产品、物料或其他实体,例如:人可以分为男人、女人,也可以分为老年人、中年人、青少年。

2. 什么是属性

属性是事物所具有的性质或特征,重点强调的是事物本身,例如:人的性别、身高、胖瘦、年龄、性格等都是人的属性。

可以将某个事物的属性抽象出来作为事物的分类,如我们上边举的例子,男人、女人是按照性别属性对人的分类;老年人、中年人、青少年是按照年龄属性对人的分类。事物可以按照属性来分类,分类也是事物的属性之一。

3. 什么是标签

标签,原意是标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、图书标签、车检标签、文件标签、服装吊牌等。

从这个概念衍生到网络标签,是人工或系统自动或用户自发的,通过相关性很强的关键字对事物或内容进行描述,帮助人们分类内容,以便于检索和分享。例如:我们也可以给“人”这个对象打上男人或女人,老人或青年的标签。可见,标签也有维度或分类,而属性也是一种标签。

02 分类VS标签,到底有啥区别?

前边的例子中,男人、女人,老人、青年,这既可以是对人的分类,也可以是人的标签。分类和标签有时候没有明确的分界线,分类可以作为一个标签,标签也可以抽象出分类。那么,分类和标签到底有什么不同?

关于这个问题,知乎上网友的一个回答挺有意思的:

分类由于只能隶属于一个,所以往往带有武断和不恰当的色彩,它是一个“is a”的问题,属于本质论的范畴,而对事物的“本质”的认定,严格来说,这事只有上帝才能做,换句话说,谁做都不合适。标签则不同,它是一个“has a”的问题,说某个东西有某种属性,要求就没那么严格了。

笔者理解:分类是一种严谨的数据组织方式,一般按照一个或多个维度自上而下、从整体到明细的穷举,遵循“相互独立,完全穷举” 的原则。而标签是一种灵活的数据组织方式,放弃大而全的框架,基于业务场景自下而上地倒推标签需求。

除此之外,分类和标签还存在如下不同点:

  1. 分类一般是面向团队或组织的,注重标准化;而标签可以面向组织,也可以是面向个人,注重的是个性化。

  2. 分类具有排他性,分类之间是独立的、不能交叉;而标签允许交叉,标签之间可以相互关联、相互依赖。

  3. 分类体系需要事先规划,在标准化的框架下进行使用;而标签可以静态的,也可以是动态的,允许随时添加。

  4. 分类注重结构化,具有层级控制,是一个树状结构;而标签的结构是松散、灵活、开放的,整体看是一个网状结构。

▲来源:PMCAFF产品社区《知识管理——如何使用印象笔记的多级目录标签做知识分类管理?》

03 分类VS标签,哪个“香”?

在数字化应用中,分类和标签其实根本无法分出个伯仲。标签体系也需要一定的分类,而基于某个维度的分类也可以作为一种标签,只是他们支持的应用场景或有不同。

分类一直存在,它源于人的认知,可以追溯到人类的起源。

在几百万年前的原始部落,人们将打回来的猎物、采集回来的种子进行分类存放,以便存储和管理。分类的作用自然不必多说,它可以让我们条理清晰,层次清晰,一目了然的识别和管理事物。

即使在当今由互联网、计算机构成的数字化世界中,分类体系也一直是我们组织数据、处理数据、查询数据、管理数据的一个重要的手段。

在传统企业的信息化建设中,使用更多的是分类,例如:ERP中的物料分类、人员分类、客商分类等。一套科学、严谨的分类体系是企业的“人、财、物、进、销、存”等业务流程有效管理的基础,在企业管理中发挥着重要的作用。

一家企业的“物料分类”科不科学、规不规范,在很大程度上能够反映这家企业的管理的规范性情况和精细化程度。上文我们提到的SAP Classification就是这样一个可以根据事物属性特征进行多维分类体系的系统。不仅SAP,像Oracle、用友、金蝶等ERP大厂,同样也有类似的多维数据分类体系。

标签(网络标签)是随着互联网发展产生的,最早用在博客、文章的内容分类中,方便用户管理和聚合内容。随着大数据的发展,标签体系的作用也越来越大,被互联网企业广泛使用,通过特征集合并关联打标签的对象,对分析对象生成画像,挖掘对象的价值。

例如:各大互联网APP(淘宝、今日头条、抖音等)都有一个基于标签体系的推荐引擎模块,通过用户静态属性和行为属性给用户打标签,形成360度用户画像,然后根据用户的偏好将信息或产品推送给用户。

因此,分类VS标签,根本无法区别那个更“强”或哪个更“弱”,根据不同的应用场景选择不同的体系就好了。

在企业的数字化建设中,需要分类和标签结合使用,才能最大化发挥数据效能、挖掘数据价值。

04 数据中台为什么需要标签体系

上文中我们说过,传统企业的信息化使用更多的是分类体系,而标签体系是互联网企业的“致胜法宝”。

随着数字化时代的到来,掀起了传统企业数字化转型的浪潮。从技术侧来看,转型就是拥抱互联网,战略性的使用数据和IT。在这场数字化的变革中,数据中台被认为是赋能企业数字化转型,实现降本增效的新引擎。

▲来源:36氪研究院《2020年中国服装行业数据中台研究报告》

关于数据中台的文章,笔者也写了很多了,我们再回顾一下它的概念:数据中台是数据+技术+产品+组织的有机组合,是快、准、全、统、通的智能大数据体系。与数据仓库等传统数据工具相比,数据中台是一种新的理念,以“技术+业务”为双驱动,是企业开展新型运营的一个中枢系统。

因此,如果你将数据中台定位成一个存数据、管数据的技术平台,那或许有“分类体系”就可以了。如果你的数据中台定位的是企业数字化转型的运营中枢系统,要实现对前端业务的支持和赋能,那“标签体系”就是数据中台一个标配。原因前边介绍过,分类是自上而下的规划,侧重标准化,标签是自下而上的倒推,注重业务场景。

“数字转型,场景为王”,在“技术+业务”双驱模式的数据中台中,标签体系、数据萃取将助力企业运营转型升级。

05 数据中台生产数据标签的四个步骤

在经历过“追捧”和“质疑”等种种考验后,数据中台在基于业务驱动的标签体系助力下,正在用事实验证其价值。关于数据中台标签体系的建设,可以阅读《数据中台:基于标签体系的360°用户画像》一文。

下面我们简单介绍下数据中台如何通过加工和生产数据标签,从而助力企业实现数字化转型的,这个过程大致可分为四个步骤:

  • 第一,需要从业务视角对企业数据进行梳理,并将各业务域、各渠道、各类型的数据进行采集和汇聚。

  • 第二,通过对数据进行分类处理,从中提炼出可复用的行为元素(业务线、实体对象、实体属性、动作等),通过沉淀行为元素,可以更好地规范来源数据。

  • 这里业务线是在不同业务运营线,例如:某造纸公司有生活纸运营线,文化纸运营线、工业纸运营线、特种纸运营线等。

  • 实体对象是指操作和被操作的各商业主体,例如:用户、产品等。

  • 实体属性是指实体对象的属性特征信息,例如:用户的年龄、性别、喜好等。

  • 动作就是主体发出的操作,例如:询价、购买、浏览等。

  • 第三,根据对象的行为元素给对象打上相应的“标签”,以支持信息查询、信息推送等应用。与传统博客、CMS(文章管理系统)的手动给内容打标签不同,数据中台是根据对象的行为规则自动给对象打标签,并且可以设置行为数据的时间衰减算法,为不同标签分配不同的权重,形成全面的“用户画像”,做到“比用户自己还了解他自己”。

  • 第四,各相关应用直接调用数据中台的标签体系、画像服务,支持企业的精准营销、个性推荐、渠道优化、产品创新等应用场景。

其中,执行第二、第三个步骤的前提就是要做好标签类目体系的规划。也就是说,标签体系也是具有一定的分类结构的。

例如:用户标签可以按照标签的控制深度划分为基本属性标签、行为属性标签、商业属性标签等;也可以按照数据中台的数据分层结构,分为事实标签、模型标签、预测标签等。请参考《数据中台:基于标签体系的360°用户画像》

写在最后的话

分类体系和标签体系虽各有各的适用场景和侧重,但它们都是企业数据中台理念落地的关键要素,帮助企业沉淀数据资产化,优化数据服务,助力企业落地数字化转型。

分类体系能够帮助企业科学、有效的组织数据,规划标签类目;标签体系能够萃取和精炼数据服务,并对数据分类进行反向优化。在企业数据的管理和应用中,它们相互配合、互为支撑,不仅能够让企业有数可查,有数可用,而且能够让企业的数据用的更好。

延伸阅读👇

延伸阅读《标签类目体系》

干货直达👇

更多精彩👇

在公众号对话框输入以下关键词

查看更多优质内容!

读书 | 书单 | 干货 讲明白 | 神操作 | 手把手

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号

👇

数据仓库数据集市数据湖数据中台到底有什么区别?

经常看到有人问这个问题,数据玩家也看过很多解释,感觉都不够直观,这里,我尝试用一个大家都理解的例子来说明。什么是数据仓库?大家都去宜家买过东西吧,还记得一楼的大仓库不,你如果看... 查看详情

从概念走向现实:数据中台到底有什么用

...。对此,这个“看上去很美”的概念也引起了不少质疑:数据中台到底有什么用?每一家企业都需要数据中台吗?日前,“CIO&IT经理精英汇”社群对此展开了热议,不同行业的企业IT负责人发表了看法。本文将从数据中台是什... 查看详情

分类和模式识别有啥区别?

...吗?!【问题讨论】:【参考方案1】:模式识别是识别数据中的规律或模式的能力的通用术语。更通用的一种是机器学习。分类是 查看详情

scikitkearn 标签编码器和旧的分类编码器有啥区别?

】scikitkearn标签编码器和旧的分类编码器有啥区别?【英文标题】:Whatisthedifferencebetweenscikitkearnlabelencoderandtheoldercategoricalencoder?scikitkearn标签编码器和旧的分类编码器有什么区别?【发布时间】:2020-11-2311:27:09【问题描述】:在s... 查看详情

万字详解数据仓库数据湖数据中台和湖仓一体

本文目录:一、前言二、概念解析数据仓库数据湖数据中台三、具体区别数据仓库VS数据湖数据仓库VS数据中台总结四、湖仓一体目前数据存储方案DataLakehouse(湖仓一体)一、前言数字化转型浪潮卷起各种新老概念满... 查看详情

终于有人把数据湖讲明白了

...:彭锋宋文欣孙浩峰来源:数仓宝贝库作为全局数据汇总及处理的核心功能,数据湖在数据中台建设中必不可少。那么它与数据仓库、数据中台是什么关系?图10-1显示了一个典型的从数据采集到数据湖、数据仓库... 查看详情

中台vs平台区别与联系

  我们都知道中台和平台都是企业通用能力的抽取与沉淀这是毋庸置疑的,那两者之间的区别又是什么呐?为何在平台之上又提出中台概念呐?笔者最近在拜读欧创新大神大作《中台架构与实现---基于DDD和微服务》偶有感悟暂... 查看详情

大白话六问数据中台!你想知道的都在这了!

数据中台、相信这四个字大家一定不陌生。因为在2019年、数据中台可谓是最火的概念之一,很多大公司都在布局自己的数据中台。那么数据中台到底是什么?它和我们熟知的数据平台有啥区别?它为什么会这么火、能给企业带... 查看详情

数据映射器和存储库之间到底有啥区别?

】数据映射器和存储库之间到底有啥区别?【英文标题】:Whatexactlyisthedifferencebetweenadatamapperandarepository?数据映射器和存储库之间到底有什么区别?【发布时间】:2015-03-1518:36:55【问题描述】:嗯,我一直试图找出数据映射器和... 查看详情

hadoop vs teradata 有啥区别

】hadoopvsteradata有啥区别【英文标题】:hadoopvsteradatawhatisthedifferencehadoopvsteradata有什么区别【发布时间】:2013-01-1507:45:04【问题描述】:我接触过Teradata。我从未接触过hadoop,但从昨天开始,我正在对此进行一些研究。通过对两者... 查看详情

终于有人把不同标签的加工内容与落库讲明白了丨dtvision分析洞察篇

...设计完成后,便进入标签加工与上线运行阶段,一般来说数据开发团队会主导此过程,但我们需要关心以下几个问题:・标签如何快速创建和实现标签逻辑的在线化管理・业务人员怎么参与到标签建设流程中・百万级别的标签如... 查看详情

MediaFoundation RGB 数据和 BMP 之间到底有啥区别?

】MediaFoundationRGB数据和BMP之间到底有啥区别?【英文标题】:WhatexactlyisthedifferencebetweenMediaFoundationRGBdataandaBMP?MediaFoundationRGB数据和BMP之间到底有什么区别?【发布时间】:2017-06-3011:27:27【问题描述】:在试图了解如何将mediafoundat... 查看详情

php中函数库和类库到底有啥区别?

...($str)//判断的内容假如这个is_mail可以用来判断用户提交的数据是否是email格式的,这就是一个功能。判断is_mail的功能。使用的时候只要if(is_mail($str))else函数库就是很多函数的集合。有很多功能,你就不用自己重新写了,直接使用... 查看详情

万字详解数据仓库数据湖数据中台和湖仓一体

本文目录:一、前言二、概念解析数据仓库数据湖数据中台三、具体区别数据仓库VS数据湖数据仓库VS数据中台总结四、湖仓一体目前数据存储方案DataLakehouse(湖仓一体)一、前言数字化转型浪潮卷起各种新老概念满... 查看详情

数据中台为什么要建标签体系,分类它不香吗?

来源:谈数据,作者:石秀峰全文共3678个字,建议阅读6分钟大家好,我是云祁,好久不见 👋 最近一直忙于新工作填坑ing... 原创更新的频率变低了不少,掐指一算上一篇原创emmmmm 还是一个多月... 查看详情

对象识别 vs 检测 vs 分类?有啥不同?

】对象识别vs检测vs分类?有啥不同?【英文标题】:Objectrecognitionvsdetectionvsclassification?What\'sthedifference?对象识别vs检测vs分类?有什么不同?【发布时间】:2017-11-2313:02:13【问题描述】:我不知道在哪里可以问这个问题,如果不... 查看详情

Laravel Queue,Beanstalkd vs Database,有啥区别?

...】:2015-09-1418:25:15【问题描述】:使用Beanstalkd和队列的数据库驱动程序有很大区别吗?一些优点和缺点是什么?数据库队 查看详情

特征和标签有啥区别? [关闭]

...些东西可以是功能或标签。据我所知,功能是正在使用的数据的属性。我不知道标签是什么,我知道这个词的意思,但我想知道它在机器学习的上下文中是什么 查看详情