剖析大数据平台的数据采集

逸见      2022-02-16     257

关键词:

我在一次社区活动中做过一次分享,演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中,我主要分析了大数据平台架构的生态环境,并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解,并结合具体的技术选型与需求场景,给出了我个人对大数据平台的理解。本文讲解数据采集部分。

数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了。

在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。

但是在大数据平台下,由于数据源具有更复杂的多样性,数据采集的形式也变得更加复杂而多样,当然,业务场景也可能变得迥然不同。下图展现了大数据平台比较典型的数据采集架构:


以下是几种比较典型的业务场景。

场景1:为了提升业务处理的性能,同时又希望保留历史数据以备数据挖掘与分析。

业务处理场景访问的数据库往往是RDB,可伸缩性较差,又需要满足查询与其他数据操作的实时性,这就需要定期将超过时间期限的历史数据执行清除。但是在大数据场景下,这些看似无用的历史数据又可能是能够炼成黄金的沙砾。因而需要实时将RDB的数据同步到HDFS中,让HDFS成为备份了完整数据的冗余存储。在这种场景下,数据采集就仅仅是一个简单的同步,无需执行转换。

场景2:数据源已经写入Kafka,需要实时采集数据

在考虑流处理的业务场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job。

场景3:数据源为视频文件,需提取特征数据

针对视频文件的大数据处理,需要在Extract阶段加载图片后,然后根据某种识别算法,识别并提取图片的特征信息,并将其转换为业务场景需要的数据模型。在这个场景下,数据提取的耗时相对较长,也需要较多的内存资源。如果处理不当,可能会成为整个数据阶段的瓶颈。

在数据采集阶段,一个棘手问题是增量同步,尤其针对那种可变(即可删除、可修改)的数据源。在我们无法掌控数据源的情况下,通常我们会有三种选择:

  • 放弃同步,采用直连形式;
  • 放弃增量同步,选用全量同步;
  • 编写定期Job,扫描数据源以获得delta数据,然后针对delta数据进行增量同步

坦白说,这三种选择皆非最佳选择,但我也未尝发现有更好的方案。如果数据源端可以控制,我们当然也可以侦听数据源的变更,然后执行Job来更新采集后存储的数据。这些又可能牵涉到数据存储的选型,假设我们选择了Parquet格式作为数据存储,则Parquet是不允许变更的。若要应对这种场景,或许应该考虑ORC格式。

为了更高效地完成数据采集,通常我们需要将整个流程切分成多个阶段,在细分的阶段中可以采用并行执行的方式。在这个过程中,可能牵涉到Job的创建、提交与分发,采集流程的规划,数据格式的转换等。除此之外,在保证数据采集的高性能之外,还要考虑数据丢失的容错。

地图可视化数据处理技术在银行领域的应用

...可视化是一项关键技术,它可以以图形界面的方法展现、剖析金融机构公司的大量数据,针对金融机构系统综合性水准的提高尤为重要。中国农业银行根据科技创新创建了电子器件地图平台,以地理信息系统(GIS)为桥梁,打开大... 查看详情

elasticsearch与kafka整合剖析

1.概述  目前,随着大数据的浪潮,Kafka被越来越多的企业所认可,如今的Kafka已发展到0.10.x,其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说,既可以分流到离线存储平台(HDFS),离线计算平台(Hive仓库)... 查看详情

一图看懂企业大数据平台核心架构,值得参考!

...的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。所以我下面就按这张架构图上的线索,慢慢来剖析... 查看详情

数据结构与算法简记--剖析微服务接口鉴权限流背后的数据结构和算法

微服务鉴权限流剖析 微服务把复杂的大应用,解耦拆分成几个小的应用。有利于团队组织架构的拆分,毕竟团队越大协作的难度越大;每个应用都可以独立运维,独立扩容,独立上线,各个应用之间互不影响。有利就有弊:... 查看详情

阿里专家:讲述支付宝内部架构剖析......

 支付宝系统架构概况大数据   典型处理默认大数据   财务会计大数据  支付清算大数据  核算中心大数据   易大数据  柔性事务  支付宝的开源分布式消息中间件... 查看详情

智慧消防综合管理平台的发展现状剖析

《关于全面推进“智慧消防”建设的指导意见》发布至今,全国刮起了基本建设智慧消防的风潮。重点建设的“五大新项目”历经近一年的实践活动,具体的解决方法早已日趋完善,基本完成了动态性感知、智能化判断、精确防... 查看详情

地图可视化数据处理技术在银行领域的应用

...可视化是一项关键技术,它可以以图形界面的方法展现、剖析金融机构公司的大量数据,针对金融机构系统综合性水准的提高尤为重要。中国农业银行根据科技创新创建了电子器件地图平台,以地理信息系统(GIS)为桥梁,打开大... 查看详情

大数据技术系列:图解大数据平台开发

导言在前面的文章《「大数据技术体系」学习实践导览》中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据知识体系的抛砖... 查看详情

大数据平台架构浅析——以讯飞大数据平台odeon为例(代码片段)

...据平台架构解析——以讯飞大数据平台Odeon为例定义功能数据采集数据开发数据分析数据编程补充大数据平台架构解析——以讯飞大数据平台Odeon为例定义Odeon大数据平台以全图形化Web操作的形式为用户提供一站式的大数据能力&#x... 查看详情

大数据平台--没有数据的平台

  在某大型公司做大数据四年多,一直在大数据门口转悠,感觉自己从未迈进去过这个大门。  数据清洗,降低二次开发成本,将传输的速度达到极致,同时做到不丢数据。说起来简单,但是放在四年前,从0做到1还是很不... 查看详情

快手大数据统一安全平台

关注快手大数据 获取大数据资讯导读本文主要介绍快手大数据统一安全平台。本文源自马玲玲老师在『快手大数据|数据中台技术交流会』上的演讲,相关视频回放可用快手APP搜索“快手大数据”观看。本文会分四个部分展... 查看详情

智慧校园智慧教育大数据平台

...应用场景,助力教育智能化发展。建设目标打造5G教育大数据平台,建设目标:5G教育大数据平台教育智脑统一身份认证一站式服务门户建设5G全连接智慧校园,开发N个智慧校园应用;构建综合型教育大数据平台教育大数据平台... 查看详情

大数据平台下的数据治理

文章目录什么是数据治理难题大数据平台下的数据生命周期数据治理关键场景数据治理面临的挑战数据治理关键问题1.海量系统规模2.复杂存储3.复杂采集数据治理目标数据治理平台与周边系统关系数据治理-元数据系统数据治理-... 查看详情

大数据平台到底该如何设计?

...平台沿着数据链路的产生方向往上游推,还存在着大数据采集与存储平台、大数据开发与计算 查看详情

分享大数据建模工具-大数据挖掘建模平台

大数据挖掘建模平台是面向企业级用户的大数据挖掘建模平台。平台采用可视化操作方式,通过丰富内置算法,帮助用户快速、一站式地进行数据分析及挖掘建模,可应用于处理海量数据、高复杂性的数据挖掘任务&#x... 查看详情

kaggle大数据竞赛平台入门

Kaggle大数据竞赛平台入门大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大... 查看详情

如何构建一个企业的大数据分析平台

 面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现... 查看详情

大数据中必须要掌握的flinksql详细剖析(代码片段)

目录1.FlinkSQL常用算子2.FlinkSQL实战案例FlinkSQL是Flink实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准SQL语义的开发语言。自2015年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于Flink... 查看详情