正文

大数据项目之电商数仓日志采集flumesourcechannelsinkkafka的三个架构

Redamancy_06  Redamancy_06  2022-12-08  473

关键词：

文章目录

4. 用户行为数据采集模块
- 4.3 日志采集Flume
- - 4.3.1 Kafka的三个架构

4. 用户行为数据采集模块

4.3 日志采集Flume

4.3.1 Kafka的三个架构

4.3.1.1 source

taildir source：可以读取文件的数据，实时的读取文件的数据，并且支持断点续传
avro source ：是在Flume之间互相传输的一般配合avro sink，经常使用在Flume做成拓扑结构的时候
nc source ：接收网络端口的
exec source：可以读取文件的数据，实时的读取文件的数据，并且不支持断点续传，一般没有人用
spooling source ：支持断点续传，监控的不是文件，监控的是文件夹
kafka source ：下面有详细的说明

4.3.1.2 channel

file channe ：比较慢，基于磁盘的，但是优点是数据不容易丢，虽然慢，但有个优化，加一个索引机制
memory channel：比较快，基于内存的，但是缺点是数据容易丢
kafka channel：下面有详细的说明

4.3.1.3 sink

hdfs sink：这个是经常使用
kafka sink ：下面有详细的说明
avro sink：一般配合avro source

flume官网https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#

4.3.1.4 kafka source

Kafka Source is an Apache Kafka consumer that reads messages from Kafka topics. If you have multiple Kafka sources running, you can configure them with the same Consumer Group so each will read a unique set of partitions for the topics. This currently supports Kafka server releases 0.10.1.0 or higher. Testing was done up to 2.0.1 that was the highest avilable version at the time of the release.

意思就是说kafka source从kafka topics里面读数据，kafka source就是kafka的消费者

4.3.1.5 kafka sink

This is a Flume Sink implementation that can publish data to a Kafka topic. One of the objective is to integrate Flume with Kafka so that pull based processing systems can process the data coming through various Flume sources.

This currently supports Kafka server releases 0.10.1.0 or higher. Testing was done up to 2.0.1 that was the highest avilable version at the time of the release.

Required properties are marked in bold font.

意思就是说kafka source往kafka topics里面写数据，kafka source就是kafka的生产者

4.3.1.6 kafka channel

kafka有消峰解耦的功能

The events are stored in a Kafka cluster (must be installed separately). Kafka provides high availability and replication, so in case an agent or a kafka broker crashes, the events are immediately available to other sinks

The Kafka channel can be used for multiple scenarios:

1.With Flume source and sink - it provides a reliable and highly available channel for events
2.With Flume source and interceptor but no sink - it allows writing Flume events into a Kafka topic, for use by other apps
3.With Flume sink, but no source - it is a low-latency, fault tolerant way to send events from Kafka to Flume sinks such as HDFS, HBase or Solr

This currently supports Kafka server releases 0.10.1.0 or higher. Testing was done up to 2.0.1 that was the highest avilable version at the time of the release.

The configuration parameters are organized as such:

1.Configuration values related to the channel generically are applied at the channel config level, eg: a1.channel.k1.type =
2.Configuration values related to Kafka or how the Channel operates are prefixed with “kafka.”, (this are analgous to CommonClient Configs) eg: a1.channels.k1.kafka.topic and a1.channels.k1.kafka.bootstrap.servers. This is not dissimilar to how the hdfs sink operates
3. Properties specific to the producer/consumer are prefixed by kafka.producer or kafka.consumer
4.Where possible, the Kafka paramter names are used, eg: bootstrap.servers and acks

This version of flume is backwards-compatible with previous versions, however deprecated properties are indicated in the table below and a warning message is logged on startup when they are present in the configuration file.

Required properties are in bold.
Flume 会将数据封装成Event的形式，header+body，如果Flume要想使用Kafka Channel，则必须独立安装一个Kafka集群，Kafka支持高可用和副本，Kafka有以下三种结构。

4.3.1.6.1 第一个结构

结合Flume source和sink来使用

由taildir source读取数据，发送给kafka channel，因为是kafka channel，因此将数据存储到kafka的topic里面，hdfs sink从kafka channel里面读数据，发现是kafka channel，则从kafka当中要读的数据读出来，发送给hdfs sink

4.3.1.6.2 第二个结构

结合source和拦截器来使用，没有sink

由taildir source读取数据，发送给kafka channel，因为是kafka channel，因此将数据存储到kafka的topic里面

4.3.1.6.3 第三个结构

结合Flume sink，没有source
hdfs sink从kafka channel里面读数据，发现是kafka channel，则从kafka当中要读的数据读出来，发送给hdfs sink

由于需要将数据上传到hadoop集群上，因此第一个架构符合我们的需要，但是从官网上可以看到，数据以FlumeEvent的格式发送到kafka，FlumeEvent的格式是head+body，从source发送到channel的数据是FlumeEvent。离线数仓要的数据只有body，实时的也是只要body，因此head的数据就多存了。如果把parseAsFlumeEvent的参数设置为false，那存到kafka 里面只有一个body，离线和实时也只要body的数据，因此刚刚好，但是第一个框架还有一个拦截器，拦截器和header一起使用，因此不能将header取消，也就是说parseAsFlumeEvent不能设置为false，使用第二个框架比较好性能也好，也满足我们的需求


parseAsFlumeEvent	true	Expecting Avro datums with FlumeEvent schema in the channel. This should be true if Flume source is writing to the channel and false if other producers are writing into the topic that the channel is using. Flume source messages to Kafka can be parsed outside of Flume by using org.apache.flume.source.avro.AvroFlumeEvent provided by the flume-ng-sdk artifact

大数据项目之电商数仓-用户行为数据采集(代码片段)

数据仓库简介数据仓库是为企业所有决策制定过程，提供所有系统数据支持的战略集合，通过数据仓库中的数据的分析，可以帮助企业改进业务流程、控制成本、提高产品质量等。项目需求实时采集买点的用户行为数... 查看详情

大数据项目之电商数仓-业务数据仓库(代码片段)

电商业务流程简介电商术语SKU，库存量单位，即库存进出计量的基本单元，可以是以件，盒，托盘等为单位。SKU这是对于大型连锁超市DC（配送中心）物流管理的一个必要的方法。现在已经被引申为产... 查看详情

大数据项目之电商数仓-用户行为数据仓库(代码片段)

数据仓库分层把复杂问题简单化，把一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解清晰的数据结构，每一层都有它的作用域，这样我们在使用表的时候能更方便的定... 查看详情

大数据项目之电商数仓数据仓库概念项目需求及架构设计(代码片段)

文章目录1.数据仓库概念2.项目需求及架构设计2.1项目需求分析2.1.1采集平台2.1.2离线需求2.1.3实时需求2.1.4思考题2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.3.1Apache框架版本2.2.4服务器选型2.2.4.1物理机：... 查看详情

电商数仓——（师承尚硅谷）大数据实战项目(代码片段)

数仓实战1.概念技术选型：搭建环境三台ECS创建wts用户：useraddwtspasswdwts输入两边密码cd/home有无wts？让wts有sudoer权力：[root@hadoop100~]#vim/etc/sudoers修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示&# 查看详情

数据仓库之电商数仓--1用户行为数据采集(代码片段)

目录一、数据仓库概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三、数据生成模块3.1目标数据3.1.1页面日志3.1.2事... 查看详情

大数据项目之电商数仓-用户行为数据仓库(代码片段)

大数据项目之电商数仓-业务数据仓库(代码片段)

助力工业物联网，工业大数据项目之数据采集(代码片段)

文章目录01：Sqoop命令回顾02：YARN资源调度及配置03：MR的Uber模式04：Sqoop采集数据格式问题05：问题解决：Avro格式06：Sqoop增量采集方案回顾01：Sqoop命令回顾目标：掌握Sqoop常用命令的使用路径step... 查看详情

助力工业物联网，工业大数据项目之数据采集(代码片段)

大数据项目之数仓相关知识

第1章数据仓库概念数据仓库（DW）:为企业指定决策，提供数据支持的，帮助企业，改进业务流程，提高产品质量等。DW的输入数据通常包括：业务数据，用户行为数据和爬虫数据等 ODS: 数据备份 D... 查看详情

hadoop数仓建设之日志采集

...f0c;都会有自己的数据仓库建设方式，我们这里介绍的数仓是比较贴近这些大型企业的生产环境。ps：其实主要是因为实习这里的数仓建设很成熟，查看详情

客快物流大数据项目（九十）：clickhouse的引擎介绍和深入日志引擎讲解

文章目录ClickHouse的引擎介绍和深入日志引擎讲解一、引擎介绍二、日志引擎查看详情

湖仓一体电商项目：3万字带你从头开始搭建12个大数据项目基础组件(代码片段)

文章目录一、搭建Zookeeper1、上传zookeeper并解压,配置环境变量2、在node3节点配置zookeeper3、将配置好的zookeeper发送到node4,node5节点4、各个节点上创建数据目录，并配置zookeeper环境变量5、各个节点创建节点ID6、各个节点启动zookee... 查看详情

hive数仓项目之需求分析建模分析优化方案(代码片段)

往期内容：Hive数仓项目架构说明、环境搭建及数据仓库基础知识Hive数仓项目之数仓分层、数仓工具的使用Hive数仓项目之访问咨询主题看板：数据的采集、转换、分析导出Hive数仓项目之访问咨询主题看板增量的流程... 查看详情

大数据实战之用户画像概念项目概述及环境搭建(代码片段)

下面跟着我一起来学习大数据获取用户画像：项目Profile课程安排：用户画像概念1、用户画像概述1.1、产生背景早期的用户画像起源于交互设计之父AlanCooper提出的”Personasareaconcreterepresentationoftargetusers.”。认为用户画像... 查看详情

实时即未来，大数据项目车联网之flinkwatermark(水位线)十四

文章目录1FlinkWatermark(水位线)1事件时间（eventtime）2FlinkWindowAssigners（窗口分配器）2.1TumblingWindows（翻滚窗口）2.2SlidingWindows（滑动窗口）2.3SessionWindows（会话窗口）2.4GlobalWindows（全局窗口）2.5窗口函数（WindowFunction）1FlinkWatermark(... 查看详情