flume配置案例(代码片段)

Frankdeng Frankdeng     2022-11-19     386

关键词:

一、概述

官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources

二、Flume Sources 描述

2.1 Avro Source

2.1.1 介绍

监听Avro端口,从Avro client streams接收events。当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑。字体加粗的属性必须进行设置

2.1.2 示例

示例一:参考官方文档

#配置一个agent,agent的名称可以自定义(如a1)
#指定agent的sources(如s1)、sinks(如k1)、channels(如c1)
#分别指定agent的sources,sinks,channels的名称 名称可以自定义
a1.sources = s1
a1.sinks = k1
a1.channels = c1

#配置source
a1.sources.s1.channels = c1
a1.sources.s1.type = avro
a1.sources.s1.bind = 192.168.100.21
a1.sources.s1.port = 4141

#配置channels
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
#配置sinks 
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

#为sources和sinks绑定channels
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动flume

[root@node21 flume-1.8.0]$ bin/flume-ng agent --conf conf --conf-file conf/test-avro2.properties --name a1 -Dflume.root.logger=INFO,console -Dorg.apache.flume.log.printconfig=true -Dorg.apache.flume.log.rawdata=true

另起一个控制台,通过flume提供的avro客户端向指定机器指定端口发送日志信息:

[root@node21 conf]# flume-ng avro-client -c /opt/module/flume-1.8.0/conf -H 192.168.100.21 -p 4141 -F /opt/wcinput/wc.txt

接收到的信息

2.2 Thrift Source

2.2.1 介绍

ThriftSource 与Avro Source 基本一致。只要把source的类型改成thrift即可,例如a1.sources.r1.type = thrift,比较简单,不做赘述。

2.3 Exec Source

2.3.1 介绍

ExecSource的配置就是设定一个Unix(linux)命令,然后通过这个命令不断输出数据。如果进程退出,Exec Source也一起退出,不会产生进一步的数据。

下面是官网给出的source的配置,加粗的参数是必选,描述就不解释了。

2.3.2 示例

#配置文件
#Name the components on this agent  
a1.sources= s1  
a1.sinks= k1  
a1.channels= c1  
   
#配置sources
a1.sources.s1.type = exec  
a1.sources.s1.command = tail -F /home/hadoop/logs/test.log  
a1.sources.s1.channels = c1  
   
#配置sinks 
a1.sinks.k1.type= logger  
a1.sinks.k1.channel= c1  
   
#配置channel
a1.channels.c1.type= memory  

启动命令

[hadoop@hadoop1 ~]$ flume-ng agent --conf conf --conf-file ~/apps/flume/examples/case_exec.properties --name a1 -Dflume.root.logger=DEBUG,console -Dorg.apache.flume.log.printconfig=true -Dorg.apache.flume.log.rawdata=true

继续往日志里添加数据

接收到的信息

2.4 JMS Source

2.4.1 介绍

从JMS系统(消息、主题)中读取数据,ActiveMQ已经测试过

2.4.2 官网示例

 

2.5 Spooling Directory Source

2.5.1 介绍

Spooling Directory Source监测配置的目录下新增的文件,并将文件中的数据读取出来。其中,Spool Source有2个注意地方,第一个是拷贝到spool目录下的文件不可以再打开编辑,第二个是spool目录下不可包含相应的子目录。这个主要用途作为对日志的准实时监控

下面是官网给出的source的配置,加粗的参数是必选。可选项太多,这边就介绍一个fileSuffix,即文件读取后添加的后缀名,这个是可以更改。

 

2.5.2 示例

a1.sources = s1  
a1.sinks = k1  
a1.channels = c1  
   
# Describe/configure the source  
a1.sources.s1.type =spooldir  
a1.sources.s1.spoolDir =/home/hadoop/logs  
a1.sources.s1.fileHeader= true  
a1.sources.s1.channels =c1  
   
# Describe the sink  
a1.sinks.k1.type = logger  
a1.sinks.k1.channel = c1  
   
# Use a channel which buffers events inmemory  
a1.channels.c1.type = memory  

启动命令

[hadoop@hadoop1 ~]$ flume-ng agent --conf conf --conf-file /home/hadoop/apps/flume/examples/case_spool.properties --name a1 -Dflume.root.logger=INFO,console

讲123.log移动到logs目录

运行结果

2.6 其他

参考https://blog.csdn.net/looklook5/article/details/40400885

 

 

flume数据采集之常见集群配置案例(代码片段)

[TOC]非集群配置这种情况非集群配置方式,比较简单,可以直接参考我整理的《Flume笔记整理》,其基本结构图如下:Flume集群之多个Agent一个source结构说明结构图如下:说明如下:即可以把我们的Agent部署在不同的节点上,上面... 查看详情

flume案例总结。(代码片段)

文章目录一、Flume架构二、Flume传输过程三、角色类型&启动flume配置文件1)定义Agent2)定义Sources2.1)netcatSource2.2)execSource2.3)spooldirSource2.4)avroSource2.5)TaildirSource3ÿ 查看详情

flume实战案例--从hdfs上读取某个文件到本地目录(代码片段)

...道组件,即channel——可用filechannel也可以用内存channelflume配置文件开发配置文件编写:cd/bigdata/install/flume-1 查看详情

大数据flume企业开发实战(代码片段)

...#64;hadoop102datas]$mkdirflume3(2)创建flume-file-flume.conf配置1个接收日志文件的source和两个channel、两个sink,分别输送给flume-flume-hd 查看详情

flume(代码片段)

...1章Flume概述第2章Flume快速入门2.1Flume安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件2.2.3实时监控目录下多个新文件2.2.4实时监控目录下的多个追加文件第3章Flume进阶3.1Flume事务3.2FlumeAgent内部原理3.3Flu... 查看详情

flume快速入门及常用案例整理(代码片段)

flume快速入门及常用案例整理flume概述1.1flume定义flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器... 查看详情

flume原理分析与使用案例(代码片段)

1、flume的特点:  flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS... 查看详情

flume案例1-arvo(代码片段)

案例1:AvroAvro可以通过client发送一个指定的文件给Flume,flume可以通过设置source的接受方式,监控avro发送数据的ip和端口,获取数据。AvroSource可以定制avro-client发送一个指定的文件给Flumeagent,Avro源使用AvroRPC机... 查看详情

flume案例1-arvo(代码片段)

案例1:AvroAvro可以通过client发送一个指定的文件给Flume,flume可以通过设置source的接受方式,监控avro发送数据的ip和端口,获取数据。AvroSource可以定制avro-client发送一个指定的文件给Flumeagent,Avro源使用AvroRPC机... 查看详情

flume实战案例(代码片段)

从端口读数据读取到本地文件#1.给三个组件命名a3.sources=r1a3.channels=c1a3.sinks=k1#2.给source组件属性赋值a3.sources.r1.type=avroa3.sources.r1.bind=hadoop102a3.sources.r1.port=6666#3.给channel组件属性赋值a3.channels.c1.type=memorya3.cha 查看详情

大数据技术之flume(代码片段)

...1.2.1Agent1.2.2Source1.2.3Sink1.2.4Channel1.2.5Event第2章Flume入门2.1案例12.1.1判断44444端口是否被占用2.1.2在flume目录下创建job文件夹并且创建flume文件。2.1.3使用netcat工具向本机的44444端口发送内容2.2案例22.3案例32 查看详情

flume(代码片段)

...入门2.1Flume安装部署2.1.1安装地址2.1.2安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件-exec2.2.3实时监控目录下多个新文件-spooldir 查看详情

flume(代码片段)

...入门2.1Flume安装部署2.1.1安装地址2.1.2安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件-exec2.2.3实时监控目录下多个新文件-spooldir 查看详情

flume-1.8.0_部署与常用案例(代码片段)

 该文章是基于Hadoop2.7.6_01_部署进行的 Flume官方文档:FlumeUserGuide常见问题:记flume部署过程中遇到的问题以及解决方法(持续更新) 1.前言      在一个完整的大数据处理系统中,除了hdfs+mapreduce+h... 查看详情

flume案例1-arvo(代码片段)

...#xff0c;因此可以用java或JVM语言发送数据到AvroSource端。它的配置文件主要包含三个参数:type:Avrosource的别名是avro,也可以使用完整类别名称,org.apache.flume.source.AvroSource;bind:绑定的IP地址或主机名。使用0.... 查看详情

大数据高级开发工程师——数据采集框架flume(代码片段)

...构Flume实战案例采集网络端口数据1.Flume的安装部署2.开发配置文件3.启动4.使用telnet测试采集目录到HDFS1.需求分析2.开发配置文件3.启动&测试采集文件到HDFS1.需求分析2.开发配置文件3.启动&测试实现断点续传1.需求分析2.开发... 查看详情

flume从0到高手一站式养成记(代码片段)

...学前必备知识二、极速入门Flume三、极速上手Flume使用3.1案例:Flume的HelloWorld!3.2案例:采集文件内容上传至HDFS3.3案例:采集网站日志上传至HDFS四、Flume高级组件4.1SourceInterceptors4.2ChannelSelectors4.3SinkProcessors4.4FailoverSin 查看详情

flume概述/企业案例(代码片段)

 概述1Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。     下面我们来详细介绍一下Flume架构中的组件。1.2.1AgentAgent是一个J... 查看详情