flume介绍

日月的弯刀 日月的弯刀     2022-08-24     532

关键词:

 


Flume介绍

http://flume.apache.org/FlumeUserGuide.html

一、Flume架构图

含义
Source 规定收集数据的来源
Channel 相当于一个管道,连接source和sink
Sink flume agent收集到数据后,数据写到哪里
 
使用Flume,就是定义好source,channel, sink, 它负责监控Linux文件系统,并将文件写入HDFS中
 

多个Flume整合

注意启动顺序!!!
    先启动node2,后启动node1(先启动后面的Flume2, 在启动前面的Flume1)
Nginx集群,每一个Nginx对应多个web server,再每一个web server安装Flume1,Flume2,Flume3...然后各个Flume交给总的Flume Agent,写入到HDFS中

Flume中Source, Channel, Sink的类型

 
 
    Flume Source
Source类型              | 说明
Avro Source            | 支持Avro协议(实际上是Avro RPC),内置支持
Thrift Source          | 支持Thrift协议,内置支持
Exec Source            | 基于Unix的command在标准输出上生产数据,监控文件的变化
JMS Source              | 从JMS系统(消息、主题)中读取数据
Spooling Directory Source | 监控指定目录内数据变更,监控目录的变化
Twitter 1% firehose Source|通过API持续下载Twitter数据,试验性质
Netcat Source          | 监控某个端口,将流经端口的每一个文本行数据作为Event输入
Sequence Generator Source | 序列生成器数据源,生产序列数据
Syslog Sources          | 读取syslog数据,产生Event,支持UDP和TCP两种协议
HTTP Source            | 基于HTTP POST或GET方式的数据源,支持JSON、BLOB表示形式
Legacy Sources          | 兼容老的Flume OG中Source(0.9.x版本)
 
    Flume Channel
Channel类型  说明
Memory Channel           | Event数据存储在内存中
JDBC Channel             | Event数据存储在持久化存储中,当前Flume Channel内置支持Derby
File Channel             | Event数据存储在磁盘文件中
Spillable Memory Channel   | Event数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件
Pseudo Transaction Channel | 测试用途
Custom Channel           | 自定义Channel实现
 
    Flume Sink
Sink类型 说明
HDFS Sink        | 数据写入HDFS
Logger Sink      | 数据写入日志文件
Avro Sink        | 数据被转换成Avro Event,然后发送到配置的RPC端口上
Thrift Sink      | 数据被转换成Thrift Event,然后发送到配置的RPC端口上
IRC Sink          | 数据在IRC上进行回放
File Roll Sink    | 存储数据到本地文件系统
Null Sink        | 丢弃到所有数据
HBase Sink        | 数据写入HBase数据库
Morphline Solr Sink | 数据发送到Solr搜索服务器(集群)
ElasticSearch Sink | 数据发送到Elastic Search搜索服务器(集群)
Kite Dataset Sink | 写数据到Kite Dataset,试验性质的
Custom Sink      | 自定义Sink实现
 
 

flume架构以及应用介绍[转]

在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角... 查看详情

flume介绍

Flume是一个分布式的,效率高的用来收集日志数据的开源框架。它的架构是基于流式数据,有3个重要的组件,分别是Source,Channel和Sink。Flume架构和特点Flume架构图如上,非常简单。一个Flume的事件(event)表示数据流中的一个单位,... 查看详情

flume详细介绍,安装,配置

 一、什么是Flume?  flume作为cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume初始的发行版本目前被统称为FlumeOG(originalgeneration),属于cloudera。但随着FLume功能的扩展,FlumeOG代码工程臃肿、核心组件设计... 查看详情

flume日志收集系统介绍

转自:http://blog.csdn.net/a2011480169/article/details/51544664在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也... 查看详情

flume介绍及应用

 版权声明:本文为yunshuxueyuan原创文章。如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667flume的概念1.     flume作为cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。Fl... 查看详情

17-etl工具大数据架构flume介绍flume组件介绍

9.8ETL9.8.1概念描述ETL理解ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据设计分为3部分数据抽取数据的... 查看详情

flume介绍及其安装(代码片段)

一.Flume是什么?Flume是一个分布式,可靠的系统。它能够高效的收集,整合数据,还可以将来自不同源的大量数据移动到数据中心存储。Flume是Apache下的一个顶级项目。Flume不仅可以收集整合日志数据,因为数据源是可以自定义的... 查看详情

flume的介绍和简单操作(代码片段)

Flume是什么Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(... 查看详情

flume介绍及调优

一、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,... 查看详情

flume的介绍和简单安装

一:介绍(1)日志采集系统(2)是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。(3)具有基于流数据流的简单灵活的架构。(4)具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大... 查看详情

flume学习之路flume的基础介绍(代码片段)

一、背景Hadoop业务的整体开发流程:从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步。许多公司的平台每天会产生大量的日志(一般为流式数据,如,... 查看详情

flume学习之路flume的基础介绍(代码片段)

目录一、背景二、Flume的简介三、FlumeNG的介绍3.1 Flume特点3.2 Flume的一些核心概念3.3 FlumeNG的体系结构3.4 Source3.5 Channel3.6 Sink四、Flume的部署类型4.1 单一流程4.2 多代理流程(多个agent顺序连接)4.3 流的合并(多个Agent... 查看详情

flume的原理及介绍线上数据-》flume-》kafka-;hdfs/hadoop

1.背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各... 查看详情

flume介绍与安装

搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root... 查看详情

flume介绍及调优

一、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,... 查看详情

flume学习之路flume的source类型(代码片段)

一、概述官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources二、FlumeSources描述2.1 AvroSource2.1.1 介绍Avro端口监听并接收来自外部的Avro客户流的事件。当内置Avro去Sinks另一个配对Flume代理,它就可以创建分层采集的拓扑... 查看详情

使用flume将kafka数据sink到hbase

1.hbasesink介绍1.1HbaseSink1.2AsyncHbaseSink2.配置flume3.运行测试flume4.使用RegexHbaseEventSerializer来处理些HBASE的值5.效率测试1.hbasesink介绍如果还不了解flume请查看我写的其他flume下的博客。接下来的内容主要来自flume官方文档的学习。顺便也... 查看详情

flume之各种channel的介绍及参数解析

参考技术AChannel被设计为Event中转临时缓冲区,存储Source收集并且没有被Sink读取的Event,为平衡Source收集和Sink读取数据的速度,可视为Flume内部的消息队列。Channel线程安全并且具有事务性,支持source写失败重复写和sink读失败重复... 查看详情