正文

flume介绍

日月的弯刀  日月的弯刀  2022-08-24  532

关键词：

Flume介绍

http://flume.apache.org/FlumeUserGuide.html

一、Flume架构图

含义
Source	规定收集数据的来源
Channel	相当于一个管道，连接source和sink
Sink	flume agent收集到数据后，数据写到哪里

使用Flume，就是定义好source,channel, sink, 它负责监控Linux文件系统，并将文件写入HDFS中

二、多个Flume整合

注意启动顺序！！！

先启动node2,后启动node1（先启动后面的Flume2, 在启动前面的Flume1）

Nginx集群，每一个Nginx对应多个web server,再每一个web server安装Flume1,Flume2,Flume3...然后各个Flume交给总的Flume Agent,写入到HDFS中

三、Flume中Source, Channel, Sink的类型

Flume Source

Source类型 | 说明

Avro Source | 支持Avro协议（实际上是Avro RPC），内置支持

Thrift Source | 支持Thrift协议，内置支持

Exec Source | 基于Unix的command在标准输出上生产数据，监控文件的变化

JMS Source | 从JMS系统（消息、主题）中读取数据

Spooling Directory Source | 监控指定目录内数据变更，监控目录的变化

Twitter 1% firehose Source|通过API持续下载Twitter数据，试验性质

Netcat Source | 监控某个端口，将流经端口的每一个文本行数据作为Event输入

Sequence Generator Source | 序列生成器数据源，生产序列数据

Syslog Sources | 读取syslog数据，产生Event，支持UDP和TCP两种协议

HTTP Source | 基于HTTP POST或GET方式的数据源，支持JSON、BLOB表示形式

Legacy Sources | 兼容老的Flume OG中Source（0.9.x版本）

Flume Channel

Channel类型说明

Memory Channel | Event数据存储在内存中

JDBC Channel | Event数据存储在持久化存储中，当前Flume Channel内置支持Derby

File Channel | Event数据存储在磁盘文件中

Spillable Memory Channel | Event数据存储在内存中和磁盘上，当内存队列满了，会持久化到磁盘文件

Pseudo Transaction Channel | 测试用途

Custom Channel | 自定义Channel实现

Flume Sink

Sink类型说明

HDFS Sink | 数据写入HDFS

Logger Sink | 数据写入日志文件

Avro Sink | 数据被转换成Avro Event，然后发送到配置的RPC端口上

Thrift Sink | 数据被转换成Thrift Event，然后发送到配置的RPC端口上

IRC Sink | 数据在IRC上进行回放

File Roll Sink | 存储数据到本地文件系统

Null Sink | 丢弃到所有数据

HBase Sink | 数据写入HBase数据库

Morphline Solr Sink | 数据发送到Solr搜索服务器（集群）

ElasticSearch Sink | 数据发送到Elastic Search搜索服务器（集群）

Kite Dataset Sink | 写数据到Kite Dataset，试验性质的

Custom Sink | 自定义Sink实现

flume架构以及应用介绍[转]

在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角... 查看详情

flume介绍

Flume是一个分布式的，效率高的用来收集日志数据的开源框架。它的架构是基于流式数据，有3个重要的组件，分别是Source，Channel和Sink。Flume架构和特点Flume架构图如上，非常简单。一个Flume的事件(event)表示数据流中的一个单位，... 查看详情

flume详细介绍，安装，配置

　一、什么是Flume?　　flume作为cloudera开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume初始的发行版本目前被统称为FlumeOG（originalgeneration），属于cloudera。但随着FLume功能的扩展，FlumeOG代码工程臃肿、核心组件设计... 查看详情

flume日志收集系统介绍

转自：http://blog.csdn.net/a2011480169/article/details/51544664在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也... 查看详情

flume介绍及应用

17-etl工具大数据架构flume介绍flume组件介绍

9.8ETL9.8.1概念描述ETL理解ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据设计分为3部分数据抽取数据的... 查看详情

flume介绍及其安装(代码片段)

一.Flume是什么？Flume是一个分布式，可靠的系统。它能够高效的收集，整合数据，还可以将来自不同源的大量数据移动到数据中心存储。Flume是Apache下的一个顶级项目。Flume不仅可以收集整合日志数据，因为数据源是可以自定义的... 查看详情

flume的介绍和简单操作(代码片段)

Flume是什么Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（... 查看详情

flume介绍及调优

一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，... 查看详情

flume的介绍和简单安装

一：介绍（1）日志采集系统（2）是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。（3）具有基于流数据流的简单灵活的架构。（4）具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大... 查看详情

flume学习之路flume的基础介绍(代码片段)

一、背景Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步。许多公司的平台每天会产生大量的日志（一般为流式数据，如，... 查看详情

flume学习之路flume的基础介绍(代码片段)

目录一、背景二、Flume的简介三、FlumeNG的介绍3.1　Flume特点3.2　Flume的一些核心概念3.3　FlumeNG的体系结构3.4　Source3.5　Channel3.6　Sink四、Flume的部署类型4.1　单一流程4.2　多代理流程（多个agent顺序连接）4.3　流的合并（多个Agent... 查看详情

flume的原理及介绍线上数据－》flume-》kafka-;hdfs/hadoop

1.背景 flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各... 查看详情

flume介绍与安装

搭建环境部署节点操作系统为CentOS，防火墙和SElinux禁用，创建了一个shiyanlou用户并在系统根目录下创建/app目录，用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序，用户对shiyanlou必须赋予rwx权限（一般做法是root... 查看详情

flume介绍及调优

flume学习之路flume的source类型(代码片段)

一、概述官方文档介绍：http://flume.apache.org/FlumeUserGuide.html#flume-sources二、FlumeSources描述2.1　AvroSource2.1.1　介绍Avro端口监听并接收来自外部的Avro客户流的事件。当内置Avro去Sinks另一个配对Flume代理，它就可以创建分层采集的拓扑... 查看详情

使用flume将kafka数据sink到hbase

1.hbasesink介绍1.1HbaseSink1.2AsyncHbaseSink2.配置flume3.运行测试flume4.使用RegexHbaseEventSerializer来处理些HBASE的值5.效率测试1.hbasesink介绍如果还不了解flume请查看我写的其他flume下的博客。接下来的内容主要来自flume官方文档的学习。顺便也... 查看详情

flume之各种channel的介绍及参数解析

参考技术AChannel被设计为Event中转临时缓冲区，存储Source收集并且没有被Sink读取的Event，为平衡Source收集和Sink读取数据的速度，可视为Flume内部的消息队列。Channel线程安全并且具有事务性，支持source写失败重复写和sink读失败重复... 查看详情