关键词:
一,准备环境
CentOs7,jdk1.7,hadoop -2.6.1, apache-flume-1.6.0-bin.tar.gz
二,编写配置文件
在/home/flume/conf的目录下 创建 配置文件
#定义三大组件的名称 agent1.sources = source1 agent1.sinks = sink1 agent1.channels = channel1 # 配置source组件 agent1.sources.source1.type = spooldir agent1.sources.source1.spoolDir = /home/data agent1.sources.source1.fileHeader = false #配置拦截器 agent1.sources.source1.interceptors = i1 agent1.sources.source1.interceptors.i1.type = host agent1.sources.source1.interceptors.i1.hostHeader = hostname # 配置sink组件 agent1.sinks.sink1.type = hdfs agent1.sinks.sink1.hdfs.path =hdfs://server1:9000/flume/collection/%y-%m-%d/%H-%M #按时间的格式命名 agent1.sinks.sink1.hdfs.filePrefix = access_log agent1.sinks.sink1.hdfs.maxOpenFiles = 5000 agent1.sinks.sink1.hdfs.batchSize= 100 agent1.sinks.sink1.hdfs.fileType = DataStream agent1.sinks.sink1.hdfs.writeFormat =Text agent1.sinks.sink1.hdfs.rollSize = 102400 agent1.sinks.sink1.hdfs.rollCount = 1000000 agent1.sinks.sink1.hdfs.rollInterval = 60 agent1.sinks.sink1.hdfs.useLocalTimeStamp = true # 配置channels组件 agent1.channels.channel1.type = memory agent1.channels.channel1.keep-alive = 120 agent1.channels.channel1.capacity = 500000 agent1.channels.channel1.transactionCapacity = 600 # 配置组件关系 agent1.sources.source1.channels = channel1 agent1.sinks.sink1.channel = channel1
在/home下创建data文件夹
三,运行程序
在/home/flume 目录下运行代码
bin/flume-ng agent -c conf -f conf/hdfs-logger.conf -n agent1 -Dflume.root.logger=INFO,console
成功后,向data中添加txt文件。
四,查看结果
用HDFS查看Flume目录下的结果收集文件。
五,错误纠正
Resources are low on NN. Please add or free up more resources then turn off safe mode manually. NOTE: If you turn off safe mode before adding resources, the NN will immediately return to safe mode. Use "hdfs dfsadmin -safemode leave" to turn safe mode off.
在hadoop的目录下运行代码:
bin/hadoop dfsadmin -safemode leave
大数据高级开发工程师——数据采集框架flume(代码片段)
...行机制Flume采集系统结构图1.简单结构2.复杂结构Flume实战案例采集网络端口数据1.Flume的安装部署2.开发配置文件3.启动4.使用telnet测试采集目录到HDFS1.需求分析2.开发配置文件3.启动&测试采集文件到HDFS1.需求分析2.开发配置文件3... 查看详情
采集数据到hdfs
采集数据到HDFS安装flume在虚拟机hdp-1中, 打开SFTP-hdp-1窗口,将fllume压缩包导入到虚拟机hdp-1的/root/目录中. 解压flume压缩包到/root/apps/下,命令: tar-xvzfapache-flume-1.6.0-bin.tar.gz-Capps/并将apache-flume-1.6.0-bin文件夹重命名为 查看详情
使用flume采集日志数据到hdfs中(代码片段)
...录1.简介1.1.Source组件1.2.Channel组件1.3.Sink组件2.安装Flume3.采集数据测试4.日志汇总到HDFS中4.1.日志收集服务配置4.2.日志汇总服务配置4.3.运行服务测试1.简介Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采... 查看详情
flume日志采集框架使用
flume日志采集框架使用 本次学习使用的全部过程均不在集群上,均在本机环境,供学习参考 先决条件:flume-ng-1.6.0-cdh5.8.3.tar 去cloudrea下载flume框架,笔者是用cdh5.8.3的套餐 flume的使用环境:采集特定目录到hdfs环境... 查看详情
采集案例
采集目录到HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录: spooldir下沉目标,即sink&md... 查看详情
flume数据采集之常见集群配置案例(代码片段)
[TOC]非集群配置这种情况非集群配置方式,比较简单,可以直接参考我整理的《Flume笔记整理》,其基本结构图如下:Flume集群之多个Agent一个source结构说明结构图如下:说明如下:即可以把我们的Agent部署在不同的节点上,上面... 查看详情
大数据技术之flumeflume概述flume快速入门(代码片段)
...入门2.1Flume安装部署2.1.1安装地址2.1.2安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件2.3.3实时监控目录下多个新文件2.2.4实时监控目录下的多个追加文件1Flume概述1.1Flume定义Flume是Cloudera提供的一个高... 查看详情
大数据技术之flumeflume概述flume快速入门(代码片段)
...入门2.1Flume安装部署2.1.1安装地址2.1.2安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件2.3.3实时监控目录下多个新文件2.2.4实时监控目录下的多个追加文件1Flume概述1.1Flume定义Flume是Cloudera提供的一个高... 查看详情
flume从0到高手一站式养成记(代码片段)
...学前必备知识二、极速入门Flume三、极速上手Flume使用3.1案例:Flume的HelloWorld!3.2案例:采集文件内容上传至HDFS3.3案例:采集网站日志上传至HDFS四、Flume高级组件4.1SourceInterceptors4.2ChannelSelectors4.3SinkProcessors4.4FailoverSin 查看详情
flume远程写hdfs
现在的需求是在一台Flume采集机器上,往Hadoop集群上写HDFS,该机器没有安装Hadoop。这里的Flume版本是1.6.0,Hadoop版本是2.7.1.把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到flume安装目录的conf目录去,把hadoop-hdfs-2.7.1.jar... 查看详情
flume原理分析与使用案例(代码片段)
1、flume的特点: flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS... 查看详情
日志采集框架flume
概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,... 查看详情
flume实时监控目录sink到hdfs
目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算1、flume的配置,配置spoolDirSource_hdfsSink.properties,监控本地的一个目录,上传到hdfs一个目录下。agent1.channels=ch1agent1.sources=spoolDir-source1agent1.sin... 查看详情
flume环境部署和配置详解及案例大全
flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)... 查看详情
flume快速入门及常用案例整理(代码片段)
flume快速入门及常用案例整理flume概述1.1flume定义flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器... 查看详情
日志采集框架flume的安装及使用
日志采集框架Flume的安装及使用1.Flume介绍1.1.Flume概述Flume是一个分布式、可靠、和高可用(旧版Flumeog才有高可用)的海量日志采集、传输和聚合的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输... 查看详情
flume采集数据报错问题解决
在一次实验过程中,使用flume1.7采集本地的数据到hdfs文件系统时,由于配置文件不合理,导致出错。错误如下:[WARN-org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.closeResponder(DFSOutputStream.java:611)]Caughtexceptionjava. 查看详情
flume(代码片段)
...1章Flume概述第2章Flume快速入门2.1Flume安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件2.2.3实时监控目录下多个新文件2.2.4实时监控目录下的多个追加文件第3章Flume进阶3.1Flume事务3.2FlumeAgent内部原理3.3Flu... 查看详情