正文

flume案例之采集特定目录的数据到hdfs

songweideboke  songweideboke  2023-01-09  294

关键词：

一，准备环境

　　CentOs7，jdk1.7，hadoop -2.6.1， apache-flume-1.6.0-bin.tar.gz

二，编写配置文件

在/home/flume/conf的目录下创建配置文件

#定义三大组件的名称
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# 配置source组件
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /home/data
agent1.sources.source1.fileHeader = false

#配置拦截器
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = host
agent1.sources.source1.interceptors.i1.hostHeader = hostname

# 配置sink组件
agent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path =hdfs://server1:9000/flume/collection/%y-%m-%d/%H-%M   #按时间的格式命名
agent1.sinks.sink1.hdfs.filePrefix = access_log
agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
agent1.sinks.sink1.hdfs.batchSize= 100
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat =Text
agent1.sinks.sink1.hdfs.rollSize = 102400
agent1.sinks.sink1.hdfs.rollCount = 1000000
agent1.sinks.sink1.hdfs.rollInterval = 60
agent1.sinks.sink1.hdfs.useLocalTimeStamp = true


# 配置channels组件
agent1.channels.channel1.type = memory
agent1.channels.channel1.keep-alive = 120
agent1.channels.channel1.capacity = 500000
agent1.channels.channel1.transactionCapacity = 600


# 配置组件关系
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

　　在/home下创建data文件夹

三，运行程序

　　在/home/flume 目录下运行代码

 bin/flume-ng agent -c conf -f conf/hdfs-logger.conf -n agent1  -Dflume.root.logger=INFO,console

　　成功后，向data中添加txt文件。

四，查看结果

　　用HDFS查看Flume目录下的结果收集文件。

五，错误纠正

Resources are low on NN. Please add or free up more resources then turn off safe mode manually.
NOTE:  If you turn off safe mode before adding resources, the NN will immediately return to safe mode. 
Use "hdfs dfsadmin -safemode leave" to turn safe mode off.

　　在hadoop的目录下运行代码：

 bin/hadoop  dfsadmin -safemode leave

大数据高级开发工程师——数据采集框架flume(代码片段)

...行机制Flume采集系统结构图1.简单结构2.复杂结构Flume实战案例采集网络端口数据1.Flume的安装部署2.开发配置文件3.启动4.使用telnet测试采集目录到HDFS1.需求分析2.开发配置文件3.启动&测试采集文件到HDFS1.需求分析2.开发配置文件3... 查看详情

采集数据到hdfs

采集数据到HDFS安装flume在虚拟机hdp-1中, 打开SFTP-hdp-1窗口,将fllume压缩包导入到虚拟机hdp-1的/root/目录中. 解压flume压缩包到/root/apps/下,命令: tar-xvzfapache-flume-1.6.0-bin.tar.gz-Capps/并将apache-flume-1.6.0-bin文件夹重命名为查看详情

使用flume采集日志数据到hdfs中(代码片段)

...录1.简介1.1.Source组件1.2.Channel组件1.3.Sink组件2.安装Flume3.采集数据测试4.日志汇总到HDFS中4.1.日志收集服务配置4.2.日志汇总服务配置4.3.运行服务测试1.简介Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采... 查看详情

flume日志采集框架使用

flume日志采集框架使用本次学习使用的全部过程均不在集群上，均在本机环境，供学习参考先决条件：flume-ng-1.6.0-cdh5.8.3.tar 去cloudrea下载flume框架，笔者是用cdh5.8.3的套餐 flume的使用环境：采集特定目录到hdfs环境... 查看详情

采集案例

采集目录到HDFS采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素采集源，即source——监控文件目录: spooldir下沉目标，即sink&md... 查看详情

flume数据采集之常见集群配置案例(代码片段)

[TOC]非集群配置这种情况非集群配置方式，比较简单，可以直接参考我整理的《Flume笔记整理》，其基本结构图如下：Flume集群之多个Agent一个source结构说明结构图如下：说明如下：即可以把我们的Agent部署在不同的节点上，上面... 查看详情

大数据技术之flumeflume概述flume快速入门(代码片段)

...入门2.1Flume安装部署2.1.1安装地址2.1.2安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件2.3.3实时监控目录下多个新文件2.2.4实时监控目录下的多个追加文件1Flume概述1.1Flume定义Flume是Cloudera提供的一个高... 查看详情

大数据技术之flumeflume概述flume快速入门(代码片段)

flume从0到高手一站式养成记(代码片段)

...学前必备知识二、极速入门Flume三、极速上手Flume使用3.1案例：Flume的HelloWorld!3.2案例：采集文件内容上传至HDFS3.3案例：采集网站日志上传至HDFS四、Flume高级组件4.1SourceInterceptors4.2ChannelSelectors4.3SinkProcessors4.4FailoverSin 查看详情

flume远程写hdfs

现在的需求是在一台Flume采集机器上，往Hadoop集群上写HDFS，该机器没有安装Hadoop。这里的Flume版本是1.6.0，Hadoop版本是2.7.1.把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到flume安装目录的conf目录去，把hadoop-hdfs-2.7.1.jar... 查看详情

flume原理分析与使用案例(代码片段)

1、flume的特点：　　flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS... 查看详情

日志采集框架flume

概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，... 查看详情

flume实时监控目录sink到hdfs

目标：Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算1、flume的配置，配置spoolDirSource_hdfsSink.properties，监控本地的一个目录，上传到hdfs一个目录下。agent1.channels=ch1agent1.sources=spoolDir-source1agent1.sin... 查看详情

flume环境部署和配置详解及案例大全

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)... 查看详情

flume快速入门及常用案例整理(代码片段)

flume快速入门及常用案例整理flume概述1.1flume定义flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，flume基于流式架构，灵活简单Flume最主要的作用就是，实时读取服务器... 查看详情

日志采集框架flume的安装及使用

日志采集框架Flume的安装及使用1.Flume介绍1.1.Flume概述Flume是一个分布式、可靠、和高可用(旧版Flumeog才有高可用)的海量日志采集、传输和聚合的系统。Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输... 查看详情

flume采集数据报错问题解决

在一次实验过程中,使用flume1.7采集本地的数据到hdfs文件系统时,由于配置文件不合理,导致出错。错误如下:[WARN-org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.closeResponder(DFSOutputStream.java:611)]Caughtexceptionjava. 查看详情

flume(代码片段)

...1章Flume概述第2章Flume快速入门2.1Flume安装部署2.2Flume入门案例2.2.1监控端口数据官方案例2.2.2实时监控单个追加文件2.2.3实时监控目录下多个新文件2.2.4实时监控目录下的多个追加文件第3章Flume进阶3.1Flume事务3.2FlumeAgent内部原理3.3Flu... 查看详情