正文

将flume的数据实时发送到sparkstreaming的部署文档

py8585  2022-03-30  667

关键词：

将flume的数据实时发送到spark streaming的部署文档

一、创建数据源文件
echo "hello world" >> /tmp/word.txt

二、安装flume
   参考csdn文档
   https://blog.csdn.net/weixin_43859091/article/details/123635082

三、编写spark.properties文件放置在/usr/local/flume/conf/spark.properties目录中
   a1.sources = r1
   a1.channels = c1
   a1.sinks = k1
   a1.sources.r1.type = exec
   a1.sources.r1.command = tail -F /tmp/word.txt
   a1.channels.c1.type = memory
   a1.sinks.k1.type = avro
   a1.sinks.k1.hostname = 127.0.0.1
   a1.sinks.k1.port =44444
   a1.sources.r1.channels = c1
   a1.sinks.k1.channel = c1

四、下载spark2.4.8
   https://mirrors.aliyun.com/apache/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
   通过xftp上传到linux系统上，然后tar zxvf spark-2.4.8-bin-hadoop2.7.tgz解压
   mv /root/spark-2.4.8-bin-hadoop2.7 /usr/local/spark2

五、配置环境变量
   vim /etc/profile
       export PYSPARK_PYTHON=python3
       export SPARK_HOME=/usr/local/spark2
   退出当前xshell，然后重新连接xshell

六、安装dos2unix
   yum install -y dos2unix

   dos2unix /root/SparkStreamingFlume.py

八、启动streaming进程
   /usr/local/spark2/bin/spark-submit /root/SparkStreamingFlume.py

   将spark-streaming-flume_2.11-2.4.8.jar和spark-streaming-flume-assembly_2.11-2.4.8.jar两个文件上传到
   /usr/local/spark2/jars目录中

   然后双击xshell新打开一个标签，然后运行netstat -ant 检查是否有44444端口生成，如果有则表明streaming进程启动成功。

九、启动flume进程
/usr/local/flume/bin/flume-ng agent -n a1 -c /usr/local/flume/conf/ -f /usr/local/flume/conf/spark1.properties -Dflume.root.logger=INFO,console

正常启动的标志是没有error信息即可

十、使用echo命令一直朝/tmp/word.txt文件追加内容
   双击xshell再新打开一个标签，然后运行如下命令：
   echo "hello world" >> /tmp/word.txt

   同时观察启动streaming的xshell窗口，查看是否有（hello，3）这样的内容出现，如果有则表明成功。

python爬虫等获取实时数据+flume+kafka+sparkstreaming+mysql+echarts实现数据动态实时采集分析展示(代码片段)

使用爬虫等获取实时数据+Flume+Kafka+SparkStreaming+mysql+Echarts实现数据动态实时采集、分析、展示主要工作流程如下所示：其中爬虫获取实时数据，并把数据实时传输到Linux本地文件夹中。使用Flume实时监控该文件夹，如果发现文件内... 查看详情

flume整合数据到kafka，sparkstreaming消费数据，并存储到hbase和redis中(代码片段)

...1执行以下命令创建kafka的topic6、启动并查看kafka的数据3、SparkStreaming消费kafka中的数据 1、第一步sparkStreaming的连接2、第二步从kafka中获取数据信息，写了一个自定义方法getStreamingContextFromHBase3、第三步、消费数据，解析数... 查看详情

flume+sparkstreaming实例实时监控文件demo

1，flume所在的节点不和spark同一个集群 v50和10-15节点flume在v50里面flume-agent.conf spark是开的work节点，就是单点计算节点，不涉及到master发送管理只是用到了sparkStreming的实时功能开启的是spark-shell不是spark-submit提交jar的形式... 查看详情

flume+kakfa+sparkstream实时处理数据测试

...据源拉取数据kafka：主要起到缓冲从flume拉取多了的数据sparkStream：对数据进行处理一.flume拉取数据 1.源数据文件读取配置在flume目录的conf目录下配置读取数据源的配置，配置一个test.properties文件，内容如下: a1.sou... 查看详情

基于flume+kafka+sparkstreaming打造实时流处理项目实战课程

...消息队列Kafka、分布式列式数据库HBase、及当前最火爆的SparkStreaming打造实时流处理项目实战，让你掌握实时处理的整套处理流程，达到大数据中级研发工程师的水平！下载地址:百度网盘下载 IT交流群:9780552 查看详情

sparkstreaming和kafka数据丢失怎么处理

...数据生产者，比如flume.flume负责生产数据，发送至kafka。sparkstreaming作为消费者，实时的从kafka中获取数据进行计算。计算结果保存至redis，供实时推荐使用。flume+kafka+spark+redis是实时数据收集与计算的一套经典架构... 查看详情

sparkstreaming

2.4.6.1.1概论SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，并将结果保存到外部文件系统、数据库或应... 查看详情

flume实时监控目录sink到hdfs

目标：Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算1、flume的配置，配置spoolDirSource_hdfsSink.properties，监控本地的一个目录，上传到hdfs一个目录下。agent1.channels=ch1agent1.sources=spoolDir-source1agent1.sin... 查看详情

sparkstreaming

一、flume整合sparkStreaming问题　　1、如何实现sparkStreaming读取flume中的数据　　　sparkStreaming整合flume有2中模式，一种是拉模式，一种是推模式。比较两种模式的特点，如何部署。　　　推模式：Flume将数据Push推给SparkStreaming　　... 查看详情

flume整合数据到kafka，sparkstreaming消费数据，并存储到hbase和redis中(代码片段)

...1执行以下命令创建kafka的topic6、启动并查看kafka的数据3、SparkStreaming消费kafka中的数据 1、第一步sparkStreaming的连接2、第二步从k 查看详情

大数据spark“蘑菇云”行动之flume整合sparkstreaming

...的2016年大数据Spark“蘑菇云”行动，需要将flume，kafka和Sparkstreaming进行整合。感觉一时难以上手，还是先从简单着手吧：我的思路是这样的，flume产生数据，然后输出到sparkstreaming，flume的源数据是netcat（地址：localhost，... 查看详情

sparkstreaming+flume+kafka实时流式处理完整流程(代码片段)

目录sparkstreaming+flume+kafka实时流式处理完整流程一、前期准备二、实现步骤1.引入依赖2.日志收集服务器3.日志接收服务器4、spark集群处理接收数据并写入数据库5、测试结果sparkstreaming+flume+kafka实时流式处理完整流程一... 查看详情

sparkstreaming整合flume(代码片段)

SparkStreaming整合flume在实际开发中push会丢数据，因为push是由flume将数据发给程序，程序出错，丢失数据。所以不会使用不做讲解，这里讲解poll，拉去flume的数据，保证数据不丢失。1.首先你得有flume比如你有：【如果没有请走这篇... 查看详情

kafka+sparkstreaming+tranquilityserver发送数据到druid

　　花了很长时间尝试druid官网上说的Tranquility嵌入代码进行实时发送数据到druid，结果失败了，各种各样的原因造成了失败，现在还没有找到原因，在IDEA中可以跑起，放到线上就死活不行，有成功了的同仁希望贴个链接供我来... 查看详情

kafka查看消费了多少条数据

flume(代码片段)

Flume概述Flume是一个高可用、高可靠、分布式的海量日志数据采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方的能力。Flume（Agent... 查看详情

sparkstreaming实时计算在甜橙金融监控系统中的应用及优化

...把这些信息发送到Kafka分布式发布订阅消息系统，接着由SparkStreaming消费Kafka中的消息，同时消费记录由Zookeeper集群统一管理，这样即使Kafka宕机重启后也能找到上次的消费记录继而进行消费。在这里SparkStreaming首先从MySQL读取规则... 查看详情