将flume的数据实时发送到sparkstreaming的部署文档

py8585      2022-03-30     667

关键词:

将flume的数据实时发送到spark streaming的部署文档

一、创建数据源文件
    echo "hello world" >> /tmp/word.txt

二、安装flume
    参考csdn文档
    https://blog.csdn.net/weixin_43859091/article/details/123635082
    
三、编写spark.properties文件放置在/usr/local/flume/conf/spark.properties目录中
    a1.sources = r1
    a1.channels = c1
    a1.sinks = k1
    a1.sources.r1.type = exec
    a1.sources.r1.command = tail -F /tmp/word.txt
    a1.channels.c1.type = memory
    a1.sinks.k1.type = avro
    a1.sinks.k1.hostname = 127.0.0.1
    a1.sinks.k1.port =44444
    a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1
    
四、下载spark2.4.8
    https://mirrors.aliyun.com/apache/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
    通过xftp上传到linux系统上,然后tar zxvf spark-2.4.8-bin-hadoop2.7.tgz解压
    mv /root/spark-2.4.8-bin-hadoop2.7 /usr/local/spark2

五、配置环境变量
    vim /etc/profile
        export PYSPARK_PYTHON=python3
        export SPARK_HOME=/usr/local/spark2
    退出当前xshell,然后重新连接xshell

六、安装dos2unix
    yum install -y dos2unix
    
    dos2unix /root/SparkStreamingFlume.py

八、启动streaming进程
    /usr/local/spark2/bin/spark-submit /root/SparkStreamingFlume.py
    
    将spark-streaming-flume_2.11-2.4.8.jar和spark-streaming-flume-assembly_2.11-2.4.8.jar两个文件上传到
    /usr/local/spark2/jars目录中
    
    然后双击xshell新打开一个标签,然后运行netstat -ant 检查是否有44444端口生成,如果有则表明streaming进程启动成功。


九、启动flume进程
    /usr/local/flume/bin/flume-ng agent -n a1 -c /usr/local/flume/conf/ -f /usr/local/flume/conf/spark1.properties -Dflume.root.logger=INFO,console

    正常启动的标志是没有error信息即可

十、使用echo命令一直朝/tmp/word.txt文件追加内容
    双击xshell再新打开一个标签,然后运行如下命令:
    echo "hello world" >> /tmp/word.txt
    
    同时观察启动streaming的xshell窗口,查看是否有(hello,3)这样的内容出现,如果有则表明成功。
    
    
    
    


 

python爬虫等获取实时数据+flume+kafka+sparkstreaming+mysql+echarts实现数据动态实时采集分析展示(代码片段)

使用爬虫等获取实时数据+Flume+Kafka+SparkStreaming+mysql+Echarts实现数据动态实时采集、分析、展示主要工作流程如下所示:其中爬虫获取实时数据,并把数据实时传输到Linux本地文件夹中。使用Flume实时监控该文件夹,如果发现文件内... 查看详情

flume整合数据到kafka,sparkstreaming消费数据,并存储到hbase和redis中(代码片段)

...1执行以下命令创建kafka的topic6、启动并查看kafka的数据3、SparkStreaming消费kafka中的数据 1、第一步sparkStreaming的连接2、第二步从kafka中获取数据信息,写了一个自定义方法getStreamingContextFromHBase3、第三步、消费数据,解析数... 查看详情

flume+sparkstreaming实例实时监控文件demo

1,flume所在的节点不和spark同一个集群 v50和10-15节点flume在v50里面flume-agent.conf spark是开的work节点,就是单点计算节点,不涉及到master发送管理只是用到了sparkStreming的实时功能开启的是spark-shell不是spark-submit提交jar的形式... 查看详情

flume+kakfa+sparkstream实时处理数据测试

...据源拉取数据kafka:主要起到缓冲从flume拉取多了的数据sparkStream:对数据进行处理 一.flume拉取数据 1.源数据文件读取配置 在flume目录的conf目录下配置读取数据源的配置,配置一个test.properties文件,内容如下: a1.sou... 查看详情

基于flume+kafka+sparkstreaming打造实时流处理项目实战课程

...消息队列Kafka、分布式列式数据库HBase、及当前最火爆的SparkStreaming打造实时流处理项目实战,让你掌握实时处理的整套处理流程,达到大数据中级研发工程师的水平!下载地址:百度网盘下载    IT交流群:9780552 查看详情

sparkstreaming和kafka数据丢失怎么处理

...数据生产者,比如flume.flume负责生产数据,发送至kafka。sparkstreaming作为消费者,实时的从kafka中获取数据进行计算。计算结果保存至redis,供实时推荐使用。flume+kafka+spark+redis是实时数据收集与计算的一套经典架构... 查看详情

sparkstreaming

2.4.6.1.1概论SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应... 查看详情

flume实时监控目录sink到hdfs

目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算1、flume的配置,配置spoolDirSource_hdfsSink.properties,监控本地的一个目录,上传到hdfs一个目录下。agent1.channels=ch1agent1.sources=spoolDir-source1agent1.sin... 查看详情

sparkstreaming

一、flume整合sparkStreaming问题  1、如何实现sparkStreaming读取flume中的数据   sparkStreaming整合flume有2中模式,一种是拉模式,一种是推模式。比较两种模式的特点,如何部署。   推模式:Flume将数据Push推给SparkStreaming  ... 查看详情

flume整合数据到kafka,sparkstreaming消费数据,并存储到hbase和redis中(代码片段)

...1执行以下命令创建kafka的topic6、启动并查看kafka的数据3、SparkStreaming消费kafka中的数据 1、第一步sparkStreaming的连接2、第二步从k 查看详情

大数据spark“蘑菇云”行动之flume整合sparkstreaming

...的2016年大数据Spark“蘑菇云”行动,需要将flume,kafka和Sparkstreaming进行整合。  感觉一时难以上手,还是先从简单着手吧:我的思路是这样的,flume产生数据,然后输出到sparkstreaming,flume的源数据是netcat(地址:localhost,... 查看详情

sparkstreaming+flume+kafka实时流式处理完整流程(代码片段)

目录sparkstreaming+flume+kafka实时流式处理完整流程一、前期准备二、实现步骤1.引入依赖2.日志收集服务器3.日志接收服务器4、spark集群处理接收数据并写入数据库5、测试结果sparkstreaming+flume+kafka实时流式处理完整流程一... 查看详情

sparkstreaming整合flume(代码片段)

SparkStreaming整合flume在实际开发中push会丢数据,因为push是由flume将数据发给程序,程序出错,丢失数据。所以不会使用不做讲解,这里讲解poll,拉去flume的数据,保证数据不丢失。1.首先你得有flume比如你有:【如果没有请走这篇... 查看详情

kafka+sparkstreaming+tranquilityserver发送数据到druid

  花了很长时间尝试druid官网上说的Tranquility嵌入代码进行实时发送数据到druid,结果失败了,各种各样的原因造成了失败,现在还没有找到原因,在IDEA中可以跑起,放到线上就死活不行,有成功了的同仁希望贴个链接供我来... 查看详情

kafka查看消费了多少条数据

...数据生产者,比如flume.flume负责生产数据,发送至kafka。sparkstreaming作为消费者,实时的从kafka中获取数据进行计算。计算结果保存至redis,供实时推荐使用。flume+kafka+spark+redis是实时数据收集与计算的一套经典架构... 查看详情

kafka查看消费了多少条数据

...数据生产者,比如flume.flume负责生产数据,发送至kafka。sparkstreaming作为消费者,实时的从kafka中获取数据进行计算。计算结果保存至redis,供实时推荐使用。flume+kafka+spark+redis是实时数据收集与计算的一套经典架构... 查看详情

flume(代码片段)

Flume概述Flume是一个高可用、高可靠、分布式的海量日志数据采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方的能力。Flume(Agent... 查看详情

sparkstreaming实时计算在甜橙金融监控系统中的应用及优化

...把这些信息发送到Kafka分布式发布订阅消息系统,接着由SparkStreaming消费Kafka中的消息,同时消费记录由Zookeeper集群统一管理,这样即使Kafka宕机重启后也能找到上次的消费记录继而进行消费。在这里SparkStreaming首先从MySQL读取规则... 查看详情