关键词:
虽然比较久,但是这套架构已经很成熟了,记录一下
一般数据流向,从“数据采集--数据接入--流失计算--数据输出/存储”
<ignore_js_op>
Flume的数据接受方,可以是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系统)等。在我们系统中由kafka来接收。
- $tar zxvf apache-flume-1.4.0-bin.tar.gz/usr/local
- $bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name producer -Dflume.root.logger=INFO,console
- 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
- 高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
- 支持通过kafka服务器和消费机集群来分区消息。
- 支持Hadoop并行数据加载。
- > tar xzf kafka-<VERSION>.tgz
- > cd kafka-<VERSION>
- > ./sbt update
- > ./sbt package
- > ./sbt assembly-package-dependency
- > bin/zookeeper-server-start.shconfig/zookeeper.properties
- > bin/kafka-server-start.shconfig/server.properties
- zookeeper.connect=nutch1:2181
- > bin/kafka-create-topic.sh --zookeeper localhost:2181 --replica 1 --partition 1 --topic test
- > bin/kafka-list-topic.sh --zookeeperlocalhost:2181
- > bin/kafka-console-producer.sh--broker-list localhost:9092 --topic test
- > bin/kafka-console-consumer.sh--zookeeper localhost:2181 --topic test --from-beginning
- 简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。
- 可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持,只需实现一个简单的Storm通信协议即可。
- 容错性。Storm会管理工作进程和节点的故障。
- 水平扩展。计算是在多个线程、进程和服务器之间并行进行的。
- 可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时,它会负责从消息源重试消息。
- 快速。系统的设计保证了消息能得到快速的处理,使用ØMQ作为其底层消息队列。(0.9.0.1版本支持ØMQ和netty两种模式)
- 本地模式。Storm有一个“本地模式”,可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。
producer.sources.s.command = tail -f -n+1 /mnt/hgfs/vmshare/test.log
producer.sources.s.channels = c
- #2个channel和2个sink的配置文件 这里我们可以设置两个sink,一个是kafka的,一个是hdfs的;
- a1.sources = r1
- a1.sinks = k1 k2
- a1.channels = c1 c2
- storm-0.9.0.1/bin/storm jar storm-start-demo-0.0.1-SNAPSHOT.jar com.storm.topology.MyTopology
到这里我们的整个整合就完成了!
❤️2021年大数据kafka:kafka特点总结和架构
全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点。目录系列历史文章一、Kafka特点总结kafka特点总结二、Kafka架构架构图专业术语系列历史文... 查看详情
2021年大数据kafka:❤️kafka特点总结和架构❤️
全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点。目录系列历史文章一、Kafka特点总结kafka特点总结二、Kafka架构架构图专业术语系列历史文... 查看详情
大数据技术之kafkakafka概述kafka快速入门kafka架构深入(代码片段)
...fka工作流程及文件存储机制3.2Kafka生产者3.2.1分区策略3.2.2数据可靠性保证3.2.3ExactlyOnce语义3.3Kafka消费者3.3.1消费方式3.3.2 查看详情
大数据技术之kafkakafka概述kafka快速入门kafka架构深入(代码片段)
...fka工作流程及文件存储机制3.2Kafka生产者3.2.1分区策略3.2.2数据可靠性保证3.2.3ExactlyOnce语义3.3Kafka消费者3.3.1消费方式3.3.2 查看详情
kafka+flume-ng+hdfs整合
Kafka 由LinkedIn于2010年12月(https://thenewstack.io/streaming-data-at-linkedin-apache-kafka-reaches-1-1-trillion-messages-per-day/)开源出来一个消息的发布/订阅系统,用scala实现;版本从0.05到现在0.10.2.0(2017-02-25) 系统中, 查看详情
kafka温故:kafka背景及架构介绍
...余备份的持久性的日志服务。它主要用于处理活跃的流式数据(实时性的计算)。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系 查看详情
kafka源码解读
...----恢复内容开始------------kafka源码解读一.概述1.前言在大数据的场景里面如何应对数据激增,数据复杂度增加以及数据变化速率变快,这都是体现了大数据架构师,Java架构师的功力。而Kafka能很好的解决这些问题。Kafka的源码是... 查看详情
大数据架构(代码片段)
...中含有离线处理与实时处理两条链路,两条链路处理数据导致数据不一致等Kappa 架构Kappa架构真正的实时数仓,目前在业界最常用实现就是Flink+KafkaKappa存在问题Kafka无法支持海量数据存储。对于海量数据量的业务线来... 查看详情
大数据技术之kafkakafka概述kafka快速入门kafka架构深入(代码片段)
...fka工作流程及文件存储机制3.2Kafka生产者3.2.1分区策略3.2.2数据可靠性保证3.2.3ExactlyOnce语义3.3Kafka消费者3.3.1消费方式3.3.2分区分配策略3.3.3offset的维护3.3.4消费者组案例3.4Kafka高效读写数据3.5Zookeeper在Kafka中的作用3.6Kafka事务3.6.1Produ... 查看详情
大数据消息中间件之kafka-01
大数据消息中间件之Kafka此篇文章讲述大数据消息中间件Kafka入门及使用文章目录大数据消息中间件之Kafka前言一、Kafka是什么?二、消息队列2.1消息队列的应用场景2.2那么我们为什么使用消息队列呢?三、Kafka3.1Kafka的两种模式... 查看详情
大数据sparkstructuredstreaming集成kafka(代码片段)
目录1Kafka数据消费2Kafka数据源3Kafka接收器3.1配置说明3.2实时数据ETL架构3.3模拟基站日志数据3.4实时增量ETL4Kafka特定配置1Kafka数据消费ApacheKafka是目前最流行的一个分布式的实时流消息系统,给下游订阅消费系统提供了并行处... 查看详情
基于kafka+sparkstreaming+oushudb搭建批流一体大数据分析架构
实时消息KafkaKafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等... 查看详情
大数据学习笔记59:初探kafka消息系统
...merGroup(消费者组)(四)Kafka特性1、高吞吐量2、持久化数据存储3、分布式系统易于扩展4、客户端状态维护二、Kafka系统架构 查看详情
大数据spark集成kafka(代码片段)
...使用Storm还是SparkStreaming与Flink,主要从Kafka实时消费数据进行处理分析,流式数据实时处理技术架构大致如下 查看详情
详解kafka:大数据开发最火的核心技术
详解Kafka:大数据开发最火的核心技术 架构师技术联盟2019-06-1009:23:51本文共3268个字,预计阅读需要9分钟。广告大数据时代来临,如果你还不知道Kafka那你就真的out了(快速掌握Kafka请参考文章:如何全方位掌握Kafka核心技术)!... 查看详情
大数据平台架构
一、数据采集1.ETL,数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。开源工具:Apatat,Scriptella,Talend,kettle2.实时采集Flume,Flink流处理,批处理都可Kafka场景应... 查看详情
数据集成:flume和sqoop
...一个介绍:Flume由cloudera开发出来,有两大产品:Flume-og和Flume-ng,Flume-og的架构过于复杂,在寻问当中会有数据丢失,所以放弃了。现在我们使用的是Flume-ng,主要是日志采集,这个日志可以是TCP的系统的日志数据,可以是文件数... 查看详情
大数据sparkstreamingqueries(代码片段)
...接收器5.2MemorySink5.3ForeachSink5.4ForeachBatchSink6容错语义7Kafka数据消费8Kafka数据源9Kafka接收器9.1配置说明9.2实时数据ETL架构9.3模拟基站日志数据9.4实时增量ETL10Kafka特定配置1输出模式在Structu 查看详情