sparkstreaming学习之一sparkstreaming初识

cac2020 cac2020     2023-03-15     306

关键词:

环境
  虚拟机:VMware 10
  Linux版本:CentOS-6.5-x86_64
  客户端:Xshell4
  FTP:Xftp4
  jdk1.8
  scala-2.10.4(依赖jdk1.8)
  spark-1.6

一、SparkStreaming简介
SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。

二、SparkStreaming与Storm的区别

1、Storm是纯实时的流式处理框架(扶梯),SparkStreaming是准实时的处理框架(微批处理-电梯)。因为微批处理,SparkStreaming的吞吐量比Storm要高。
2、Storm 的事务机制要比SparkStreaming的要完善。
3、Storm支持动态资源调度。(spark1.2开始和之后也支持)
4、SparkStreaming擅长复杂的业务处理,Storm不擅长复杂的业务处理,擅长简单的汇总型计算。

整体而言速度比storm要快,目前新项目一般选择SparkStreaming多一些,具体选择还要看应用场景

 

 

参考:
Spark

sparkstreaming基于directapi优化与kafka集成(代码片段)

...fka正在迅速成为最受欢迎的开源流处理平台之一。我们在SparkStreaming中也看到了同样的趋势。因此,在ApacheSpark1.3中,我们专注于对SparkStreaming与Kafka集成进行重大改进。主要增加如下:为Kafka新增了DirectAPI-这允许每个Kafka记录在... 查看详情

spark学习笔记——sparkstreaming

...、训练机器学习模型的应用,还有自动检测异常的应用。SparkStreaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。SparkStreaming... 查看详情

sparkstreaming实时计算框架学习01

文章目录初探SparkStreaming掌握DStream编程模型DStream转换操作DStream窗口操作DStream输出操作使用foreachPartition,将处理结果写到MySQL数据库中初探SparkStreaming从hadoop102的8888端口接受一行或者多行文本内容,并对接收到的内容以... 查看详情

spark学习9sparkstreaming流式数据处理组件学习(代码片段)

目录SparkStreaming相关概念概述SparkStreaming的基本数据抽象DStream处理模式操作流程中细节StreamingContextStreamingContext对象的创建StreamingContext主要用法输入源DStream两种转化无状态转化操作有状态转化操作输出操作实践(最简单的wordCount... 查看详情

sparkstreaming实时计算框架学习01(代码片段)

文章目录初探SparkStreaming掌握DStream编程模型DStream转换操作DStream窗口操作DStream输出操作使用foreachPartition,将处理结果写到MySQL数据库中初探SparkStreaming从hadoop102的8888端口接受一行或者多行文本内容,并对接收到的内容以... 查看详情

spark学习之路(二十三)sparkstreaming的官方文档(代码片段)

一、SparkCore、SparkSQL和SparkStreaming的类似之处二、SparkStreaming的运行流程2.1 图解说明 2.2 文字解说1、我们在集群中的其中一台机器上提交我们的ApplicationJar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreamin... 查看详情

spark基础学习笔记33:sparkstreaming数据源

...取文件流概述2、读取文件流演示零、本讲学习目标掌握SparkStreaming基本数据源掌握SparkStreaming高级数据源一、基本数据源StreamingContextAPI中直接提供了对一些数据源的支持,例如文件系统、Socket连接、RDD队列流等,此类数... 查看详情

kafka-sparkstreaming---学习1(代码片段)

---恢复内容开始---importjava.util.*;importorg.apache.spark.SparkConf;importorg.apache.spark.TaskContext;importorg.apache.spark.api.java.*;importorg.apache.spark.api.java.function.*;importorg.apache.spark.st 查看详情

pk2227-sparkstreaming实时流处理项目实战

PK2227-SparkStreaming实时流处理项目实战新年伊始,学习要趁早,点滴记录,学习就是进步!随笔背景:在很多时候,很多入门不久的朋友都会问我:我是从其他语言转到程序开发的,有没有一些基础性的资料给我们学习学习呢,你... 查看详情

sparkstreaming之实时数据流计算实例(代码片段)

最近在用sparkstreaming的技术来实现公司实时号码热度排序,学习了一下sparkstreaming的相关技术,今天主要要讲一个简单sparkstreaming实时数据流技术的一个示例,帮助大家更好的理解和学习sparkstreaming编程原理。在开始实... 查看详情

spark深入学习-15sparkstreaming前奏-kafka初体验

----本节内容-------1.Kafka基础概念 1.1出世背景 1.2基本原理   1.2.1.前置知识   1.2.2.架构和原理   1.2.3.基本概念   1.2.4.kafka特点2.Kafka初体验 2.1环境准备 2.2 查看详情

sparkstreamingsparkday11:sparkstreaming学习笔记(代码片段)

SparkDay11:SparkStreaming01-[了解]-昨日课程内容回顾主要讲解:SparkStreaming模块快速入门1、Streaming流式计算概述 -Streaming应用场景 实时报表RealTimeReport 实时增量ETL 实时预警和监控 实时搜索推荐 等等 -大数据架构:Lambd... 查看详情

sparkstreamingsparkday11:sparkstreaming学习笔记(代码片段)

SparkDay11:SparkStreaming01-[了解]-昨日课程内容回顾主要讲解:SparkStreaming模块快速入门1、Streaming流式计算概述 -Streaming应用场景 实时报表RealTimeReport 实时增量ETL 实时预警和监控 实时搜索推荐 等等 -大数据架构:Lambd... 查看详情

大数据学习——sparkstreaming整合kafka完成网站点击流实时统计(代码片段)

1.安装并配置zk2.安装并配置Kafka3.启动zk4.启动Kafka5.创建topic[[email protected]kafka]#bin/kafka-console-producer.sh--broker-listmini1:9092--topiccyf-test 程序代码packageorg.apache.sparkimportjava.net.InetSocket 查看详情

spark学习之路(二十三)sparkstreaming的官方文档[转](代码片段)

SparkCore、SparkSQL和SparkStreaming的类似之处SparkStreaming的运行流程1、我们在集群中的其中一台机器上提交我们的ApplicationJar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入口StreamingContext;2、Master会为这... 查看详情

KStreams + Spark Streaming + 机器学习

】KStreams+SparkStreaming+机器学习【英文标题】:KStreams+SparkStreaming+MachineLearning【发布时间】:2017-04-2901:59:32【问题描述】:我正在做一个POC,用于在数据流上运行机器学习算法。我最初的想法是获取数据,使用SparkStreaming-->从多... 查看详情

sparkstreaming(源码阅读十二)

...一件非常不容易的事情,但是咱可以积少成多嘛~那么,SparkStreaming是怎么搞的呢?  本质上,SparkStreaming接收实时输入数据流并将它们按批次划分,然后交给Spark引擎处理生成按照批次划分的结果流:    SparkStreaming提供了... 查看详情

sparkstreaming可以用于批处理吗

参考技术A  可以的,sparkstreaming主要四有四个方面。  能在故障报错与straggler的情况下迅速恢复状态;  更好的负载均衡与资源使用;  静态数据集与流数据的整合和可交互查询;  内置丰富高级算法处理库(SQL、机... 查看详情