知道hardtop就够了?这九项必备技术你也必须掌握!

dashjunih dashjunih     2022-12-18     527

关键词:

除Hadoop外的9个大数据技术:

1.Apache Flink

2.Apache Samza3.Google Cloud Data Flow4.StreamSets5.Tensor Flow6.Apache NiFi7.Druid8.LinkedIn WhereHows9.Microsoft Cognitive Services

Hadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。

1.Apache Flink

是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。

这是一种由社区驱动的分布式大数据分析开源框架,类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个顶级项目(Top Level Project,TLP),于2014年4月被纳入Apache孵化器,目前在全球范围内有很多贡献者。

技术图片

Flink受到了MPP数据库技术(Declaratives、Query Optimizer、Parallel in-memory、out-of-core 算法)和Hadoop MapReduce技术(Massive scale out, User Defined functions, Schema on Read)的启发,有很多独特功能(Streaming, Iterations, Dataflow, General API)。大数据学习群410391744零基础到实战在线直播免费公开课,内有专业解答老师,学习交流,才能更快进步

2.Apache Samza:

是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop Yarn实现容错处理、处理器隔离、安全性和资源管理。

该技术由LinkedIn开发,最初目的是为了解决Apache Kafka在扩展能力方面存在的问题,包含诸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible,以及Processor Isolation等功能。

技术图片

Samza的代码可作为Yarn作业运行,还可以实施StreamTask接口,借此定义process()调用。StreamTask可以在任务实例内部运行,其本身也位于一个Yarn容器内。

3.Cloud Dataflow:

Dataflow是一种原生的Google Cloud数据处理服务,是一种构建、管理和优化复杂数据流水线的方法,用于构建移动应用,调试、追踪和监控产品级云应用。它采用了Google内部的技术Flume和MillWhell,其中Flume用于数据的高效并行化处理,而MillWhell则用于互联网级别的带有很好容错机制的流处理。

该技术提供了简单的编程模型,可用于批处理和流式数据的处理任务。该技术提供的数据流管理服务可控制数据处理作业的执行,数据处理作业可使用Data Flow SDK(Apache Beam)创建。

技术图片

Google Data Flow为数据相关的任务提供了管理、监视和安全能力。Sources和Sink可在管线中抽象地执行读写操作,管线封装而成的整个计算序列可以接受外部来源的某些输入数据,通过对数据进行转换生成一定的输出数据。

4.StreamSets:

StreamSets是一种专门针对传输中数据进行过优化的数据处理平台,提供了可视化数据流创建模型,通过开源的方式发行。该技术可部署在内部环境或云中,提供了丰富的监视和管理界面。

技术图片

数据收集器可使用数据管线实时地流式传输并处理数据,管线描述了数据从源头到最终目标的流动方式,可包含来源、目标,以及处理程序。数据收集器的生命周期可通过管理控制台进行控制。

5.TensorFlow:

是继DistBelief之后的第二代机器学习系统。TensorFlow源自Google旗下的Google Brain项目,主要目标在于为Google全公司的不同产品和服务应用各种类型的神经网络机器学习能力。

支持分布式计算的TensorFlow能够使用户在自己的机器学习基础结构中训练分布式模型。该系统以高性能的gRPC数据库为支撑,与最近发布的Google云机器学习系统互补,使用户能够利用Google云平台,对TensorFlow模型进行训练并提供服务。

这是一种开源软件库,可使用数据流图谱(data flow graph)进行数值运算,这种技术已被包括DeepDream、RankBrain、Smart Replyused在内的各种Google项目所使用。

技术图片

数据流图谱使用由节点(Node)和边缘(Edge)组成的有向图(Directed graph)描述数值运算。图谱中的节点代表数值运算,边缘代表负责在节点之间进行通信的多维数据阵列(张量,Tensor)。边缘还描述了节点之间的输入/输出关系。“TensorFlow”这个名称蕴含了张量在图谱上流动的含义。

6.Druid:

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析,诞生于2011年,包含诸如驱动交互式数据应用程序,多租户:大量并发用户,扩展能力:每天上万亿事件,次秒级查询,实时分析等功能。Druid还包含一些特殊的重要功能,例如低延迟数据摄入、快速聚合、任意切割能力、高可用性、近似计算与精确计算等。

创建Druid的最初意图主要是为了解决查询延迟问题,当时试图使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能而采取了特殊的存储格式。

技术图片

该技术还提供了其他实用功能,例如实时节点、历史节点、Broker节点、Coordinator节点、使用基于JSON查询语言的索引服务。了解详情

7.Apache NiFi:

Apache NiFi是一套强大可靠的数据处理和分发系统,可用于对数据的流转和转换创建有向图。借助该系统可以用图形界面创建、监视、控制数据流,有丰富的配置选项可供使用,可在运行时修改数据流,动态创建数据分区。此外还可以对数据在整个系统内的流动进行数据起源跟踪。通过开发自定义组件,还可轻松对其进行扩展。

技术图片

Apache NiFi的运转离不开诸如FlowFile、Processor,以及Connection等概念。

8.LinkedIn WhereHows:

WhereHows提供带元数据搜索的企业编录(Enterprise catalog),可以让您了解数据存储在哪里,是如何保存到那里的。该工具可提供协作、数据血统分析等功能,并可连接至多种数据源和提取、加载和转换(ETL)工具。

技术图片

该工具为数据发现提供了Web界面,支持API的后端服务器负责控制元数据的爬网(Crawling)以及与其他系统的集成。

9.Microsoft Cognitive Services:

该技术源自Project Oxford和Bing,提供了22种认知计算API,主要分类包括:视觉、语音、语言、知识,以及搜索。该技术已集成于Cortana Intelligence Suite。

技术图片

这是一种开源技术,提供了22种不同的认知计算REST API,并为开发者提供了适用于Windows、IOS、Android以及Python的SDK。

javanio看这一篇就够了

原文链接:https://mp.weixin.qq.com/s/c9tkrokcDQR375kiwCeV9w?现在使用NIO的场景越来越多,很多网上的技术框架或多或少的使用NIO技术,譬如Tomcat,Jetty。学习和掌握NIO技术已经不是一个JAVA攻城狮的加分技能,而是一个必备技能。在前篇文章... 查看详情

云原生入门到进阶,1篇就够了!

开始阅读文章前,请角色切换:设想你作为一位中小型IT公司CTO,面对云原生技术决策,你需要回答两个问题:为什么需要上云?上云有何弊端?作为一家公司的技术决策者,必须理解上云的利与弊... 查看详情

es6这些就够了

...聊ES6那些可爱的新特性吧。1.变量声明const和let我们都是知道在ES6以前,var关键字声明变量。无论声明在何处,都会被视为声明在函数的最顶部(不在函数内即在全局作用域的 查看详情

如果你也准备踏入网络安全行业,收藏这一篇就够了(内含282g网络安全资料)

前言网络安全一点都不难,网络安全入门更是简单!大家可不要被它神秘的外衣给唬住了。只要你接下来认真听完我的讲解,虽然无法保证你成为大神,但是你学习能力再差那也让你达到网络安全入门级别。话不... 查看详情

《关于点击率模型,你知道这三点就够了》

 关于点击率模型,你知道这三点就够了德川 2015年11月24日 阅读26872  说到广告,或者运营,关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模型,为公司带来上亿的增量收... 查看详情

如果你也准备踏入网络安全行业,来收藏这一篇就够了(白嫖60g网安资料)

前言网络安全不难,网络安全入门更简单!可不要被它神秘的外衣给唬住了。只要你接下来认真听完我的讲解,虽然保证不了你能成为大神,但就算你学习能力再差那也能达到入门级别。进入正题01.简单了解网络... 查看详情

高效|工厂如何做好设备管理工作?看这篇就够了!

近年来,我国经济增长的人口红利优势逐渐丧失,出现了?“民工荒”和“用工难”以及劳动力成本迅速上升的现象,并进而导致了不少工厂迁移、甚至倒闭。因此对大的制造企业而言,要想提升核心竞争力,必须从两个方面着... 查看详情

「2020新手必备」极速入门retrofit+okhttp网络框架到实战,这一篇就够了!(代码片段)

老生常谈什么是Retrofit?Retrofit早已不是什么新技术了,想必看到这篇博客的大家都早已熟知,这里就不啰嗦了,简单介绍下:Retrofit是一个针对Java和Android的设计的REST客户机。它通过基于REST的web服务检索和上传JSON(或其他结构化... 查看详情

ajax入门这一篇就够了

什么是AjaxAjax(AsynchronousJavaScriptandXML)异步JavaScript和XMLAjax实际上是下面这几种技术的融合:(1)XHTML和CSS的基于标准的表示技术(2)DOM进行动态显示和交互(3)XML和XSLT进行数据交换和处理(4)XMLHttpRequest进行异步数据检索(5)Javascript将以上... 查看详情

关于vim,知道这些就够了(代码片段)

基本操作打开文件vim[option]file+n.:打开文件后,让光标处于第n.行的行首,+默认行尾\\vim+5file打开file并让光标处在第5行进入插入模式i\\在光标处输入I\\当前光标行的行首输入a\\在光标所在处后面输入A\\在当前光标所在行的行尾输... 查看详情

学习自然语言处理,一张图就够了

一张图看懂自然语言处理技术框架一、前言正在针对《人工智能产品经理最佳实践请添加链接描述》视频课程第三部分,关键技术篇,进行相关的内容重构,今天整理的部分是自然语言处理技术框架,特地绘制了一张自然语言处... 查看详情

es6这些就够了

...聊ES6那些可爱的新特性吧。1.变量声明const和let我们都是知道在ES6以前,var关键字声明变量。无论声明在何处,都会被视为声明在函数的最顶部(不在函数内即在全局作用域的最顶部)。这就是函 查看详情

java面向对象知道这些就够了(代码片段)

面向对象面向对象是一种思维方式,相对于面向过程而言的。面向过程在流程中关注动作执行的每一个细节—自己动手做面向对象重点找这个对象,只要找到了对象,那么这个对象所具有的功能就能够被使用—找别人做类与对象... 查看详情

你应该知道的@configurationproperties注解的使用姿势,这一篇就够了(代码片段)

在编写项目代码时,我们要求更灵活的配置,更好的模块化整合。在SpringBoot项目中,为满足以上要求,我们将大量的参数配置在application.properties或application.yml文件中,通过@ConfigurationProperties注解,我们可以方便的获取这些参数... 查看详情

入门linux只要知道这些就够了上

参考技术A知道怎么增删改查就算是入门了。因为这是最常用的。  在使用linux时,经常需要进行文件查找。其中查找的命令主要有find和grep。两个命令是有区别的。  区别:(1)find命令是根据文件的属性进行查找,如文件名,... 查看详情

还不懂shell脚本核心?这一篇就够了。(代码片段)

 前言:现在在我们已经知道了Linux系统和命令行的基础知识,是时候开始编程了。本章讨论编写shell脚本的基础知识。在开始编写自己的shell脚本前,你必须了解的基本概念都在这里。 一、多个shell命令的使用shell脚... 查看详情

还不懂shell脚本核心?这一篇就够了。(代码片段)

 前言:现在在我们已经知道了Linux系统和命令行的基础知识,是时候开始编程了。本章讨论编写shell脚本的基础知识。在开始编写自己的shell脚本前,你必须了解的基本概念都在这里。 一、多个shell命令的使用shell脚... 查看详情

多线程之线程池技术实现原理,这篇就够了

在Java语言中,有两种比较常见的创建线程的方法,一种是继承Thread类,一种是实现Runnable的接口,Thread类其实也是实现了Runnable接口。并且在前面的博文中我们也介绍了有返回结果的创建线程的方式。这篇博文我们就重点介绍线... 查看详情