使用 SQOOP 和 FLUME 将数据从 RDBMS 移动到 Hadoop

     2023-04-18     203

关键词:

【中文标题】使用 SQOOP 和 FLUME 将数据从 RDBMS 移动到 Hadoop【英文标题】:Data moving from RDBMS to Hadoop, using SQOOP and FLUME 【发布时间】:2014-03-18 03:41:23 【问题描述】:

我正在学习 Hadoop,并且在将数据从关系数据库移动到 Hadoop 以及反之亦然的过程中遇到了一些概念。 我已经使用 SQOOP 导入查询将文件从 MySQL 传输到 HDFS。我传输的文件是结构化数据集,而不是任何服务器日志数据。我最近读到我们通常使用 Flume 将日志文件移动到 Hadoop 中, 我的问题是: 1. 我们可以使用 SQOOP 来移动日志文件吗? 2. 如果是,SQOOP 和 FLUME 哪个更适合日志文件,为什么?

【问题讨论】:

【参考方案1】:

1) Sqoop 可用于在任何 rdbms 和 hdfs 之间传输数据。要使用 scoop,数据的结构通常由导入或导出数据的数据库模式指定。日志文件并不总是结构化的,取决于日志的源和类型,因此 sqoop 不用于移动日志文件。

2)Flume 可以从许多不同类型的可定制数据源收集、聚合数据。在存储到 hdfs 之前,它可以更灵活地控制在用户定义的工作流中捕获和使用哪些特定事件。

我希望它能阐明 sqoop 和 flume 之间的区别。

【讨论】:

感谢您的解释!【参考方案2】:

SQOOP 旨在将数据从 RDMS 传输到 HDFS,而 FLUME 用于移动大量日志数据。

两者都是不同的,并且专门用于不同的目的。

喜欢

您可以使用 SQOOP 通过 JDBC 导入数据(在 FLUME 中不能这样做), 和 您可以使用 FLUME 说“我想从这个服务器拖尾 200 行日志文件”。

在此处阅读有关 FLUME 的更多信息 http://flume.apache.org/

【讨论】:

【参考方案3】:

SQOOP 不仅从 RDBMS 传输数据,还从像 MongoDB 这样的 NOSql 数据库传输数据。您可以直接将数据传输到 HDFS 或 Hive。

将数据传输到 Hive 无需事先创建表。它采用数据库本身的方案。

Flume 用于获取日志数据或流数据

【讨论】:

flume的概述和安装部署

...和许多故障转移和恢复机制,具有强大的容错能力。Flume使用简单的的可扩展数据模型,循环在线分析应用程序。 二、Flume的作用  数据的来源大致有三类:  1.爬虫  2.日志数据   =>使用Flume进行获取传输  3.... 查看详情

使用 Oozie 和 Sqoop 将数据从 HiveQL 导出到 MySQL

】使用Oozie和Sqoop将数据从HiveQL导出到MySQL【英文标题】:ExportDatafromHiveQLtoMySQLusingOoziewithSqoop【发布时间】:2019-05-2712:00:31【问题描述】:我在Hive中有一个表(定期更新),我想在我的一个具有MySQL数据库的工具中拥有它。我不... 查看详情

flume和sqoop(代码片段)

...nbsp;Sqoop简介Sqoop是一种旨在有效地在ApacheHadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具原理:将导入或导出命令翻译成Mapreduce程序来实现。  在翻译出的Mapreduce中主要是对InputFormat和OutputFormat进行定制RDBMS到H... 查看详情

使用 sqoop 将数据从 Teradata 迁移到 Hive

】使用sqoop将数据从Teradata迁移到Hive【英文标题】:DataMigrationformTeradatatoHiveusingsqoop【发布时间】:2018-02-1309:12:10【问题描述】:我正在尝试使用sqoop将数据从teradata迁移到hive,但在teradata表中有一些字段具有图形和vargraphic等数据... 查看详情

无法使用 Sqoop 将数据从 Vertica 导入 Cassandra

】无法使用Sqoop将数据从Vertica导入Cassandra【英文标题】:UnabletoimportdatafromVerticatoCassandrausingSqoop【发布时间】:2014-10-3014:53:49【问题描述】:我正在尝试使用Sqoop将表从Vertica导入DataStaxEnterprise4.5。没有报错也没有异常,但是目标... 查看详情

使用 SQOOP 从 RDBMS 导入数据

】使用SQOOP从RDBMS导入数据【英文标题】:ImportingdatafromRDBMSusingSQOOP【发布时间】:2016-07-1210:36:14【问题描述】:我正在尝试将数据从SQL服务器数据库导入Hive。基本上我将整个数据库(除了一些表)导入Hive。在这里,我有一些我... 查看详情

使用 Sqoop 将视图(数据库表重)从 Oracle 迁移到 Hive

】使用Sqoop将视图(数据库表重)从Oracle迁移到Hive【英文标题】:UsingSqooptomigrateviews(databasetablesheavy)fromOracletoHive【发布时间】:2017-05-2410:42:29【问题描述】:我是大数据的初学者,我们正在使用sqoop和Cloudera管理将视图从Oracle迁... 查看详情

使用 Sqoop 将数据从 MS-SQL 服务器写入 HDFS

】使用Sqoop将数据从MS-SQL服务器写入HDFS【英文标题】:WrtingDatafromMS-SQLservertoHDFSusingSqoop【发布时间】:2014-02-0612:04:32【问题描述】:我正在使用talendopenstudio,我的工作包括sqoop和hdfsoutput。我正在尝试使用sqoop将数据从ms-SQL服务器... 查看详情

使用 sqoop 将数据从 oracle 导入到 hdfs

】使用sqoop将数据从oracle导入到hdfs【英文标题】:dataimportfromoracletohdfswithsqoop【发布时间】:2016-06-2714:03:42【问题描述】:您好,我在尝试使用sqoop将数据从Oracle导入HDFS时遇到以下错误。使用的命令-sqoopimport--connectjdbc:oracle:thin:sy... 查看详情

使用 Apache Sqoop 将数据从 Mongo/Cassandra 导出到 HDFS

】使用ApacheSqoop将数据从Mongo/Cassandra导出到HDFS【英文标题】:ExportingdatafromMongo/CassandratoHDFSusingApacheSqoop【发布时间】:2014-08-2320:06:21【问题描述】:我有一个问题,我必须通过Hive从多个数据源(即RDBMS(MYSQL,Oracle)和NOSQL(Mongo... 查看详情

使用 Sqoop 将来自 MySQL 的数据加载到 PIG

】使用Sqoop将来自MySQL的数据加载到PIG【英文标题】:LoaddatacomingfromMySQLintoPIGusingSqoop【发布时间】:2017-05-0920:02:08【问题描述】:我正在尝试使用Sqoop和PIG,所以我看到的几乎所有文档都说Sqoop用于从MySQL获取数据并将其放入HDFS存... 查看详情

clouderaspark及hadoop开发员培训学习北京上海

...oop 开发员培训学习如何将数据导入到ApacheHadoop机群并使用Spark、Hive、Flume、Sqoop、Impala及其他Hadoop生态系统工具对数据进行各种操作和处理分析在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采... 查看详情

使用 talend 或 sqoop 将数据从 hbase 导入 hdfs

】使用talend或sqoop将数据从hbase导入hdfs【英文标题】:importdatafromhbasetohdfsusingtalendorsqoop【发布时间】:2017-01-1612:05:55【问题描述】:是否可以使用Talend或sqoop将数据从hbase导出到hdfs?如果它不是直接可用的,那么实现这种用例的... 查看详情

使用 Sqoop 将数据从 teradata 导入 Hive

】使用Sqoop将数据从teradata导入Hive【英文标题】:UsingSqooptoimportdatafromteradatatoHive【发布时间】:2016-03-1713:27:57【问题描述】:我必须提取teradata中的表架构,但我没有这些表的权限。是否可以在没有选择访问权限的情况下通过sqoo... 查看详情

使用 sqoop 将数据从 CSV 导入 Avro 表的命令

】使用sqoop将数据从CSV导入Avro表的命令【英文标题】:CommandtoimportdatafromCSVtoAvrotableusingsqoop【发布时间】:2019-04-0912:47:45【问题描述】:我的HDFS上有一个名为test.csv的csv文件。我使用Hue创建了一个Avro表(avro_test),其列名与csv文件... 查看详情

如何使用 Sqoop 从 RDBMS 将数据导入本地文件系统,而不是 HDFS?

】如何使用Sqoop从RDBMS将数据导入本地文件系统,而不是HDFS?【英文标题】:HowtoimportdatausingSqoopfromRDBMSintolocalfilesystem,notHDFS?【发布时间】:2014-11-1918:42:35【问题描述】:我看到Sqoop允许将数据从RDBMS数据库导入HDFS。但是,我想将... 查看详情

sqoop安装及使用

简介:  sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。通过将sqoop的操作命令转化为Hadoop的MapReduce... 查看详情

从 SAP HANA 导入数据时出现 sqoop 问题

...发布时间】:2017-05-0420:31:13【问题描述】:我们目前正在使用sqoop将数据从SAPHana移动到Hadoop。SAPHana表在表名和列名中使用“\\”字符。我们的常规sqoop命令正在运行,但是当我使用“拆分方式”时它失败了。任何人都可以帮忙。... 查看详情