我们可以使用 sqoop 将数据从 Hadoop (Hive) 导出到 Amazon Redshift

     2023-03-30     220

关键词:

【中文标题】我们可以使用 sqoop 将数据从 Hadoop (Hive) 导出到 Amazon Redshift【英文标题】:Can we use sqoop to export data from Hadoop (Hive) to Amazon Redshift 【发布时间】:2016-09-23 03:52:42 【问题描述】:

我有一个本地 Hadoop 集群,想将数据加载到 Amazon Redshift。考虑到成本,Informatica/Talend 不是一个选项,所以我们可以利用 Sqoop 将表从 Hive 直接导出到 Redshift 吗? Sqoop 是否连接到 Redshift?

【问题讨论】:

【参考方案1】:

将数据加载到 Amazon Redshift 的最有效的方法是将数据放入 Amazon S3,然后在 Redshift 中发出 COPY 命令。这会在所有 Redshift 节点上执行并行数据加载。

虽然 Sqoop 可能能够使用传统的INSERT SQL 命令将数据插入 Redshift,但这并不是将数据插入 Redshift 的好方法。

首选方法是:

将数据以 CSV 格式(最好是 .gz 或 .bzip 格式)导出到 Amazon S3 在 Redshift 中触发 COPY 命令

您应该能够通过将数据复制到 CSV 格式的 Hive 外部表来将数据导出到 S3。

另外,Redshift 可以从 HDFS 加载数据。它需要一些额外的设置来授予对 EMR 集群的 Redshift 访问权限。请参阅 Redshift 文档:Loading Data from Amazon EMR

【讨论】:

【参考方案2】:

不支持 upsert 的复制命令只是简单地加载你提到的多次并最终得到重复的数据,所以更好的方法是使用胶水作业并修改它以进行更新,否则插入或使用 lambda 插入到 redshift 中

【讨论】:

从 SAP HANA 导入数据时出现 sqoop 问题

...datafromSAPHANA【发布时间】:2017-05-0420:31:13【问题描述】:我们目前正在使用sqoop将数据从SAPHana移动到Hadoop。SAPHana表在表名和列名中使用“\\”字符。我们的常规sqoop命令正在运行,但是当我使用“拆分方式”时它失败了。任何人... 查看详情

如何将mysql数据导入hadoop之sqoop安装

...20秒,还是不错的。在hive中可以看到刚刚导入的数据表:我们来一句sql测试一下数据:select*fromtest_sfzwhereid<10;可以看到,hive完成这个任务用了将近25秒,确实是挺慢的(在mysql中几乎是不费时间),但是要考虑到hive是创建了job... 查看详情

sqoop安装及使用

...款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。通过将sqoop的操作命令转化为Hadoop的MapReduce作业进行导入导出,... 查看详情

sqoop基本原理

...可以将HDFS的数据导出到关系型数据库中。②Sqoop使用场景我们通常把有价值的 查看详情

sqoop的简易介绍(代码片段)

...acheHadoop和关系型数据库或主机之间传输数据的工具。Sqoop可以用于从数据库导入数据到Hadoop中,或者将Hadoop中的数据导出到数据库中。它支持各种数据库,如MySQL、Oracle、PostgreSQL、SQLServer、DB2和Teradata,还可以在Hadoop... 查看详情

sqoop--数据库和hdfs之间的搬运工(代码片段)

...大数据组件的安装很简单,可以参考我的其他博客。然后我们安装sqoop,这里我采用的是1.4.5版本的,目前sqoop有2.x版本,但是建议使用1.x。另外我使用的是cdh版本的,其实不光是sqoop,基本上所有大数据组件,个人学习的话,都... 查看详情

我可以使用 Sqoop 将数据从 SQL Server 导入 Azure Blob 存储吗

...zureblobstorage【发布时间】:2017-08-2514:50:51【问题描述】:我们是否可以使用Sqoop实用程序以.parquet文件格式将表从SQLServer数据库导入AzureBlob存储?sqoop是否接受目标作为wasb(s)://协议以指向A 查看详情

将数据从 RDBMS 加载到具有多个目标的 Hadoop

...pledestinations【发布时间】:2017-05-0815:21:13【问题描述】:我们已经实现了一个使用Sqoop将数据从RDBMS加载到我们的hadoop集群的解决方案,对于仅附加数据,它进入hive而维度数据到hbase。现在我们正在建立两个相同的Hadoop集群,它... 查看详情

寒假记录十二

...Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。Sqoop导入原理:  在导入开始之前,Sqoop使用JDBC来检查将要导入... 查看详情

如何用sqoop查看oracle的表

...持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用;得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 查看详情

sqoop从入门到实战(代码片段)

...传统的数据库(mysql,postgresql,...)间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。  Sqoop项目开始于2009年 查看详情

sqoop的使用之import导入到hdfs

原文链接:https://www.toutiao.com/i6772128429614563843/首先我们已经安装好sqoop了,如果没有安装好参考文档《快速搭建CDH-Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境》准备一些基本的认识1、sqoop分为了sqoop1和sqoop22、sqoop2拆分server和clien... 查看详情

如何从oracle到hive

...来说Sqoop会使用主键来平均地分割数据。并发导入的时候可以设置相关的分割列等等,具体的做法参考官方的文档。如果Oracle是安装在远程的电脑上,要确保Sqoop可以ping通Ora 查看详情

sqoop导入数据到mysql原理_sqoop的详细使用及原理

...将hadoop中hdfs和关系型数据库中的数据相互迁移的工具,可以将一个关系型数据库(mysql、oracle等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。2、sqoop的特点:sqoop的底层实现是mapreduce,所以sqoop依赖于h... 查看详情

如何将数据从大型机拉到 Hadoop

...机中有文件。我希望将这些数据推送到Hadoop(HDFS)/HIVE。我可以将Sqoop用于MainframeDB2数据库并将其导入HIVE,但是文件呢(例如COBOL、VASM等)是否有任何我可以编写的自定义水槽源或其他可以在这里使用的工具?【问题 查看详情

如何将数据从大型机拉到 Hadoop

...机中有文件。我希望将这些数据推送到Hadoop(HDFS)/HIVE。我可以将Sqoop用于MainframeDB2数据库并将其导入HIVE,但是文件呢(例如COBOL、VASM等)是否有任何我可以编写的自定义水槽源或其他可以在这里使用的工具?【问题 查看详情

sqoop

...中  把数据从Hadoop系统里抽取并导出到关系型数据库里可以利用MapReduce加快数据传输速度,使用批处理的方式进行数据传输关系数据库与Hadoop之间传递数据全量导入:sqoop增量导入:Canal(https://github 查看详情

头歌sqoop数据导入-详解(代码片段)

...t这两个工具。本实训主要是针对import(导入)来讲。现如今我们一直储放数据都是在关系数据库中,但是数据量到达一定的规模后,我们需要数据清理加分析,如果使用关系数据库我们工作量会大大提高,这个时候... 查看详情