将数据从 RDBMS 加载到具有多个目标的 Hadoop

     2023-04-18     141

关键词:

【中文标题】将数据从 RDBMS 加载到具有多个目标的 Hadoop【英文标题】:Loading data from RDBMS to Hadoop with multiple destinations 【发布时间】:2017-05-08 15:21:13 【问题描述】:

我们已经实现了一个使用 Sqoop 将数据从 RDBMS 加载到我们的 hadoop 集群的解决方案,对于仅附加数据,它进入 hive 而维度数据到 hbase。

现在我们正在建立两个相同的 Hadoop 集群,它们是彼此的备份集群。我们希望将数据从 RDBMS 一次加载到两个集群。 Sqoop 不允许我们这样做。我们已经看到了一些流解决方案,例如流式集或 nifi,它们允许从一个地方提取数据并将其一次性发送到多个目的地。另外,我们正在考虑使用 sqoop 将数据加载到一个集群,然后设置一个同步作业以定期将数据复制到另一个集群,考虑到我们拥有的数据量很大,这听起来更合适。

有人可以分享一些关于这方面的真实生活经验吗?

【问题讨论】:

我们可以使用 sqoop 将数据从 RDBMS 加载到 hadoop 集群 我们可以使用hadoop distcp从一个集群复制到另一个hadoop集群 @KanagarajDhanapal 是的,你可以使用 distcp,但是你如何处理增量更改和更新? 【参考方案1】:

我看到了两种选择:

设置两个不同的 Sqoop 作业以复制到每个集群中。这更像是两组活动数据而不是备份,因为两者都是从源更新的。这将在关系数据库系统上造成额外的过载,因为将创建 x2(近似)连接来进行数据复制。

使用单个 Sqoop 作业将数据加载到一个集群中。使用 distcp -update(或)distcp -append 从那里复制到其他集群。这种方法的几个优点:

这应该会减少关系数据库系统的负载。

您可以利用 MR 的强大功能更快地复制数据 b/w 集群。

您可以选择使用 Oozie 安排备份频率。

您可以处理活动副本或备份副本。

让我知道您的想法,如果您已经确定了任何解决方案,请分享。

【讨论】:

使用 SSIS 将数据加载到 SQL Server 中的多个表

】使用SSIS将数据加载到SQLServer中的多个表【英文标题】:LoaddatatomultipletablesinSQLServerusingSSIS【发布时间】:2020-02-2612:05:38【问题描述】:我正在尝试了解如何从SQLServer中的多个表加载数据。我在源数据库和目标数据库中有30多个... 查看详情

SSIS 将数据从 SQL db 复制到同一 excel 目标上的多个选项卡

】SSIS将数据从SQLdb复制到同一excel目标上的多个选项卡【英文标题】:SSIScopydatafromSQLdbtomultipletabsonthesameexceldestination【发布时间】:2018-05-1410:04:41【问题描述】:我有一个SSIS包,可以将平面文件源中的数据加载到SQLServer数据库中... 查看详情

将数据从 MongoDB 并行加载到 python

】将数据从MongoDB并行加载到python【英文标题】:ParallelizingloadingdatafromMongoDBintopython【发布时间】:2017-10-1918:45:12【问题描述】:我在MongoDB中的集合中的所有文档都具有相同的字段。我的目标是将它们加载到Python中到pandas.DataFrame... 查看详情

从 parquet 文件将具有默认值的数据加载到 Redshift

】从parquet文件将具有默认值的数据加载到Redshift【英文标题】:LoaddatawithdefaultvaluesintoRedshiftfromaparquetfile【发布时间】:2021-04-1321:23:30【问题描述】:我需要将具有默认值列的数据加载到Redshift,如AWSdocs中所述。不幸的是,COPY命... 查看详情

使用 SQOOP 和 FLUME 将数据从 RDBMS 移动到 Hadoop

】使用SQOOP和FLUME将数据从RDBMS移动到Hadoop【英文标题】:DatamovingfromRDBMStoHadoop,usingSQOOPandFLUME【发布时间】:2014-03-1803:41:23【问题描述】:我正在学习Hadoop,并且在将数据从关系数据库移动到Hadoop以及反之亦然的过程中遇到了一... 查看详情

将 HBase 数据导出到 RDBMS

】将HBase数据导出到RDBMS【英文标题】:ExportHBaseDatatoRDBMS【发布时间】:2012-01-0613:23:06【问题描述】:我使用HBase来存储数据,但后来为了满足我的要求,我想将数据从HBase导出到RDBM,如mysql或postgres。我知道我们有Sqoop作为选项... 查看详情

有效地将数据从 CSV 读取到具有多个分隔符的数据框中

】有效地将数据从CSV读取到具有多个分隔符的数据框中【英文标题】:ReadingdatafromCSVintodataframewithmultipledelimitersefficiently【发布时间】:2019-05-3107:48:40【问题描述】:我有一个尴尬的CSV文件,它有多个分隔符:非数字部分的分隔... 查看详情

将具有不同架构的多个 Excel 文件加载到 SQL Server

...:2017-11-3008:39:16【问题描述】:我有大约30000个包含销售数据的Excel文件,但架构不同(一个有一个名为“产品名称”的列,另一个只有“产品”)但是包含有关来自不同商店的销售的相同信息。这些文件是由某些人手动生成的... 查看详情

将具有多个值的 JSON 从 S3 复制到 Redshift

...在尝试使用复制命令将其中一列中具有多个值的JSON文件加载到Redshift,但出现错误:无效的JSONPath格式:成员不是对象。这就是我的JSON文件的样子:"id":3,"name":"John","children 查看详情

iOS:具有多个动态部分的uitableview目标c

...1-0410:02:44【问题描述】:我收到此API响应我想将所有这些数据放入UITableView部分我为标题的标题创建一个数组但现在我正在尝试但无法为我必须显示到单元格中的内部数据创建数组.请帮助我将这些数据填充到带有部分的tablev 查看详情

我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试?

】我们如何使用SQoop对从RDBMS迁移到HDFS的数据进行测试?【英文标题】:HowwedoTestingonmigrateddatafromRDBMStoHDFSusingSQoop?【发布时间】:2017-06-0601:21:21【问题描述】:测试人员如何测试数据是否从RDBMS移动到HDFS?请仅从测试角度解释。... 查看详情

将 Swift 类添加到具有多个目标的 Objective-C 项目

】将Swift类添加到具有多个目标的Objective-C项目【英文标题】:AddingSwiftClasstoObjective-CProjectwithMultipleTargets【发布时间】:2017-04-2501:11:44【问题描述】:我有一个现有的Obj-C项目,其中包含许多共享同一个AppDelegate的目标。我想桥接... 查看详情

如何将 html 文件加载到多个目标的 webView 中

】如何将html文件加载到多个目标的webView中【英文标题】:HowtoloadanhtmlfileintoawebViewformultipletargets【发布时间】:2019-01-0714:41:14【问题描述】:在我的应用程序中,我有一个html信用文件,我想将它加载到webView中。我使用的代码非... 查看详情

如何将多个文件模式加载到数据库中?

】如何将多个文件模式加载到数据库中?【英文标题】:Howtoloadamanyfileschemaintoadatabase?【发布时间】:2012-03-2919:03:58【问题描述】:我获得了一个架构,该架构由文件夹结构中的许多DDLSQL文件组成。我对这个模式的工作原理知之... 查看详情

将数据从 API 加载到 BigQuery 的首选方式是啥?

】将数据从API加载到BigQuery的首选方式是啥?【英文标题】:WhatisthepreferredwaytoloaddatafromanAPIintoBigQuery?将数据从API加载到BigQuery的首选方式是什么?【发布时间】:2020-02-1522:46:31【问题描述】:我正在尝试将数据从RESTAPI获取到Googl... 查看详情

将一个文件夹的多个 csv 文件加载到一个数据框中

】将一个文件夹的多个csv文件加载到一个数据框中【英文标题】:Loadingmultiplecsvfilesofafolderintoonedataframe【发布时间】:2019-02-1618:04:36【问题描述】:我有多个csv文件保存在具有相同列布局的一个文件夹中,并希望将其作为pandas中... 查看详情

如何将具有多个值的列加载到表中的单独行中

】如何将具有多个值的列加载到表中的单独行中【英文标题】:Howtoloadacolumnwithmultiplevaluesintoseparatelinesintoatable【发布时间】:2015-05-1914:12:50【问题描述】:我有一个如下所示的Excel工作表:+---------+----------------+|ItemNum|Substitutes|+-... 查看详情

将 RDBMS 同步到 Redis

...描述】:我有RDS作为事实来源。我面临的一个挑战是将此数据库部分同步到Redis以使其可供服务器应用程序使用。这将是一种始终朝一个方向进行的单向同步,但我无法理解我使用哪些工具来使这些同步以优化的方式发生。换句... 查看详情