在 S3 上分析大量 JSON 文件

     2023-03-30     206

关键词:

【中文标题】在 S3 上分析大量 JSON 文件【英文标题】:Analyzing huge amount of JSON files on S3 【发布时间】:2014-01-15 14:56:22 【问题描述】:

我有大量的 json 文件,总共 >100TB 大小,每个 json 文件是 10GB bzipped,每行包含一个 json 对象,它们存储在 s3 上

    如果我想将 json 转换为 csv(也存储在 s3 上)以便直接将它们导入 redshift,那么使用 hadoop 编写自定义代码是唯一的选择吗?

    是否可以在不将数据转换为其他格式的情况下对 json 文件进行临时查询(因为我不想在每次需要查询时先将它们转换为其他格式,因为源是成长)

【问题讨论】:

【参考方案1】:

最快和最简单的方法是启动一个加载了 Hive 的 EMR 集群来完成这项繁重的工作。通过使用 JsonSerde,您可以轻松地将数据转换为 csv 格式。这只需要您将数据从 JSON 格式的表中插入到 CSV 格式的表中。

一个很好的处理 JsonSerde 的教程可以在这里找到:

http://aws.amazon.com/articles/2855

另外一个用于 CSV 格式的好库是:

https://github.com/ogrodnek/csv-serde

EMR 集群的生命周期可能很短,并且仅对那一项作业是必需的,它也可以跨越低成本的 Spot 实例。

拥有 CSV 格式后,Redshift COPY 文档就足够了。

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html

【讨论】:

谢谢,但由于我的 json 是 bzip 压缩的,所以假设我需要先提取它才能使用 JsonSerde?​​span> Hive 自动计算压缩并使用它应该没有任何问题。 cwiki.apache.org/confluence/display/Hive/CompressedStorage

如何在 S3 中查询异构 JSON 数据?

...】:我们有一个AmazonS3存储桶,其中包含大约一百万个JSON文件,每个压缩文件大约500KB。这些文件由AWSKinesisFirehose放在那里,每5分钟写入一个新文件。这些文件都描述了类似的事件,因此在逻辑上都是相同的,并且都是有效的JSO... 查看详情

使用 spark 下载、处理、上传大量 s3 文件

】使用spark下载、处理、上传大量s3文件【英文标题】:download,process,uploadlargenumberofs3fileswithspark【发布时间】:2016-06-1713:46:06【问题描述】:我在一个s3存储桶中有大量文件(~500khdf5),我需要对其进行处理并重新上传到另一个s3存... 查看详情

使用节点js的S3文件上传流

...限制。在文件上传完成之前不要冻结服务器,因为在上传大量文件的情况下,其他请求的等待时间会意外 查看详情

S3 Select 会加速 Parquet 文件的 Spark 分析吗?

】S3Select会加速Parquet文件的Spark分析吗?【英文标题】:WouldS3SelectspeedupSparkanalysesonParquetfiles?【发布时间】:2019-04-2922:51:22【问题描述】:您可以使用S3SelectwithSparkonAmazonEMR和withDatabricks,但仅适用于CSV和JSON文件。我猜S3Select不提... 查看详情

在s3中使用pyspark合并多个小json文件[重复]

】在s3中使用pyspark合并多个小json文件[重复]【英文标题】:mergemultiplesmalljsonfilesusingpysparkins3[duplicate]【发布时间】:2020-02-1523:24:13【问题描述】:我是spark的新手。我的s3存储桶的子目录中有多个小的json文件(1kb)。我想合并单个... 查看详情

针对大量小文件优化 S3 下载

】针对大量小文件优化S3下载【英文标题】:OptimizeS3downloadforlargenumberoftinyfiles【发布时间】:2018-04-1814:59:53【问题描述】:我目前使用TransferManager从Lambda函数下载S3存储桶中的所有文件。//InitializeTransferManagerBuildertxBuilder=TransferMan... 查看详情

在 S3 上压缩文件

】在S3上压缩文件【英文标题】:CompressfileonS3【发布时间】:2013-01-0720:16:45【问题描述】:我在S3上有一个17.7GB的文件。它是作为Hive查询的输出生成的,并且没有被压缩。我知道通过压缩它大约有2.2GB(gzip)。当传输成为瓶颈(250k... 查看详情

在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表

】在AmazonRedshift日志上运行AWSGlue爬虫会创建大量表【英文标题】:RunningAWSGluecrawleronAmazonRedshiftlogscreatestonsoftables【发布时间】:2020-01-1400:44:50【问题描述】:我在S3中设置了Redshift的审计日志存储。现在,我计划在这些审计日志... 查看详情

在 AWS EMR 上使用 pyspark

...)来导出聚合数据。为了节省出口成本并在执行了一些CBA分析之后,我决定创建一个EMR集群并进行py 查看详情

能否使用require('.json')的方式加载大量json文件?

...额外开销。当通过.json的方式加载文件时,固然方便,但大量使用时会导致这些数据被缓存。大量数据会驻留在内存中,导致GC频繁和内存泄漏。摘自:《技术之瞳》 查看详情

Apache zeppelin 无法从 Amazon S3 笔记本 json 文件中获取 URL

】Apachezeppelin无法从AmazonS3笔记本json文件中获取URL【英文标题】:ApachezeppelinunabletofetchURLfromAmazonS3notebookjsonfile【发布时间】:2017-07-1019:38:14【问题描述】:您好,在遵循AWS网站上的教程和说明后,我无法从amazonS3导入笔记本。具... 查看详情

Amazon S3 + CloudFront CORS 问题

...3002:44:44【问题描述】:我们使用AmazonS3+CloudFront来提供JSON文件。我们上传了两个文件,让我们将其视为j1.json和j2.json。这两个文件最初都在响应中响应了有效的CORS标头,但是当在j2.json上运行失效时,它的标头响应发生了变化,... 查看详情

使用 Lambda 节点从 S3 上的文件在 S3 上创建一个 zip 文件

】使用Lambda节点从S3上的文件在S3上创建一个zip文件【英文标题】:CreateazipfileonS3fromfilesonS3usingLambdaNode【发布时间】:2016-12-0216:20:51【问题描述】:我需要创建一个Zip文件,其中包含位于我的s3存储桶中的一系列文件(视频和图... 查看详情

在 AWS ECS 容器上挂载 S3 存储桶作为文件系统

】在AWSECS容器上挂载S3存储桶作为文件系统【英文标题】:MountS3bucketasfilesystemonAWSECScontainer【发布时间】:2019-02-0202:58:33【问题描述】:我正在尝试使用rexray/s3fs驱动程序将S3作为卷安装在AWSECSdocker容器上。我可以在我安装插件的... 查看详情

无法使用本地 PySpark 从 S3 读取 json 文件

】无法使用本地PySpark从S3读取json文件【英文标题】:UnabletoreadjsonfilefromS3usinglocalPySpark【发布时间】:2021-07-1020:39:09【问题描述】:我正在尝试在本地使用PySpark从S3读取json文件。这是代码importosimportconfigparserfrompyspark.sqlimportSparkSe... 查看详情

在 Python 中读取大量 json 文件?

】在Python中读取大量json文件?【英文标题】:ReadinghugenumberofjsonfilesinPython?【发布时间】:2017-05-2901:26:42【问题描述】:这不是关于读取大型JSON文件,而是关于以最有效的方式读取大量JSON文件。问题我正在使用来自Millionsongdatase... 查看详情

Amazon S3,如何将 JSON 文件复制到另一个在更新原始文件时更新的存储桶?

】AmazonS3,如何将JSON文件复制到另一个在更新原始文件时更新的存储桶?【英文标题】:AmazonS3,howtoduplicateaJSONfiletoanotherbucketthatupdateswhentheorginalisupdated?【发布时间】:2018-05-0922:49:33【问题描述】:我的S3存储桶中有一些JSON文件... 查看详情

使用无服务器框架上传时文件在 S3 上损坏

】使用无服务器框架上传时文件在S3上损坏【英文标题】:FilegettingcorruptedonS3whenuploadusingserverlessframework【发布时间】:2019-10-0212:14:23【问题描述】:我正在使用无服务器框架,它具有在AWS的S3存储桶上上传文件(图像/Excel)的功... 查看详情