从s3存储桶下载百万个文件(代码片段)

author author     2022-12-27     773

关键词:

我在S3存储桶上的不同文件夹中有数百万个文件。

文件非常小。我希望下载名为VER1的文件夹下的所有文件。文件夹VER1包含许多子文件夹,我希望下载VER1所有子文件夹下的所有百万文件。

(例如VER1-> sub1-> file1.txtVER1-> sub1 - > subsub1 - > file2.text等)

下载所有文件的最快方法是什么?

使用s3 cps3 sync

有没有办法并行下载该文件夹下的所有文件?

答案

使用AWS Command-Line Interface (CLI)

aws s3 sync s3://bucket/VER1 [name-of-local-directory]

根据我的经验,它将并行下载,但不一定会使用全带宽,因为每个对象都有很多开销。 (对于大型对象来说效率更高,因为开销更少。)

aws s3 sync可能存在大量文件问题。你必须尝试看它是否有效。

如果你真的想要完整的性能,你可以编写自己的代码,以大量的并行方式下载,但是在你编写和测试这样一个程序的时候可能会节省时间。

另一种选择是使用aws s3 sync下载到Amazon EC2实例,然后压缩文件并简单地下载zip文件。这将减少带宽需求。

从 S3 存储桶读取的 AWS Glue 限制数据

】从S3存储桶读取的AWSGlue限制数据【英文标题】:AWSGlueLimitdatareadfromS3Bucket【发布时间】:2021-03-3010:52:38【问题描述】:我有一个包含超过600万个文件的大存储桶。我遇到了这个错误FailedtosanitizeXMLdocumentdestinedforhandlerclass,我认... 查看详情

从 S3 存储桶下载模式匹配条目

】从S3存储桶下载模式匹配条目【英文标题】:DownloadingpatternmatchedentriesfromS3bucket【发布时间】:2014-09-2500:58:10【问题描述】:我有一个S3存储桶,其中存储了几个具有以下格式的日志文件index.log.yyyy-mm-dd-01index.log.yyyy-mm-dd-02...yyyy... 查看详情

从 S3 存储桶下载模式匹配条目

】从S3存储桶下载模式匹配条目【英文标题】:DownloadingpatternmatchedentriesfromS3bucket【发布时间】:2014-09-2500:58:10【问题描述】:我有一个S3存储桶,其中存储了几个具有以下格式的日志文件index.log.yyyy-mm-dd-01index.log.yyyy-mm-dd-02...yyyy... 查看详情

将图像从 S3 存储桶下载到 Lambda 临时文件夹 (Node.js)

】将图像从S3存储桶下载到Lambda临时文件夹(Node.js)【英文标题】:DownloadimagefromS3buckettoLambdatempfolder(Node.js)【发布时间】:2016-12-2216:49:37【问题描述】:大家好。我有一个简单的问题:如何将图像从S3存储桶下载到Lambda函数临时文... 查看详情

从 pyspark 访问 S3 存储桶中的文件

】从pyspark访问S3存储桶中的文件【英文标题】:AccessingfilesinS3bucketfrompyspark【发布时间】:2017-10-2000:05:41【问题描述】:我正在尝试从pyspark代码访问存储在S3存储桶中的文件。它给了我附加的错误消息。该程序在处理本地存储的... 查看详情

python将文件上传到s3存储桶(代码片段)

查看详情

从 s3 到 Redshift 的数据复制:清单与我需要下载的文件位于不同的存储桶中

...Redshift的数据复制:清单与我需要下载的文件位于不同的存储桶中【英文标题】:DataCopyfroms3toRedshift:ManifestisindifferentbucketthanfilesIneedtodownload【发布时间】:2017-11-1614:56:03【问题描述】:我正在尝试将数据从s3中的大量文件复制到R... 查看详情

scala- 从 S3 存储桶读取文件

】scala-从S3存储桶读取文件【英文标题】:scala-ReadfilefromS3bucket【发布时间】:2018-10-1314:26:59【问题描述】:我想从S3存储桶中读取特定文件。在我的S3存储桶中,我将拥有如此多的对象(目录和子目录)。我想遍历所有对象并且... 查看详情

如何从亚马逊 s3 存储桶中删除文件?

】如何从亚马逊s3存储桶中删除文件?【英文标题】:howtodeletefilesfromamazons3bucket?【发布时间】:2011-03-0914:53:01【问题描述】:我需要用python编写代码,从Amazons3存储桶中删除所需的文件。我可以连接到Amazons3存储桶,也可以保存... 查看详情

Android Amazon s3 存储桶

】AndroidAmazons3存储桶【英文标题】:AndroidAmazons3bucket【发布时间】:2016-08-2509:26:46【问题描述】:如何从特定文件夹中的AmazonWebServicesS3存储桶下载文件。截至目前,我在我的androidstudio中导入amazontransferUtility项目示例,它工作正... 查看详情

text[与s3存储桶同步文件夹]#aws(代码片段)

查看详情

使用 python boto3 将文件从一个 S3 存储桶传输到另一个 S3 存储桶

】使用pythonboto3将文件从一个S3存储桶传输到另一个S3存储桶【英文标题】:TransferfilesfromoneS3buckettoanotherS3bucketusingpythonboto3【发布时间】:2018-06-0206:37:52【问题描述】:我想将文件从一个s3存储桶路径(例如B1/x/*)传输到另一个S3... 查看详情

python将小文件写入s3存储桶的lambda处理函数(代码片段)

查看详情

如何使用 gsutil 通过 http 链接从谷歌云存储下载到 AWS 实例或 s3 存储桶?

】如何使用gsutil通过http链接从谷歌云存储下载到AWS实例或s3存储桶?【英文标题】:HowtousegsutiltodownloadfromgooglecloudstoragetoAWSinstanceors3bucketwithahttplink?【发布时间】:2021-02-0221:21:30【问题描述】:我有一个谷歌云存储下载http链接,... 查看详情

将文件从私有 S3 存储桶读取到 pandas 数据帧

】将文件从私有S3存储桶读取到pandas数据帧【英文标题】:ReadingafilefromaprivateS3buckettoapandasdataframe【发布时间】:2016-06-1815:12:53【问题描述】:我正在尝试将CSV文件从私有S3存储桶读取到pandas数据帧:df=pandas.read_csv(\'s3://mybucket/file... 查看详情

Pyspark 从 S3 存储桶读取 csv 文件:AnalysisException:路径不存在

】Pyspark从S3存储桶读取csv文件:AnalysisException:路径不存在【英文标题】:PysparkreadcsvfilefromS3bucket:AnalysisException:Pathdoesnotexist【发布时间】:2021-10-1500:10:45【问题描述】:在GoogleColab中,我试图让PySpark从S3存储桶中读取csv。这是我... 查看详情

访问 aws s3 公共存储桶

】访问awss3公共存储桶【英文标题】:Accessawss3publicbucket【发布时间】:2016-11-1617:31:02【问题描述】:我正在尝试从Amazon的一个公共存储桶下载数据。Hereisadescriptionofthebucketinquestion存储桶有example的网络可访问文件夹。我想下载该... 查看详情

如何从s3存储桶中的文件夹中删除带后缀的图像(代码片段)

我在s3上存储了多种尺寸的图像。例如image100_100,image200_200,image300_150;我想从文件夹中删除图像的特定大小,例如后缀为200_200的图像。这个文件夹中有很多图像,所以如何删除这些图像?答案使用AWS命令行界面(AWSCLI):awss3rms... 查看详情