正文

非常大的numpy数组的效率

 2023-03-11  281

关键词：

【中文标题】非常大的numpy数组的效率【英文标题】：Efficiency with very large numpy arrays 【发布时间】：2013-10-05 02:10:28 【问题描述】：

我正在处理一些非常大的数组。我正在处理的一个问题当然是内存不足，但即使在此之前我的代码运行缓慢，所以即使我有无限的 RAM，它仍然需要太长时间。我将提供一些代码来展示我正在尝试做的事情：

#samplez is a 3 million element 1-D array
#zfit is a 10,000 x 500 2-D array

b = np.arange((len(zfit))

for x in samplez:
    a = x-zfit
    mask = np.ma.masked_array(a)
    mask[a <= 0] = np.ma.masked
    index = mask.argmin(axis=1)
    #  These past 4 lines give me an index array of the smallest positive number 
    #  in x - zift       

    d = zfit[b,index]
    e = zfit[b,index+1]
    f = (x-d)/(e-d)
    # f is the calculation I am after

    if x == samplez[0]:
       g = f
       index_stack = index
    else:
       g = np.vstack((g,f))
       index_stack = np.vstack((index_stack,index))

在进一步计算中，我需要使用 g 和 index_stack，每个都是 300 万 x 10,000 个二维数组。这个循环的每次迭代几乎需要 1 秒，所以总共需要 300 万秒，这太长了。

我能做些什么来让这个计算运行得更快吗？我试图思考如果没有这个 for 循环我该怎么办，但我能想象的唯一方法是制作 300 万份 zfit，这是不可行的。

有没有办法通过不将所有内容都保存在 RAM 中来处理这些数组？我是初学者，我搜索的所有内容要么无关紧要，要么我无法理解。提前致谢。

【问题讨论】：

samplez 中是否有重复值？或者它只包含唯一值？它们都是独一无二的，并且按递增顺序排列 e = zfit[b,index+1] 中存在潜在问题。如果的最小正值是数组的任何一行中的最后一个元素，[b,index+1] 将导致IndexError（超出范围）。第一行应该是b = np.arange(len(zfit)) 感谢您的评论。由于与问题不太相关的原因，最小的正数永远不会是 a 中任何行的最后一个元素。因此，索引错误不是问题，尽管您通常认为这是一个考虑因素。第一行是错字，谢谢。并且zfit每一行的最大值大于samplez的最大值？ 【参考方案1】：

很高兴知道最小的正数永远不会出现在行尾。

samplez 中有 100 万个唯一值，但在zfit 中，每行最多只能有 500 个唯一值。整个 zfit 可以有多达 5000 万个唯一值。算法可以大大加快，如果'寻找最小正数> each_element_in_samplez'计算的次数可以大大减少。进行所有 5e13 比较可能是一种矫枉过正，仔细规划将能够摆脱其中的很大一部分。这在很大程度上取决于您实际的基础数学。

在不知不觉中，还是有一些小事可以做的。 1，没有那么多可能的(e-d)，因此可以从循环中取出。 2、循环可以通过map消除。在我的机器上，这两个小修复可以提高大约 22% 的速度。

def function_map(samplez, zfit):
    diff=zfit[:,:-1]-zfit[:,1:]
    def _fuc1(x):
        a = x-zfit
        mask = np.ma.masked_array(a)
        mask[a <= 0] = np.ma.masked
        index = mask.argmin(axis=1)
        d = zfit[:,index]
        f = (x-d)/diff[:,index] #constrain: smallest value never at the very end.
        return (index, f)
    result=map(_fuc1, samplez)
    return (np.array([item[1] for item in result]),
           np.array([item[0] for item in result]))

下一步：masked_array 可以完全避免（这应该会带来显着的改进）。 samplez 也需要排序。

>>> x1=arange(50)
>>> x2=random.random(size=(20, 10))*120
>>> x2=sort(x2, axis=1) #just to make sure the last elements of each col > largest val in x1
>>> x3=x2*1
>>> f1=lambda: function_map2(x1,x3)
>>> f0=lambda: function_map(x1, x2)
>>> def function_map2(samplez, zfit):
    _diff=diff(zfit, axis=1)
    _zfit=zfit*1
    def _fuc1(x):
        _zfit[_zfit<x]=(+inf)
        index = nanargmin(zfit, axis=1)
        d = zfit[:,index]
        f = (x-d)/_diff[:,index] #constrain: smallest value never at the very end.
        return (index, f)
    result=map(_fuc1, samplez)
    return (np.array([item[1] for item in result]),
           np.array([item[0] for item in result]))

>>> import timeit
>>> t1=timeit.Timer('f1()', 'from __main__ import f1')
>>> t0=timeit.Timer('f0()', 'from __main__ import f0')
>>> t0.timeit(5)
0.09083795547485352
>>> t1.timeit(5)
0.05301499366760254
>>> t0.timeit(50)
0.8838210105895996
>>> t1.timeit(50)
0.5063929557800293
>>> t0.timeit(500)
8.900799036026001
>>> t1.timeit(500)
4.614129018783569

所以，这又是 50% 的加速。

masked_array 被避免并节省了一些 RAM。想不出任何其他方法来减少 RAM 的使用。可能需要部分处理samplez。而且，取决于数据和所需的精度，如果您可以使用float16 或float32 而不是默认的float64，可以为您节省大量内存。

【讨论】：

请注意，在 python3 中 map 返回一个迭代器，因此 return 语句将失败，因为第二个数组将始终为空。另外，请避免使用\ 作为延续。只需将返回值括在括号中即可。嗨，CT。当你在你的机器上运行它时，你使用的数组大小和我一样吗？你的机器可以处理吗？不，尺寸要小得多，只是为了对速度进行基准测试。 3e10 float64 或 int64 占用超过 200GB。 wolframalpha.com/input/?i=3e10+*+8+字节。我没有那个能力。你说基础数学可能允许更多的简化。 samplez 包含从 0.08 到 1.1 的唯一值，并且 zfit 的每一行都包含从 0 到 2 的唯一值，按升序排列。对于 samplez 中的每个元素，我试图在 zfit 的每一行中找到它最接近的数字，然后找到它与 zfit 中下一个元素之间的分数。因此，如果 samplez 中的元素是 0.5，而 zfit 中的一行是：.3、.4、.6、.7，我需要分数 (.5-.4)/(.6-.4)。希望不要太混乱是的，我知道这么多元素占用了大约 240gb...这就是为什么我希望也有人建议内存解决方案 :)

创建非常大的numpy数组时出现MemoryError [重复]

】创建非常大的numpy数组时出现MemoryError[重复]【英文标题】：MemoryErrorwhencreatingaverylargenumpyarray[duplicate]【发布时间】：2016-05-1315:20:15【问题描述】：我正在尝试创建一个非常大的numpy零数组，然后将另一个数组中的值复制到大的... 查看详情

非常大的 numpy 数组不会引发内存错误。它在哪里生活？ [复制]

】非常大的numpy数组不会引发内存错误。它在哪里生活？[复制]【英文标题】：Verylargenumpyarraydoesn\'tthrowmemoryerror.Wheredoesitlive?[duplicate]【发布时间】：2018-03-3101:22:32【问题描述】：所以我有以下numpy数组：X=np.zeros((1000000000,3000),dtype... 查看详情

如何有效地操作一个大的numpy数组

...一个大的numpy数组，然后操作另一个数组。因为这是一个非常大的数组，请问是否有一种有效的方法可以实现我的目标？（我认为高效的方式应该是直接对数组进行操作，而不是通过for循环）。提前致谢，请在下面找到我的代码... 查看详情

有没有比使用 np.where 更快的方法来迭代一个非常大的 2D numpy 数组？

】有没有比使用np.where更快的方法来迭代一个非常大的2Dnumpy数组？【英文标题】：Isthereafastermethodforiteratingoveraverybig2Dnumpyarraythanusingnp.where?【发布时间】：2022-01-1701:43:37【问题描述】：我有一个巨大的2Dnumpy数组，其中填充了整数... 查看详情

使用 numpy 数组有效地索引 numpy 数组

...ray【发布时间】：2013-03-2720:40:43【问题描述】：我有一个非常（非常、非常）大的二维数组-大约有一千列，但有几百万行（足以让它不适合我的32GB机器的内存）。我想计算每一千列的方差。一个有帮助的关键事实：我的数据是8... 查看详情

非常大的数组和非常大的数字的最佳编程语言？

】非常大的数组和非常大的数字的最佳编程语言？【英文标题】：Bestprogramminglanguageforverylargearraysandverylargenumbers?【发布时间】：2011-02-1713:30:49【问题描述】：对于非常大的数组和非常大的数字，最好的编程语言是什么？拥有超... 查看详情

numpy.memmap 无法处理非常大的数据

】numpy.memmap无法处理非常大的数据【英文标题】：numpy.memmapnotabletohandleverybigdata【发布时间】：2019-01-1518:11:50【问题描述】：我需要在内存中保存一个非常大的向量，大小约为10**8，并且我需要快速随机访问它。我尝试使用numpy.me... 查看详情

在 numpy 中处理非常大的矩阵

】在numpy中处理非常大的矩阵【英文标题】：Workingwithverylargematricesinnumpy【发布时间】：2020-06-2121:41:18【问题描述】：我有一个转换矩阵，我想为其计算一个稳态向量。我使用的代码改编自thisquestion，它适用于正常大小的矩阵：de... 查看详情

多处理 - 具有多维 numpy 数组的共享内存

...间】：2018-10-2013:46:12【问题描述】：我需要并行处理一个非常大的numpy数组(55x117x256x256)。尝试使用通常的多处理方法传递它会产生AssertionError，我理解这是因为数组太大而无法复制到每个进程中。因此，我想尝试将共查看详情

从二进制文件创建 Numpy 数组的有效方法

...naryFiles【发布时间】：2011-09-2713:01:58【问题描述】：我有非常大的数据集，它们存储在硬盘上的二进制文件中。以下是文件结构的示例：文件头149ByteASCIIHeader开始录制4ByteInt-RecordTimestamp样品开始2ByteInt-DataStream1Samp 查看详情

numpy数组及处理：效率对比(代码片段)

numpy数组及处理：效率对比数列：a=a1,a2,a3,·····,anb=b1,b2,b3,·····,bn求：c=a12+b13,a22+b23,a32+b33,·····+an2+bn31.用列表+循环实现，并包装成函数2.用numpy实现，并包装成函数3.对比两种方法实现的效率，给定一个较大的参数n，... 查看详情

对于非常大的元组/文件/数据库记录/numpy.ndarray，linux“更多”类似于python中的代码？

】对于非常大的元组/文件/数据库记录/numpy.ndarray，linux“更多”类似于python中的代码？【英文标题】：linux"more"likecodeinpythonforverybigtuple/file/dbrecords/numpy.darray?【发布时间】：2010-09-2909:57:54【问题描述】：我正在寻找用于处... 查看详情

NumPy 填充大型数组的给定边界框坐标内的值

...ray【发布时间】：2022-01-0906:30:57【问题描述】：我有一个非常大的3d数组large=np.zeros((2000,1500,700))实际上，large是一个图像，但对于每个坐标，它有700个值。另外，我有400个边界框。边界框没有具查看详情

在 python pandas 中迭代非常大的数据帧效率太耗时

】在pythonpandas中迭代非常大的数据帧效率太耗时【英文标题】：Iteratingoververylargedataframeefficiencyinpythonpandasistootimeconsuming【发布时间】：2017-12-1020:18:31【问题描述】：我正在尝试在csv中迭代超过500万条记录。我被以下循环困住了... 查看详情

numpy数组及处理：效率对比(代码片段)

问题：数列：a=a1,a2,a3,·····,anb=b1,b2,b3,·····,bn求：c=a12+b13,a22+b23,a32+b33,·····+an2+bn31.用列表+循环实现，并包装成函数2.用numpy实现，并包装成函数3.对比两种方法实现的效率，给定一个较大的参数n，用运行函数前后的timedelta... 查看详情

numpy数组及处理：效率对比(代码片段)

Meteor 的 DDP 在同步非常大的集合方面的效率如何？

】Meteor的DDP在同步非常大的集合方面的效率如何？【英文标题】：HowefficientisMeteor\'sDDPatsyncingverylargecollections?【发布时间】：2013-09-1501:59:54【问题描述】：Meteor的DDP协议非常适合将少量数据从服务器同步到基于浏览器的客户端，... 查看详情

涉及非常大的数组索引存储非常大的值的问题的替代方案

】涉及非常大的数组索引存储非常大的值的问题的替代方案【英文标题】：Alternativesforproblemsinvolvingverylargearrayindexingstoringverylargevalues【发布时间】：2014-04-0116:52:23【问题描述】：请提出一些替代方案来解决蛮力解决方案使用具... 查看详情