正文

Nvidia Tesla T4 张量核心基准测试 [关闭]

 2023-04-15  133

关键词：

【中文标题】Nvidia Tesla T4 张量核心基准测试 [关闭]【英文标题】：Nvidia Tesla T4 tensor core benchmark [closed] 【发布时间】：2021-04-20 19:32:39 【问题描述】：

我正在使用here 给出的代码来找出 Nvidia Tesla T4 上混合精度操作的 TFlops。其理论值为 65 Tflops。但是，代码产生的值是 10 Tflops。有什么解释可以证明这种情况的发生吗？

【问题讨论】：

我不认为 CUDA 示例是高性能、高度优化的代码，它们可以接近 GPU 的理论性能。他们在那里展示概念并提供试验场。那么您可以建议任何基准代码来测试 gpu 的半精度触发器、int4 和 int8 iops？我已经尝试使用这里的代码link。这使得峰值 Tflops 为 15 我说的是能够做到这一点的图灵张量核心...... int4 和 int8 iops 的数字在这里link。向下滚动后，您将在规格部分找到信息询问如何在合成示例中最大化 TFLOP（例如，使用微不足道的内存访问模式以确保这不是瓶颈）是与解释某些示例代码的性能不同的问题。如果那是您想要的，请单独询问。 【参考方案1】：

这可能更像是一个扩展评论，请听我说...

正如 cmets 中所指出的，CUDA 样本并不是性能测量工具。您提供的第二个基准测试实际上并未使用张量核心，而只是在 FP32 或 FP64 核心上执行的普通指令。

for(int i=0; i<compute_iterations; i++)
            tmps[j] = mad(tmps[j], tmps[j], seed);

在 Turing T4 上，单精度运算的峰值为 7.97 TFLOPS，非常接近 8.1 TFLOPS 的理论极限。对于半精度运算，我得到 16.09 TFLOPS，正如预期的那样，是单精度性能的两倍。

现在，进入 Tensor 核心。由于前面提到的基准测试没有使用它们，让我们寻找一些可以使用的东西。 CUTLASS (https://github.com/NVIDIA/cutlass) 是来自 NVIDIA 的高性能矩阵-矩阵乘法库。它们为所提供的所有内核提供了一个分析应用程序。如果你在 T4 上运行它，你应该得到如下输出：

Problem ID: 1

   Provider: ^[[1;37mCUTLASS^[[0m
   OperationKind: ^[[1;37mgemm^[[0m
   Operation: cutlass_tensorop_h1688gemm_256x128_32x2_nt_align8

      Status: ^[[1;37mSuccess^[[0m
Verification: ^[[1;37mON^[[0m
 Disposition: ^[[1;32mPassed^[[0m

 reference_device: Passed
      cuBLAS: Passed

   Arguments: --gemm_kind=universal --m=1024 --n=1024 --k=1024 --A=f16:column --B=f16:row --C=f16:column --alpha=1  \
              --beta=0 --split_k_slices=1 --batch_count=1 --op_class=tensorop --accum=f16 --cta_m=256 --cta_n=128  \
              --cta_k=32 --stages=2 --warps_m=4 --warps_n=2 --warps_k=1 --inst_m=16 --inst_n=8 --inst_k=8 --min_cc=75  \
              --max_cc=1024

       Bytes: 6291456  bytes
       FLOPs: 2149580800  flops

     Runtime: 0.0640419  ms
      Memory: 91.4928 GiB/s

        Math: 33565.2 GFLOP/s

如您所见，我们现在实际使用的是 Tensor 核心和半精度运算，性能为 33.5 TFLOPS。现在，这可能不是 65 TFLOS，但对于您可以在现实世界中使用的应用程序来说，这已经相当不错了。

【讨论】：

我尝试使用 kernel= cutlass_tensorop_h1688gemm_256x128_32x2_nt_align8 运行相同的脚本，但结果仍然没有超过 16000 您确定使用相同的参数运行它吗？我刚刚运行了整个分析器并挑选了一个结果。如果您没有达到足够高的入住率等，那么您将无法获得接近峰值性能的任何东西似乎是合理的。我用相同的参数运行了代码。我又试了一次，结果证明将时钟设置为最大值就可以了！获得了大约 40 TFLOPS...感谢您对此的帮助..非常感谢..

测量 NVIDIA 张量核心加速

】测量NVIDIA张量核心加速【英文标题】：MeasureNVIDIATensorCoresspeedup【发布时间】：2019-06-1007:58:48【问题描述】：我在Volta架构(V100GPU)上使用NVIDIATensorCores。我想测量张量核心对我的代码的影响（用于测试目的的Tensorflow/Python中的卷... 查看详情

Nvidia Tesla 上的 OpenCL：未找到任何平台

】NvidiaTesla上的OpenCL：未找到任何平台【英文标题】：OpenCLonNvidiaTesla:Noplatformsfound【发布时间】：2015-12-0716:45:43【问题描述】：我可以访问运行Debian7并安装了两个NvidiaTesla卡的系统。我想使用OpenCL做一些基准测试。但是，OpenCL找... 查看详情

如何使用 python 和 numba 在 RTX GPU 中对 NVIDIA 的张量核心进行编程？

】如何使用python和numba在RTXGPU中对NVIDIA的张量核心进行编程？【英文标题】：HowtoprogramNVIDIA\'stensorcoresinRTXGPUwithpythonandnumba?【发布时间】：2020-10-1015:47:34【问题描述】：我有兴趣在python中使用来自NVIDIARTXGPU的张量核心，以从它在... 查看详情

如何在我的代码中使用张量核心而不是 cuda 核心？

...e?【发布时间】：2020-01-0900:44:34【问题描述】：我有RTX2070Nvidia显卡，上面有张量核心。我想使用张量核心而不是Cuda核心来运行我的深度学习代码。这个显卡可以吗？为了做到这一点，我是否应该安装任何特定的驱动程序？我应... 查看详情

使用 googlebenchmark 核心转储对 CUDA 进行基准测试

】使用googlebenchmark核心转储对CUDA进行基准测试【英文标题】：BenchmarkingCUDAwithgooglebenchmarkcoredumps【发布时间】：2017-10-1122:44:55【问题描述】：我正在尝试使用googlebenchmark对一些CUDA代码进行基准测试。首先，我没有编写任何CUDA代... 查看详情

MLPerf Nvidia 基准测试失败：命令“cat /sys/module/mlx5_core/version”返回非零退出状态 1

】MLPerfNvidia基准测试失败：命令“cat/sys/module/mlx5_core/version”返回非零退出状态1【英文标题】：MLPerfNvidiabenchmarksfailure:Command\'cat/sys/module/mlx5_core/version\'returnednon-zeroexitstatus1【发布时间】：2021-09-1303:07:11【问题描述】：我正在评... 查看详情

无法在带有 Tesla K80 GPU 的各种 GCP Ubuntu VM 上安装 NVIDIA 驱动程序

】无法在带有TeslaK80GPU的各种GCPUbuntuVM上安装NVIDIA驱动程序【英文标题】：UnabletoinstallNVIDIAdriveronvariousGCPUbuntuVM\'swithTeslaK80GPU【发布时间】：2021-12-2913:34:45【问题描述】：我已按照以下GCP指南使用Ubuntu18和20（也尝试过UbuntuLite、Debi... 查看详情

Nest js 是不是以 express js 为核心实现了几乎两倍的基准测试结果。？或者只是为了实现它

】Nestjs是不是以expressjs为核心实现了几乎两倍的基准测试结果。？或者只是为了实现它【英文标题】：Isnestjsmakeuseofexpreessjsasacoreachievingalmosttwotimesbetterbenchmarksresults.?orolyfastifytoachiveitNestjs是否以expressjs为核心实现了几乎两倍的基... 查看详情

Nvidia 和 AMD 上的 OpenCL 全局内存与图像内存性能差异

】Nvidia和AMD上的OpenCL全局内存与图像内存性能差异【英文标题】：OpenCLglobalmemoryvs.imagememoryperformancedifferencesonNvidiaandAMD【发布时间】：2013-03-1012:27:09【问题描述】：OpenCL基准测试网站http://www.clbenchmark.com/有基准测试ImageFilter:Separab... 查看详情

多线程简单基准测试中的 PC 性能和稳定性问题。如何让每个线程在不同的核心上运行？ [关闭]

...测试中的PC性能和稳定性问题。如何让每个线程在不同的核心上运行？[关闭]【英文标题】：PCperformanceandstabilityissueinmultithreadedsimplebenchmark.Howtomakeeachthreadrunonseparatecore?[closed]【发布时间】：2013-05-1815:24:07【问题描述】：看看我在... 查看详情

NVidia 驱动程序停止在带有 Ubuntu 16.04 和 Tesla K80 GPU 的 AWS EC2 实例上工作

】NVidia驱动程序停止在带有Ubuntu16.04和TeslaK80GPU的AWSEC2实例上工作【英文标题】：NVidiadriversstoppedworkingonAWSEC2instancewithUbuntu16.04andTeslaK80GPU【发布时间】：2019-08-1104:58:31【问题描述】：一段时间以来，我一直在使用带有TeslaK80GPU的AWS... 查看详情

nvidiagpu卡有几种架构？

1、“NVIDIA显卡的核心微架构经历了Tesla时代、Fermi时代、Kepler时代后，马上要进入Maxwell时代了。微架构越来越精细，性能也越来越强，当然最幸福的还是用户们，因为画面体验越来越好。”这一段是在网上查到的。2、培训老师... 查看详情

如何通过 Vulkan 使用 Nvidia Tensor Cores

】如何通过Vulkan使用NvidiaTensorCores【英文标题】：HowtouseNvidia\'sTensorCoresviaVulkan【发布时间】：2019-06-1621:44:50【问题描述】：如何使用Vulkan来利用Nvidia的张量核心（在计算着色器中？！）？NvidiaProgrammingTensorCoresinCUDA9有这篇文章，... 查看详情

如何在 pytorch 和 tensorflow 中使用张量核心？

】如何在pytorch和tensorflow中使用张量核心？【英文标题】：Howtousetensorcoresinpytorchandtensorflow?【发布时间】：2021-12-2823:30:01【问题描述】：我正在使用带有张量核心的NvidiaRTXGPU，我想确保pytorch/tensorflow正在使用它的张量核心。我在... 查看详情

我的机器上 VGG16 上的 Titan X Pascal 比基准测试慢得多

...个TitanXPascal、Inteli5-6600、16GBRam并在Ubuntu14.04中运行torch7。Nvidia驱动版本为375.20，CUDAToolkit8.0和查看详情

tesla都使用什么编程语言？

...0名。依赖“低级”编程的公司的两个很好的例子是Tesla和Nvidia。这两个名字都是创新的代名词：Tesla以制造下一代汽车而闻名，Nvidia是著名的人工智能算法和视频游戏图形卡设计商。霍尔伯顿学院的校友亲眼目睹了“低级... 查看详情

部分安装Nvidia驱动获取libcuda.so文件

】部分安装Nvidia驱动获取libcuda.so文件【英文标题】：PartialinstallationofNvidiadriverstoobtainlibcuda.sofile【发布时间】：2013-11-2712:52:37【问题描述】：我试图在我的Ubuntu12.04服务器中构建Rodinia基准测试套件在运行make命令时出现错误/usr/bin... 查看详情

nvidiateslaa100驱动安装方法

NvidiaTeslaA100驱动安装方法遇到的问题：以前安装tesla系列、geforce系列等gpu驱动的时候，只需执行nvidiaxxxx.run驱动包或者安装nvidiaxxxx.rpm包即可，但遇到新的GPUNvidiaTeslaA100的时候，安装完驱动似乎不起作用，找了... 查看详情