模型推理英伟达jetson系列边缘盒子性能测评

极智视界 极智视界     2022-12-28     670

关键词:

  本文记录了英伟达 Jetson 系列边缘盒子的性能测评小结。

  测评的 AIBox 是分别来自 浪潮、研智、米文,盒子型号包括 浪潮 Jetson Xavier NX、研智 Jetson Xavier NX、米文 Jetson Nano、米文 Jetson TX2 NX、米文 Jetson Xavier NX、米文 Jetson AGX Xavier,数据对标 浪潮 NX。

  盒子的推理性能强弱和其 GPU 架构和硬件配置强相关,关于 Jetson 系列盒子的硬件参数可以参考我的这篇《【模型推理】英伟达 Jetson 系列边缘盒子硬件参数汇总》。

  我这里主要测评的模型是我们项目中的 目标检测 和 行人重识别模型,不是经典模型,所以这里的测评数据不具有通用性,想要更加充分的评估就自己动手吧~

  测评姿势:使用的推理框架是 TensorRT,C++ API 堆叠那种,做了算子融合、低比特等优化;低比特化不同盒子不一样,如 Nano、TX2_NX 不支持 int8,故用的 fp16 精度,其余为 int8(这里主要考虑以能实际落地的精度进行性能对比)。

  给出性能对比数据:


  小结:

  (1)同型号(Jetson Xavier NX)三家性能相当,所以在选型的时候可以更加关注盒子的价格和稳定性;

  (2)实测 Nano 比 NX 慢 9倍,所以你在选择 Nano 的时候需要谨慎,性能确实一般;

  (3)实测 TX2 NX 比 NX 慢约 4倍,觉得这款性价比还是可以的;

  (4)实测 AGX Xavier 比 NX 快约 1倍,主要考虑到它的 显内存 (32G) 是 NX (8G) 的 4倍,所以性能十分可观,不过它也贵啊~


  好了,就这样,以上希望能给大家 窥一斑。


  收工~



扫描下方二维码即可关注我的微信公众号【极智视界】,获取更多AI经验分享,让我们用极致+极客的心态来迎接AI !

经验分享英伟达jetson系列边缘盒子配置性能查看工具jtop(代码片段)

 本教程详细记录了英伟达Jetson系列边缘盒子配置性能查看工具jtop的方法。文章目录1、jtop介绍2、jtop安装3、jtop使用1、jtop介绍 X86的英伟达异构系统一般可以用nvidia-smi来查看GPU的相关运行性能参数。 如果你想实时进行查看&#... 查看详情

英伟达jetson系列盒子参数(jetson参数)信息

https://developer.nvidia.com/embedded/jetson-modules我们的目前是这三款,对应4核、6核、8核,分不清,就top按1查下核数 查看详情

英伟达jetson盒子安装jtop工具(代码片段)

安装jtop安装pip3sudoaptinstallpython3-pip安装jtopsudo-Hpip3install-Ujetson-stats运行jtop服务sudosystemctlrestartjetson_stats.service重启系统reboot使用jtopjtop参考文章:NVIDIAJetsonAGXXavier安装及使用jtop 查看详情

模型推理t4上商汤openpplvstensorrt7vstensorrt8测评(代码片段)

​ 本文对商汤OpenPPL和英伟达TensorRT7、TensorRT8在T4平台上对一些经典网络进行了性能测试对比。文章目录1、小试牛刀2、测评姿势3、数据分析​ 商汤OpenPPL传送:点击到达OpenPPL​ 英伟达TensorRT传送:点击到达TensorRT​... 查看详情

英伟达jetson盒子gstreamergst-launch-1.0录制rtsp为mp4不能播放问题(加-e)(eosonshutdownenabled)(代码片段)

gst-launch-1.0rtspsrclocation=rtsp://admin:abc12345@192.168.1.67/h264/ch1/main/av_stream!rtph264depay!h264parse!nvv4l2decoder!nvv4l2h265enc!h265parse!mp4mux!filesinklocation=XXXX.mp4生成的视频播 查看详情

英伟达悄悄发布最新tensorrt8,性能提升200%!

...09;的优化器和运行引擎,以TensorFlow等框架训练得到的模型作为输入,为CUDAGPU生成优化了的模型运行时间。 TensorRT为深度学习推理应用的生产部 查看详情

英伟达jetson盒子gst-inspect-1.0多个进程解包解编码单个海康摄像头rtsp流报错:error(453):notenoughbandwidth(海康限制)

gst-launch-1.0rtspsrclocation=rtsp://admin:abc12345@192.168.1.67/h264/ch1/main/av_stream!rtph264depay!h264parse!nvv4l2decoder!nvv4l2h265enc!h265parse!mp4mux!filesinklocation=5.mp4-e弄到第五路的时 查看详情

模型推理比特大陆se5边缘盒子caffessd量化与转换部署模型(代码片段)

...本教程详细记录了在比特大陆SE5边缘盒子上对caffeSSD检测模型进行量化和转换部署模型的方法。文章目录1、准备ssd模型2、转换fp32bmodel2.1转fp32bmodel2.2、模型精度验证3、Int8量化与模型转换3.1模型转换fp32umodel3.2模型转换int8umodel3.2.1... 查看详情

英伟达jetson盒子gstreamergst-launch-1.0录制rtsp为mp4不能播放问题(加-e)(eosonshutdownenabled)(代码片段)

gst-launch-1.0rtspsrclocation=rtsp://admin:abc12345@192.168.1.67/h264/ch1/main/av_stream!rtph264depay!h264parse!nvv4l2decoder!nvv4l2h265enc!h265parse!mp4mux!filesinklocation=XXXX.mp4生成的视频播放不了。。。在后面加个-e参数,生成的视频就能播放了gst-launc... 查看详情

英伟达显卡系列分类都有哪些?

英伟达显卡有两个系列,GeForce(简称GF系列)和Legative(LG系列),GF系列分为笔记本显卡和桌面显卡,这类型的显卡是为大众家庭用户,主要用于娱乐目的,相比职业卡,GF相对便宜。英伟达显卡的型号种类还是蛮多的,你可以... 查看详情

英伟达悄悄发布最新tensorrt8,性能提升200%!

...;Nvidia近日,英伟达悄悄地发布了TensorRT8,BERT-Large推理仅需1.2毫秒!同时还加入了量化感知训练和对稀疏性的支持,实现了性能200%的提升。项目已开源。2019年黄仁勋在GTCChina正式发布了TensorRT 查看详情

英伟达jetson盒子gst-inspect-1.0多个进程解包解编码单个海康摄像头rtsp流报错:error(453):notenoughbandwidth(海康限制)

gst-launch-1.0rtspsrclocation=rtsp://admin:abc12345@192.168.1.67/h264/ch1/main/av_stream!rtph264depay!h264parse!nvv4l2decoder!nvv4l2h265enc!h265parse!mp4mux!filesinklocation=5.mp4-e弄到第五路的时候就不行了,报:root@ubuntu:~#gst-launch-1.0rtspsrclocation=... 查看详情

系统硬件英伟达安培卡vs老推理卡硬件参数对比(代码片段)

...t;_< o_O O_o ~_~ o_O 本文分享一下英伟达安培卡vs老推理卡硬件参数对比。 其中安培卡主要包括A100、A40、A30、A16、A10、A2,老推理卡主要包括T4、P4、P40、V100,本文主要用于从老推理卡迁移到新安培卡时应该会用到... 查看详情

tensorrt模型部署实战,英伟达平台,c++和python对比(包含源码)

...在适当的情况下链接到下面。假设您从一个已经训练好的模型开始。本章将介绍使用TensorRT的以下必要步骤:从模型中创建TensorRT网络定义调用TensorRT构建器以从网络创建优化的运行时引擎序列化和反序列化引擎,以便在运行时快... 查看详情

tensorrt模型部署实战,英伟达平台,c++和python对比(包含源码)

...在适当的情况下链接到下面。假设您从一个已经训练好的模型开始。本章将介绍使用TensorRT的以下必要步骤:从模型中创建TensorRT网络定义调用TensorRT构建器以从网络创建优化的运行时引擎序列化和反序列化引擎,以便在运行时快... 查看详情

5300亿nlp模型“威震天-图灵”发布,由4480块a100训练,微软英伟达联合出品

...量子位报道|公众号QbitAI5300亿参数!全球最大规模NLP模型诞生。由微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(MegatronTuring-NLG)。据他们介绍,这样的量级不仅让它成为全球规模最大,同时也... 查看详情

nvidiajetson之benchmark测试(代码片段)

0背景Jetson用于将各种流行的DNN模型和ML框架部署到具有高性能推理的边缘,用于实时分类、目标检测、姿势估计、语义分割和自然语言处理(NLP)等任务。为了测试不同设备的性能,本文提供一种性能测试方法。测试设备:jetsonnano... 查看详情

模型推理谈谈推理引擎的推理组织流程

 本文主要讨论一下推理引擎的推理组织流程,包括英伟达tensorrt、华为CANN以及TVM。 对于用户和大多开发者来说,其实不用太关心推理引擎内部是怎么实现推理的,比如你在使用tensorrt的时候你只要知道使用流程... 查看详情