关键词:
点击 机器学习算法与Python学习 ,选择加星标
精彩内容不迷路
新智元报道 来源:Nvidia
近日,英伟达悄悄地发布了TensorRT 8,BERT-Large推理仅需1.2毫秒!同时还加入了量化感知训练和对稀疏性的支持,实现了性能200%的提升。项目已开源。
2019年黄仁勋在GTC China正式发布了TensorRT 7,并称其是「我们实现的最大飞跃」。
然而今年TensorRT 8的发布却十分低调。
相比于7.0,TensorRT 8可以说是实现了2倍的性能提升。
在1.2毫秒内实现BERT-Large的推理
通过量化感知训练让INT8的精度达到了与FP32相当的水平
支持稀疏性,让Ampere GPU拥有更快的推理速度
TensorRT 8可应用于各种不同的场景,例如自动送货机器人、自动化农场、自动光学检测、视频分析,还有能够转写和输入的聊天机器人。
TensorRT
TensorRT是一种高性能的深度学习推理(Inference)的优化器和运行引擎,以TensorFlow等框架训练得到的模型作为输入,为CUDA GPU生成优化了的模型运行时间。
TensorRT为深度学习推理应用的生产部署提供了INT8和FP16优化,通过减少推理的时间来降低应用程序的延迟。
同时,TensorRT可以通过寻找计算图中可以融合的节点和边,减少计算和内存访问,并利用稀疏张量核心提供额外的性能提升。
1. 降低混合精度
通过将模型量化到INT8,同时保留精度,最大限度地提高吞吐量
2. 层和张量融合
通过融合内核中的节点,优化GPU内存和带宽的使用
3. 内核自动调整
根据目标GPU平台选择最佳数据层和算法
4. 动态张量内存
最大限度地减少内存占用,并有效地重复使用张量的内存
5. 多数据流执行
使用可扩展的设计来并行处理多个输入流
6. 时间融合
通过动态生成的内核,在时间上优化循环神经网络
7.0
相比于只支持30种模型的TensorRT 5,TensorRT 7支持各种类型的RNN、Transformer和CNN,并且还支持多达1000种不同的计算变换和优化,包括BERT、RoBERTa等。
在交互式会话AI方面,TensorRT 7可以让推理时间缩短到0.3秒,是CPU速度的10倍。
那问题来了,这次新推出的TensorRT 8做出了哪些改进呢?
推理速度更快
大型语言模型(LSLM),如BERT、GPT-2和XL-Net,极大提升了许多自然语言处理(NLP)任务的准确性。
自2018年10月发布以来,BERT(Bidirectional Encoder Representations from Transformers)及其所有的许多变体,仍然是最受欢迎的语言模型之一,并且仍然可以提供SOTA的准确性。
通过最新的优化,TensorRT 8可以加速所有大型语言模型,并将推理时间减少到TensorRT 7的50%。
让交互式会话AI更智能
英伟达AI软件产品管理总监Kari Briski指出,TensorRT 8在BERT- Large的推理上取得了突破。
TensorRT 8能够在短短1.2毫秒内对BERT进行推理。
这种推理速度「可以让对话式AI更智能」,提高众多交互式应用程序的性能。
稀疏性让Ampere GPUs推理更快
在AI推理和机器学习中,稀疏性是指包含许多不会显着影响计算的零或值的数字矩阵。
多年来,机器学习研究人员一直在努力使用数字来加速人工智能,目标是减少深度学习所需的矩阵乘法堆,缩短获得结果的时间。
在TensorRT 8中使用稀疏性技术,能够提升英伟达Ampere架构的GPU性能。
在保证推理精度的同时,降低深度学习模型中的部分权重,减小模型所需要的带宽和内存。
内存有富余,就可以分配给那些需要计算的部分,推理速度自然也上来了。
量化感知训练提高精度
一直以来,人工智能培训是在数据中心完成的,用大量数据、几十万小时的语音数据进行训练,将模型训练到最高级别的准确度。
但是,经过大量训练、准确度高的模型运行起来可能会很慢,模型也会变得越来越复杂。
根据O Reilly最近发布的调查结果显示,86.7%的组织现在正在考虑、评估或投入生产AI产品。
德勤报告称,53%采用人工智能的企业在2019年和2020年在技术和人才上的支出超过2000万美元。
换言之,现在不仅是数据中心会进行推理部分的工作,在嵌入式系统、汽车系统中也会有推理工作。
这就要求在推理过程中,保持训练时的最高准确度,并且在硬件设备上运行,尽可能缩短响应时间和增加客户吞吐量。
因此,TensorRT 8优化了Transformer,增强了性能。
同时利用量化感知训练提高准确性,将INT8精度的准确度提高了2倍,既保证精度,也减少了计算和存储成本。
TensorRT的应用
英伟达表示,自五年前TensorRT首次发布以,下载量已经达到近250万次,共27500家公司加入到该生态之中,应用的领域涵盖医疗保健、汽车、金融和零售等。
应用TensorRT的公司
开源AI公司Hugging Face与英伟达合作推出了AI文本分析、神经搜索和对话式AI服务。
该公司的产品总监Jeff Boudier称,在TensorRT 8的帮助下,Hugging Face在BERT上的推理延迟仅有1.2毫秒。
在临床医疗领域应用方面,GE医疗心血管超声首席工程师Erik Steen表示,临床医生需要花时间来评估超声图像。
但TensorRT实时的推理能力,极大提高了GE医疗的视图检测算法性能,极大加快了临床医生的工作效率。
而微信也实现了基于TensorRT-and-INT8 QAT的模型推理加速,加快微信搜索的核心业务。
TensorRT 8无疑还会促使客服机器人反应更快更聪明,让实时翻译更迅速。
现在,TensorRT 8最新版本已在GitHub中开源。
部署TensorRT
下载TensorRT Build
git clone -b master https://github.com/nvidia/TensorRT TensorRT
cd TensorRT
git submodule update --init --recursive
如果使用TensorRT OSS Build容器,TensorRT库已经预装在/usr/lib/x86_64-linux-gnu下。否则需要下载TensorRT GA build。
Ubuntu 18.04 x86-64 cuda-11.3
cd ~/Downloadstar -xvzf TensorRT-8.0.1.6.Ubuntu-18.04.x86_64-gnu.cuda-11.3.cudnn8.2.tar.gzexport TRT_LIBPATH=`pwd`/TensorRT-8.0.1.6
Windows x86-64 cuda-11.3
cd ~Downloads
Expand-Archive .TensorRT-8.0.1.6.Windows10.x86_64.cuda-11.3.cudnn8.2.zip
$Env:TRT_LIBPATH = $(Get-Location)TensorRT-8.0.1.6
$Env:PATH += C:Program Files (x86)Microsoft Visual Studio7ProfessionalMSBuild.0Bin
构建环境
1. 生成TensorRT-OSS Build容器
TensorRT-OSS Build容器可以使用提供的Dockerfiles和Build脚本来生成。
Ubuntu 18.04 x86-64 cuda-11.3
./docker/build.sh --file docker/ubuntu-18.04.Dockerfile --tag tensorrt-ubuntu18.04-cuda11.3 --cuda 11.3.1
2. 启动TensorRT-OSS Build容器
Ubuntu 18.04
./docker/launch.sh --tag tensorrt-ubuntu18.04-cuda11.3 --gpus all
构建TensorRT-OSS
生成Makefiles或VS项目(Windows)并构建。
Linux x86-64 cuda-11.3
cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out
make -j$(nproc)
Windows x86-64 Powershell
cd $Env:TRT_OSSPATH
mkdir -p build ; cd build
cmake .. -DTRT_LIB_DIR=$Env:TRT_LIBPATH -DTRT_OUT_DIR= $(Get-Location)out -DCMAKE_TOOLCHAIN_FILE=..cmake oolchainscmake_x64_win.toolchain
msbuild ALL_BUILD.vcxproj
如果对你有帮助。
请不吝点赞,点在看,谢谢
英伟达秀全球最大gpu,黄仁勋从烤箱里拿出的产品果然「爆了」
...人,那个熟悉的皮夹克。5月14日晚,黄仁勋在厨房召开了英伟达GTC2020线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于3月24日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前... 查看详情
nvlink支持的显卡
英伟达刚发布30系显卡没几天,就在官网上架了新款NVLink,售价为80美元。通过NVLink可实现英伟达的双显卡功能(SLI),目前支持SLI的显卡仅为RTX3090,它官网报价11999元,预计9月24日发售。据了解,英伟达RTX3090显卡拥有10496个CUDA... 查看详情
1050ti都是用英伟达驱动软件吗
...好的。安装472版本的驱动也可以让显卡发挥出最大性能,英伟达新出的两个测试版本不用下载,没有意义。参考技术A1050ti最适合用472.17版本的驱动。最新的是473版本的驱动,但是473版本的驱动兼容性有很大的问题,472版本的驱动的... 查看详情
英伟达显卡系列分类都有哪些?
英伟达显卡有两个系列,GeForce(简称GF系列)和Legative(LG系列),GF系列分为笔记本显卡和桌面显卡,这类型的显卡是为大众家庭用户,主要用于娱乐目的,相比职业卡,GF相对便宜。英伟达显卡的型号种类还是蛮多的,你可以... 查看详情
浪潮信息英伟达霸榜!mlperf™最新榜单发布,浪潮信息包揽2021年度近半数冠军...
...固定任务(ClosedDivision)测试中,浪潮信息和英伟达包揽15个冠军。在单机测试的8项任务中,浪潮信息获7项冠军,英伟达获1项冠军;在集群测试的8项任务中,英伟达获7项冠军,微软云获1项冠军。... 查看详情
模型推理英伟达jetson系列边缘盒子性能测评
本文记录了英伟达Jetson系列边缘盒子的性能测评小结。 测评的AIBox是分别来自浪潮、研智、米文,盒子型号包括浪潮JetsonXavierNX、研智JetsonXavierNX、米文JetsonNano、米文JetsonTX2NX、米文JetsonXavierNX、米文JetsonAGXXavier,数据... 查看详情
最新3dgan可生成三维几何数据了!模型速度提升7倍,英伟达&斯坦福出品
...道|公众号QbitAI2D图片变3D,还能给出3D几何数据?英伟达和斯坦福大学联合推出的这个GAN,真是刷新了3DGAN的新高度。而且生成画质也更高,视角随便摇,面部都没有变形。与过去传统的方法相比,它在速度... 查看详情
关于英伟达数字人文章的致歉和说明
大家好,昨天我们发布的一篇英伟达数字人新进展的文章,引发了较大范围的关注和讨论。经过我们的复核及英伟达官方最新确认,这篇文章存在不严谨和失当之处,特此进行说明和致歉。一、说明一下我们的错... 查看详情
经验分享英伟达jetson系列边缘盒子配置性能查看工具jtop(代码片段)
本教程详细记录了英伟达Jetson系列边缘盒子配置性能查看工具jtop的方法。文章目录1、jtop介绍2、jtop安装3、jtop使用1、jtop介绍 X86的英伟达异构系统一般可以用nvidia-smi来查看GPU的相关运行性能参数。 如果你想实时进行查看... 查看详情
英伟达实时3d设计协作和仿真平台已正式发布
导读得益于新的功能和工具,英伟达实时3D设计协作和仿真平台现已正式发布,可供配备RTXGPU的英伟达GeForceStudio创作者使用。英伟达在元宇宙方面的布局又有了新动作。英伟达为元宇宙建立提供基础的模拟和协作平台—... 查看详情
chrome不能强制使用独立显卡。英伟达nvidia卡。
使用最新英伟达驱动320.49(notebook)认证版使用最新Chrome原版28.0.1500.71m显卡设置是灰色的。HD4000拿运存做显存,有点吃运存。做一些测试如2000条鱼,独显和HD4000的差距还是蛮大的,希望可以用到独显。谢谢大神指导(换浏览器... 查看详情
5300亿nlp模型“威震天-图灵”发布,由4480块a100训练,微软英伟达联合出品
...tAI5300亿参数!全球最大规模NLP模型诞生。由微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(MegatronTuring-NLG)。据他们介绍,这样的量级不仅让它成为全球规模最大,同时也是性能最强的NLP模型... 查看详情
英伟达显卡驱动(1050)现在哪个版本最好用最稳定
388.71或者397.64,这两个是公认的1050TI最好的驱动。新升级了419.35,玩鬼泣5卡的一笔。换回到388.71稳如泰山。追问我是1050不是1050ti参考技术A一般来说最新的官方驱动会对性能和特效一类的进行补充,公版驱动。而最稳定的是显卡... 查看详情
intel,nvidia,amd三大巨头火拼gpu与cpu
Intel,Nvidia,AMD三大巨头火拼GPU与CPU英特尔、英伟达隔空斗法!AMD加大火力争夺GPU市场,到底谁更有胜算?GPU市场风云再起,英伟达和英特尔隔空斗法。9月21日,英伟达正式公布了第三代RTX 架构Ada Lovelace。Ada GPU可以... 查看详情
英伟达用ai设计gpu:最新h100已经用上,比传统eda减少25%芯片面积
白交发自凹非寺量子位|公众号QbitAI英伟达终于揭晓:H100竟有近13000条电路,是AI设计的?!在最新论文中,他们介绍了如何用深度强化学习agent设计电路的方法。据研究人员称,这种方法还属业内首次。值... 查看详情
英伟达cuda太难!openai出手要取代它,新语言性能相当但编程更简单
晓查发自凹非寺量子位报道|公众号QbitAI用CUDA为GPU编程实在太难了。为了让没有CUDA编程经验的人写出和专家效率相当的GPU代码,现在OpenAI推出了一种新的语言和编译器——Triton。它的难度比CUDA低,但是性能却可与之相媲... 查看详情
3080lhr啥意思
英伟达此前推出了RTX30LHR版显卡,从底层限制了挖矿性能,LHR就是低Hash性能的意思。NVIDIA(纳斯达克股票代码:NVDA)是一家人工智能计算公司。公司创立于1993年,总部位于美国加利福尼亚州圣克拉拉市。美籍华人JensenHuang(黄... 查看详情
英伟达取消12gb版4080发售,老黄也被骂怂了
衡宇发自凹非寺量子位|公众号QbitAI英伟达这回算是被喷怕了。在最新公告中,英伟达宣布,11月16日的发售中,将取消RTX408012GB这个型号。官方给出的原因是:RTX408012GB是一款很棒的显卡,但它的命名失误了。... 查看详情