时代落在英伟达身上的是粒什么沙,国产gpu的机会又在哪?

beyondma beyondma     2022-10-23     748

关键词:

天道好轮回,苍天饶过谁。近日英伟达称,他们被要求停止向中国出口两种用于数据中心的GPU A100和H100,AMD也表示,已经收到新的要求,MI250出口到中国将会受限。A100,MI250等高端型号的GPU最主要特点就是可以提供双精度FP64类型的算力,而国产GPU一般在FP16也就是半精度数据处理方面不差,在FP32类型的处理能力上表现就一般了,FP64几乎是缺失的状态。

这里的16,32是指输入变量的位数,比如FP16是指一个由16个二进制位所表示的变量,也就是说FP32与FP64的差距是2的32次方(42亿)倍,这一方面将对我国人工智能领域的发展带来一定影响,另一方面也会制约我国勘探、气象、生物医药等对于数据精度要求较高领域的发展速度,甚至很可能是之前EDA禁令的后手组合,不过无论这个政策的本意如何,现在这颗时代的沙却让英伟达非常受伤。

被误伤的英伟达

8月25日英伟达公布了的二季度的财报和三季度的指引。从财报来看,二季度公司收入67亿美元,同比增长3%,环比下降19%,大大低于英伟达5月份预测的81亿美元。当季GAAP下每股摊薄收益为0.26美元,比去年同期下降72%,比上一季度下降59%;调整后每股收益为0.51美元,较上年同期下降51%,较上一季度下降63%,公司游戏部门收入已经大幅下滑,并且悲观预计公司营收第三季度还将同比下降17%,导致其股价在盘后交易中下跌约5%。而在限制令出台后,人们也越来越多担心,此前支撑英伟达业绩高速增长的数据中心业务未来将持续降温,因此英伟达在上周又跌了近5%。

不过英伟达的业绩坠落,主要还是因为显卡的供需关系出现逆转,由于以比特币为代表的数字货币价格一蹶不振,导致GPU显卡的最大买方-“矿厂”大规模去产能,转手成为卖方,这其中最明显的信号就是自发布以来一直溢价销售的RTX30系列GPU显卡,在8月份瞬间打折也卖不出去了。

这次A100的限制令又将对英伟达的数据中心业务产生影响,因此英伟达的股价可能还难言底部。不过英伟达虽然很受伤,但是这对于限制令的初衷来说明显属于误伤,真正的目标还是人工智能和需要高精度数据模拟的工业软件。

人工智能的影响-精益求精的训练,不求甚解的推理

最近经常能够看到计算机专业的结业生在社交平台吐槽大厂的面试、笔试题难度卷出天际,但实际入职后所从事的工作,却偏向于重复劳动式的搬砖,在我拿到今年某大厂算法岗的笔试题之后,的确印证了这种情况,但这种现象也说明了人们在学校里学习时对于精细度要求很高,但真正走向工作当中虽然会急剧上升,但实际对于知识掌控精细度与全面度的要求却下降了。

类比在人工智能方面,可以做以下解读,一般来说人工智能分为训练和推理两个阶段,其中训练可以类比于人类的学习行为,一般在学习的过程中都要打破沙锅问到底,力求精益求精;而推理则类比于所学知识的落地,一般都要留有模糊空间,乃至不求甚解的效果可能也不差。虽然这个类比不完全吻合,但是基本的道理是没有差很多的,也就是模型训练时对精度的要求往往比AI推理时对精度的要求高得多。

    从目前AI的发展趋势来看,也的确有着“大力出奇迹”的迹象,比如谷歌科学家直接在T5的论文指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。”这一方面表现为的人工智能模型的参数规模越来越大,现在没有个上千亿参数的模型简直都不好意思和人打招呼,比如那个会自动艺术创作的DALL.3参数规模突破1500亿;

另一方面也是业界对于模型参数的精度要求越来越高,业界也越来越依赖高精度算力的处理能力提升。但是凭心而论很多模型都是精度要求过剩的,只要费心优化模型,这个限制令对于AI方面的影响尚不至于无解。

核心打击方向-工业软件

如果说人工智能方面降低精度还不会伤肋动骨,但是对于很多对于精度要求很高的领域来说这个限制令的打击可能就难以承受了。其实早在芯片禁令之前,最早被西方列入限制清单的就是以MATLAB为首的工业软件,而我们工业软件差距最大的部分就在于仿真与模拟。这方面一是要长时间的经验积累,另一方面对于算力精度的要求也比较高,精度下降往往意味着失之毫厘差以千里,对于医疗、气象、勘探等领域的工业软件来说尤其如此。

而且笔者认为这次高端GPU的禁令很可能是之前EDA禁令的手续组合拳,EDA从本质上讲就是工业软件,美国限制EDA的使用本质上限制了我国自研先进制程的芯片的制造进程。而且我们看到目前国际EDA三巨头都纷纷推出自己的AI FOR EDA产品,从公开资料上看新思科技推出的DSO.ai,就在探索搜索空间、观察设计随时间的演变情况,同时调整设计选择、技术参数和工作流程,虽然这些AI FOR EDA的产品代码都不开源,但是笔者认为这些AI技术实际对于精度的要求肯定不低。

精度优化-曲线救国的方向

正如前文所说,我国国产的GPU往往在双精度类型FP64方面,目前都没有什么突破性进展,这在之前A100没有限制之前还无所谓,但目前限制来了,针对半精度FP64乃至8位整数类型(int8)的专门优化工作已经势在必行。

据笔者所知这方面业界已经有所探讨,以深度神经网络为例,神经元可以抽象为对于输入数据乘以权重以表示信号强度乘积加总,再由ReLU、Sigmoid等应用激活函数调节,本质是将输入数据与权重矩阵相乘,并输入激活函数,对于有三个输入数据和两个全连接神经元的单层神经网络而言,需要把输入和权重进行六次相乘,经典CNN中无论GEMM的矩阵乘法运算还是卷积的乘加计算都是使用fp32也就是用32位字长的数字来表示,在这种情况下我们可以使用int 8作为输入表示此以过程,其计算量至少可以下降75%。尤其在图像处理的场景下,通常由fp32到int8的转换,精度损失是低于1%的。因此在针对int8类型的计算加速也就是业界都在探讨的话题。

这方面英特尔酷睿12代中的VNNI指令集很好的完成了这个加速的过程,比如火山引擎在VNNI的优化下int8上实现了从人脸照片到三维模型的图像映射。腾讯通过一个FP32向int8的转换以及VNNI的加持,实现了一个可以实时生成用户3D头像的模型,在精度降低1%的情况下,性能还提升了4.23倍。另外英特尔和阿里云在Ice Lake上也针对自然语言处理的Transformer模型进行了深度优化,通过VNNI的加速实现了3倍的性能提升。

而且针对FP32向int8的转换工作,英特尔提供一款名为LPOT的开源工具,使用LPOT用户基本上不需要写代码,就可以直接将TensorFlow的模型,从FP32换成int8,同时保证非常高的精确性,这里推荐给大家。

写在最后

无论是高精度GPU还是EDA是一种需要长时间积累才能取得突破的领域,而我们在IT基础设施领域的研发力量太薄弱了,以EDA为例,国内所有EDA厂商的研发人员加在一起可能都不到2000人,还不如Synopsys一家的开发力量强,想突破一要增加研发人员,二要沉下心来积累,结硬寨打硬仗,不要试图走捷径。

时代落在英伟达身上的是粒什么沙,国产gpu的机会又在哪?(代码片段)

作者|马超 天道好轮回,苍天饶过谁。近日英伟达称,他们被要求停止向中国出口两种用于数据中心的GPUA100和H100,AMD也表示,已经收到新的要求,MI250出口到中国将会受限。A100,MI250等高端型号的GPU最主... 查看详情

时代落在英伟达身上的是粒什么沙,国产gpu的机会又在哪?(代码片段)

作者|马超 天道好轮回,苍天饶过谁。近日英伟达称,他们被要求停止向中国出口两种用于数据中心的GPUA100和H100,AMD也表示,已经收到新的要求,MI250出口到中国将会受限。A100,MI250等高端型号的GPU最主... 查看详情

时代落在英伟达身上的是粒什么沙,国产gpu的机会又在哪?

...组合,不过无论这个政策的本意如何,现在这颗时代的沙却让英伟达非常受伤。被误伤的英伟达8月25日英伟达公布了的二季度的财报和三季度的指引。从财报来看,二季度公司收入67亿美元,同比增长3%,环比... 查看详情

离开英伟达仅19个月,他交出了一块国产全功能gpu

...sZhang),很多人熟知这个名字,是因为他曾是英伟达中国区的一把手,任职长达15年之久。但在2020年9月,张建中选择离开英伟达,并于次月创办了摩尔线程这家公司。而他这一次的出场,之所以会有刚... 查看详情

国产7nm工艺的gpu芯片向英伟达和amd发起挑战

...处理芯片(JM5400GPU),天数智芯的新BigIslandGPU型号并不像英伟达RTX和AMDRadeon型号一样,面向游戏设计方面开发,它更注重AI和HPC应用,以及教育,医学和安全领域的其他通用用途。最初天数智芯的新BigIslandGPU在2018年至2020年之间... 查看详情

Cuda 内核代码驻留在英伟达 GPU 上的啥位置?

】Cuda内核代码驻留在英伟达GPU上的啥位置?【英文标题】:WheredoesCudakernelcoderesideonnvidiaGPU?Cuda内核代码驻留在英伟达GPU上的什么位置?【发布时间】:2011-07-0413:12:04【问题描述】:我已经浏览了Cudaprogrammingguide,但仍然不清楚cud... 查看详情

国产gpu创业潮喧嚣下的资本游戏

...上非常高调,声称性能如何如何优秀,仿佛追赶英伟达,超越AMD就在眼前。从背景来看,这一波GPU公司鱼龙混杂,成立时间都不长,既有研发团队有漂亮光鲜海外背景的GPU公司ÿ 查看详情

2天训练出15亿参数大模型,国产开源项目力克英伟达megatron-lm,来自lamb作者团队...

鱼羊明敏 发自凹非寺量子位|公众号QbitAI当今AI之势,影响纵深发展的矛盾是什么?一方面,大模型风头正劲,效果惊艳,人人都想试试。但另一方面,硬件基础上动不动就是上万张GPU的大规模集群在日夜... 查看详情

黄仁勋:gpu,打折!

...发自凹非寺量子位|公众号QbitAI新的GPU系列上市在即,英伟达“忍痛”宣布:打折!打折!等等党们又胜利了。英伟达CEO黄仁勋证实了近来外界关于GPU降价的猜测:目前GPU库存过剩,不得不以远低于当前市... 查看详情

gpu技术大会感受--专注显卡解决方案十年,英伟达在人工智能上创造出另外一副天地!

十年前谁也不会想到,人工智能让英伟达走到了风口浪尖今天去了GTC(GPU技术大会),和大家分享下一些见闻。如今的英伟达进入了高速发展阶段,但是谁也没有想到,英伟达在显卡上专注了十几年,居然在AI上有很大的发展,... 查看详情

苹果英伟达展开竞赛800亿个晶体管“最强”gpu芯片来了-

参考技术A英伟达同时推出了面向数据中心的一款超级芯片及一款AI系统,并同时更换了数据中心平台的架构,用新的Hopper架构取代了刚使用两年的Ampere架构。这种更新换代的节奏在近几年来明显加快,反映英伟达不惜斥下研发重... 查看详情

英伟达秀全球最大gpu,黄仁勋从烤箱里拿出的产品果然「爆了」

...人,那个熟悉的皮夹克。5月14日晚,黄仁勋在厨房召开了英伟达GTC2020线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于3月24日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前... 查看详情

英伟达gpu虚拟化---申请英伟达测试license

此文基于全新的License2.0系统,针对vGPULicense的试用申请以及软件下载和License管理进行了详细的说明,方便今后我们申请测试License,快速验证GPU的功能。试用步骤:·      EvaluationLicense 申请· ... 查看详情

ai开发者福音!阿里云推出国内首个基于英伟达ngc的gpu优化容器

...要:3月28日,在2018云栖大会·深圳峰会上,阿里云宣布与英伟达GPU云合作(NGC),开发者可以在云市场下载NVIDIAGPU云镜像和运行NGC容器,来使用阿里云上的NVIDIAGPU计算平台。阿里云推出国内首个基于英伟达NGC的GPU优化容器3月28日... 查看详情

英伟达 Smi JSON 输出

】英伟达SmiJSON输出【英文标题】:NvidiaSmiJSONOutput【发布时间】:2017-08-0319:17:33【问题描述】:我想输入有关机器可用GPU和状态的系统信息以进行实时监控。我正在使用XML输出GPU信息$nvidia-smi-x-q此命令将打印输出当前GPU状态(如... 查看详情

英特尔、amd、英伟达,三大厂商同台竞技混合gpu+cpu

参考技术A如果说英伟达的GraceCPU超级芯片的架构是CPU+GPU是巧合,那么英特尔和AMD推出的FalconShoresXPU芯片、InstinctMI300芯片同样是CPU+GPU结构时,CPU+GPU一体的架构就很难称之为巧合了。更为“碰巧”的是,以上三种芯片其都是用于... 查看详情

[人工智能-深度学习-38]:英伟达gpucuda编程框架简介

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/details/121220362目录第1章什么CPU与GPU?1.1深度学习的硬件选择1.2CPU与GPU比较1.3CPU... 查看详情

英伟达用ai设计gpu:最新h100已经用上,比传统eda减少25%芯片面积

白交发自凹非寺量子位|公众号QbitAI英伟达终于揭晓:H100竟有近13000条电路,是AI设计的?!在最新论文中,他们介绍了如何用深度强化学习agent设计电路的方法。据研究人员称,这种方法还属业内首次。值... 查看详情