正文

英特尔、amd、英伟达，三大厂商同台竞技混合gpu+cpu

author  author  2023-02-19  754

关键词：

参考技术A

如果说英伟达的Grace CPU超级芯片的架构是CPU+GPU是巧合，那么英特尔和AMD推出的Falcon Shores XPU芯片、Instinct MI300芯片同样是CPU+GPU结构时，CPU+GPU一体的架构就很难称之为巧合了。

更为“碰巧”的是，以上三种芯片其都是用于数据中心的场景，这就意味着在未来两年内，AMD、英伟达和英特尔都将拥有混合CPU+GPU芯片进入数据中心市场。

可以说CPU+GPU的形式已经成为未来芯片设计的趋势。

英特尔推出XPU

英特尔宣布了一款特殊的融合型处理器“Falcon Shores”，官方称之为XPU。其核心是一个新的处理器架构，将英特尔的x86 CPU和Xe GPU硬件置入同一颗Xeon芯片中。

Falcon Shores芯片基于区块(Tile)设计，具备非常高的伸缩性、灵活性，可以更好地满足HPC、AI应用需求。

按照英特尔给出的数字，对比当今水平，Falcon Shores的能耗比提升超过5倍，x86计算密度提升超过5倍，内存容量与密度提升超过5倍。

Falcon Shores芯片将在2024年推出。

AMD推出APU

在数据中心领域，AMD同样展示其野心。

APU是AMD传统上用于集成显卡的客户端CPU的“加速处理单元”命名法。自2006年Opteron CPU的鼎盛时期以来，AMD一直梦想着使用APU，并于2010年开始推出第一款用于PC的APU。随后在索尼Play Station4和5以及微软Xbox XS中推出了定制APU系列游戏机，也推出了一些Opteron APU——2013年的X2100和2017年的X3000。

最近，AMD公布的路线图中显示，其将在2023年推出Instinct MI300芯片，这是AMD推出的第一款百亿亿次APU，AMD将其称为“世界上第一个数据中心APU”。

而这个APU是一种将CPU和GPU内核组合到一个封装中的芯片，仔细来说是将基于Zen4的Epyc CPU与使用其全新CDNA3架构的GPU相结合。

AMD表示Instinct MI300预计将比其Instinct MI250X提供超过8倍的AI训练性能提升，与支持Instinct MI200系列的CDNA2 GPU架构相比，用于Instinct MI300的CDNA3架构将为AI工作负载提供超过5倍的性能功耗比提升。

Instinct MI300将于2023年问世。

英伟达Grace超级芯片

一直专注于GPU设计的英伟达，在去年宣布进军基于Arm架构的CPU时引发了一阵轰动。在今年3月，英伟达推出解决HPC和大规模人工智能应用程序的Grace Hopper超级芯片。这款芯片将NVIDIA Hopper GPU与Grace CPU通过NVLink-C2C结合在一个集成模块中。

CPU+GPU的Grace Hopper核心数减半，LPDDR5X内存也只有512GB，但多了显卡的80GBHBM3内存，总带宽可达3.5TB/s，代价是功耗1000W，每个机架容纳42个节点。

英伟达同样承诺在2023年上半年推出其超级芯片。

从推出的时间节点来看，英特尔Falcon Shores芯片、AMD Instinct MI300、英伟达Grace Hopper超级芯片分别在2024年、2023年、2023年上半年推出。

CPU+GPU的形式，为什么引起了三大巨头的兴趣，纷纷将其布局于数据中心？

首先，在数字经济时代，算力正在成为一种新的生产力，广泛融合到社会生产生活的各个方面。数据中心是算力的物理承载，是数字化发展的关键基础设施。全球数据中心新增稳定，2021年全球数据中戏市场规模超过679亿美元，较2020年增长9.8%。因此，具有巨大市场的数据中心早已被科技巨头紧盯。

其次，数据中心会收集大量的数据，因此需要搭建于数据中心的芯片具有极大算力，将CPU与GPU组合可以提高算力。英特尔高级副总裁兼加速计算系统和图形（AXG）集团总经理Raja Koduri的演讲中提及，如果想要成功获得HPC市场，就需要芯片能够处理海量的数据集。尽管，GPU具有强大的计算能力，能够同时并行工作数百个的内核，但如今独立的GPU仍然有一大缺陷，就是大的数据集无法轻松放入独立GPU内存里，需要耗费时间等待显存数据缓慢刷新。

特别是内存问题，将CPU与GPU放入同一架构，能够消除冗余内存副本来改善问题，处理器不再需要将数据复制到自己的专用内存池来访问/更改该数据。统一内存池还意味着不需要第二个内存芯片池，即连接到CPU的DRAM。例如，Instinct MI300将把CDNA3 GPU小芯片和Zen4 CPU小芯片组合到一个处理器封装中，这两个处理器池将共享封装HBM内存。

英伟达官方表示，使用NVLink-C2C互连，Grace CPU将数据传输到Hopper GPU的速度比传统CPU快15倍；但对于数据集规模超大的场景来说，即使有像NVLink和AMD的Infinity Fabric这样的高速接口，由于HPC级处理器操作数据的速度非常快，在CPU和GPU之间交换数据的延迟和带宽代价仍然相当高昂。因此如果能尽可能缩短这一链路的物理距离，就可以节约很多能源并提升性能。

AMD表示，与使用分立CPU和GPU的实现相比，该架构的设计将允许APU使用更低的功耗；英特尔同样表示，其Falcon Shores芯片将显着提高带宽、每瓦性能、计算密度和内存容量。

整合多个独立组件往往会带来很多长期收益，但并不只是将CPU与GPU简单整合到一颗芯片中。英特尔、英伟达及AMD的GPU+CPU均是选择了Chiplet方式。

传统上，为了开发复杂的 IC 产品，供应商设计了一种将所有功能集成在同一芯片上的芯片。在随后的每一代中，每个芯片的功能数量都急剧增加。在最新的 7nm 和 5nm 节点上，成本和复杂性飙升。

而使用Chiplet设计，将具有不同功能和工艺节点的模块化芯片或小芯片封装在同一芯片，芯片客户可以选择这些小芯片中的任何一个，并将它们组装在一个先进的封装中，从而产生一种新的、复杂的芯片设计，作为片上系统 (SoC) 的替代品。

正是由于小芯片的特性，三家巨头在自己发展多芯片互连的同时，还展开了定制服务。

英特尔在发布Falcon Shores时介绍，其架构将使用Chiplet方法，采用不同制造工艺制造的多个芯片和不同的处理器模块可以紧密地塞在一个芯片封装中。这使得英特尔可以在其可以放入其芯片的CPU、GPU、I/O、内存类型、电源管理和其他电路类型上进行更高级别的定制。

最特别的是，Falcon Shores可以按需配置不同区块模块，尤其是x86CPU核心、XeGPU核心，数量和比例都非常灵活，就看做什么用了。

目前，英特尔已开放其 x86 架构进行许可，并制定了Chiplet策略，允许客户将 Arm 和 RISC-V 内核放在一个封装中。

最近，AMD同样打开了定制的大门。AMD首席技术官Mark Papermaster在分析师日会议上表示：“我们专注于让芯片更容易且更灵活实现。”

AMD允许客户在紧凑的芯片封装中实现多个芯粒（也称为chiplet或compute tiles ）。AMD已经在使用tiles，但现在AMD允许第三方制造加速器或其他芯片，以将其与x86 CPU和GPU一起包含在其2D或3D封装中。

AMD的定制芯片战略将围绕新的Infinity Architecture 4.0展开，它是芯片封装中芯粒的互连。专有的Infinity结构将与CXL 2.0互连兼容。

Infinity互连还将支持UCIe（Universal Chiplet Interconnect Express）以连接封装中的chiplet。UCIe已经得到英特尔、AMD、Arm、谷歌、Meta等公司的支持。

总体而言，AMD的服务器GPU轨迹与英特尔、英伟达非常相似。这三家公司都在向CPU+GPU组合产品方向发展，英伟达的GraceHopper(Grace+H100)、英特尔的Falcon Shores XPU（混合和匹配CPU+GPU），现在MI300在单个封装上同时使用CPU和GPU小芯片。在所有这三种情况下，这些技术旨在将最好的CPU和最好的GPU结合起来，用于不完全受两者约束的工作负载。

市场研究公司Counterpoint Research的研究分析师Akshara Bassi表示：“随着芯片面积变得越来越大以及晶圆成品率问题越来越重要，多芯片模块封装设计能够实现比单芯片设计更佳的功耗和性能表现。”

Chiplet将继续存在，但就目前而言，该领域是一个孤岛。AMD、苹果、英特尔和英伟达正在将自研的互连设计方案应用于特定的封装技术中。

2018 年，英特尔将 EMIB（嵌入式多硅片）技术升级为逻辑晶圆 3D 堆叠技术。2019 年，英特尔推出 Co-EMIB 技术，能够将两个或多个 Foveros 芯片互连。

AMD率先提出Chiplet模式，在2019年全面采用小芯片技术获得了技术优势。Lisa Su 在演讲时表达了未来的规划，“我们与台积电就他们的 3D 结构密切合作，将小芯片封装与芯片堆叠相结合，为未来的高性能计算产品创建 3D 小芯片架构。”

今年 3 月 2 日，英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、Meta、微软等十大巨头宣布成立 Chiplet 标准联盟，推出了通用小芯片互连标准（UCIe），希望将行业聚合起来。

迄今为止，只有少数芯片巨头开发和制造了基于Chiplet的设计。由于先进节点开发芯片的成本不断上升，业界比以往任何时候都更需要Chiplet。在多芯片潮流下，下一代顶级芯片必然也将是多芯片设计。

英特尔发布超百万亿算力gpu，进军数据中心

...各大芯片厂商的业务中变得越来越重要。作为x86发明者的英特尔，一直凭借着至强处理器占据着数据中心CPU业务的大半天下。而GPU传统王者英伟达与AMD则在GPU领域争雄。英特尔则希望自己不仅能够统治数据中心的CP 查看详情

英特尔杀入游戏显卡市场：3000元档位，支持光追和ai超分辨率，挑战amd英伟达...

...，在游戏显卡一卡难求（原价）的今天，英特尔给玩家们带来了一个好消息：正式发布高性能游戏显卡品牌Arc（中文名：锐炫）。这次，英特尔不再只是“画饼”，而是放出了多款游戏的实... 查看详情

玩深度学习选哪块英伟达gpu？有性价比排名还不够！

...GPU呢？这篇文章将深入讨论这个问题，聊聊有无必要入手英特尔协处理器XeonPhi，并将各主流显查看详情

deepfacelab烧显卡吗

...脑不崩溃，至少需要以下配置：至少有2GB显存的英伟达GPU英特尔i3或者AMD9处理器8GB内存20GB剩余硬盘空间以上只是最低的配置，制作一个换脸视频可能需要几天才行，如果为了省事中途截断，效果会惨不忍睹。参考技术A不烧显卡... 查看详情

国产7nm工艺的gpu芯片向英伟达和amd发起挑战

...处理芯片（JM5400GPU），天数智芯的新BigIslandGPU型号并不像英伟达RTX和AMDRadeon型号一样，面向游戏设计方面开发，它更注重AI和HPC应用，以及教育，医学和安全领域的其他通用用途。最初天数智芯的新BigIslandGPU在2018年至2020年之间... 查看详情

gpu服务器哪几个厂商比较知名？

...计算资源，而且动辄计算几天甚至数周，而英伟达NVIDIA、英特尔Intel、AMD显卡（GPU)恰好适合这种工作，提供几十上百倍的加速，性能强劲的GPU能在几个小时内完成原本CPU需要数月完成的任务，所以目前深度学习乃至于机器学习领... 查看详情

时代落在英伟达身上的是粒什么沙，国产gpu的机会又在哪？

天道好轮回，苍天饶过谁。近日英伟达称，他们被要求停止向中国出口两种用于数据中心的GPUA100和H100，AMD也表示，已经收到新的要求，MI250出口到中国将会受限。A100，MI250等高端型号的GPU最主要特点就是... 查看详情

时代落在英伟达身上的是粒什么沙，国产gpu的机会又在哪？

Cuda 内核代码驻留在英伟达 GPU 上的啥位置？

】Cuda内核代码驻留在英伟达GPU上的啥位置？【英文标题】：WheredoesCudakernelcoderesideonnvidiaGPU?Cuda内核代码驻留在英伟达GPU上的什么位置？【发布时间】：2011-07-0413:12:04【问题描述】：我已经浏览了Cudaprogrammingguide，但仍然不清楚cud... 查看详情

时代落在英伟达身上的是粒什么沙，国产gpu的机会又在哪？(代码片段)

作者|马超天道好轮回，苍天饶过谁。近日英伟达称，他们被要求停止向中国出口两种用于数据中心的GPUA100和H100，AMD也表示，已经收到新的要求，MI250出口到中国将会受限。A100，MI250等高端型号的GPU最主... 查看详情

时代落在英伟达身上的是粒什么沙，国产gpu的机会又在哪？(代码片段)

英伟达gpu虚拟化---申请英伟达测试license

此文基于全新的License2.0系统，针对vGPULicense的试用申请以及软件下载和License管理进行了详细的说明，方便今后我们申请测试License，快速验证GPU的功能。试用步骤:· EvaluationLicense 申请· ... 查看详情

“卷王”英伟达的真面目

...业奇才。作为最传奇的数字经济股，它的营收远低于英特尔或Meta，但市值却遥遥领先，这显然不是“技术信仰”所能够解释的。用黄仁勋本人的说法，英伟达历史上几次具有里程碑意义的关键技术推出，背后... 查看详情

3080lhr啥意思

...单。2020年7月8日美股收盘后，英伟达首次在市值上实现对英特尔的超越，成为美国市值最高的芯片厂商，这也是2014年后再次有新面孔站上美国芯片企业市值第一的位置。在GTC2020主题演讲中，NVIDIA宣布推出Ampere架构，这是NVIDIA发... 查看详情

ai开发者福音！阿里云推出国内首个基于英伟达ngc的gpu优化容器

...要：3月28日，在2018云栖大会·深圳峰会上，阿里云宣布与英伟达GPU云合作（NGC），开发者可以在云市场下载NVIDIAGPU云镜像和运行NGC容器，来使用阿里云上的NVIDIAGPU计算平台。阿里云推出国内首个基于英伟达NGC的GPU优化容器3月28日... 查看详情

英伟达 Smi JSON 输出

】英伟达SmiJSON输出【英文标题】：NvidiaSmiJSONOutput【发布时间】：2017-08-0319:17:33【问题描述】：我想输入有关机器可用GPU和状态的系统信息以进行实时监控。我正在使用XML输出GPU信息$nvidia-smi-x-q此命令将打印输出当前GPU状态（如... 查看详情

英伟达cuda垄断地位难保：pytorch不断拆塔，openai已在偷家

詹士Alex发自凹非寺量子位|公众号QbitAI英伟达的软件护城河正在逐渐消失。随着PyTorch支持更多GPU厂商，再加上OpenAI的Triton搅局，英伟达手中的利器CUDA 逐渐锋芒不再。上述观点来自SemiAnalysis首席分析师DylanPatel，相关... 查看详情

独家寒武纪二代芯片发布在即，提前揭秘如何挑战英伟达！

...以来，云端的数据中心市场被视为创业公司的禁地，因为英特尔、英伟达、AMD等巨头林立，竞争太过凶残。但近年来，云计算势不可挡，云端芯片市场呈现爆发式增长，不乏勇者前来破局。作为一家发源于中科院计算所、背靠多... 查看详情