来源:芯东西
作者|心缘
编辑|漠影
芯东西8月20日报道,在2021年英特尔架构日上,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri同多位英特尔架构师一起,全面介绍了在CPU、GPU及IPU架构方面的重大改变与创新。
今年以来,英特尔公布了相当多的新计划,包括IDM 2.0战略、全新制程节点方案、独显等等,如今,我们终于能从一系列新品上直观地看见这些新计划方案的组合。
首先,英特尔首个性能混合架构Alder Lake将集成新公布的两款全新x86内核架构——能效核与性能核,并且是基于英特尔新命名技术节点Intel 7的首款产品。它还采用了新的智能英特尔硬件线程调度器来实现两款x86的无缝协同。
面向数据中心,英特尔公布下一代英特尔至强可扩展处理器Sapphire Rapids,这被称作代表了十多年来行业最大的数据中心平台进步。
另外,英特尔也讲解了其备受瞩目的全新独立游戏GPU微架构Xe HPG微架构,基于该微架构、采用台积电N6节点制造的产品Alchemist系列SoC将于明年第一季度上市,这将是英特尔第一款基于台积电N6工艺的GPU。
还有基于Xe HPC微架构的数据中心GPU架构Ponte Vecchio,它具备英特尔迄今为止最高的计算密度,例如A0芯片可提供超过45TFLOPS的FP32吞吐量、超过5TBps的持续内存结构带宽和超过2TBps的连接带宽。
最后,围绕全新基础设施处理器(IPU),英特尔展示了其首款专用ASIC IPU Mount Evans和基于FPGA的IPU参考平台Oak Springs Canyon。
英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri认为,架构是硬件和软件的’炼金术’,今年公布的这些新突破展示了架构将如何满足对于更高计算性能的迫切需求。
发布的显卡新品中,我们看到英特尔基本采用台积电N6和N5工艺技术进行代工生产,这正是今年3月公布的英特尔IDM 2.0战略的直接体现。
英特尔公司企业规划事业部高级副总裁Stuart Pann称,目前英特尔20%的产品是交由外部代工厂生产,英特尔是台积电的顶级客户之一。目前,为英特尔独立显卡产品采用代工厂的制程节点,是恰当之选。
他透露说,未来几年,外部代工生产的芯片单元会在英特尔的模块化产品中扮演更重要的角色,包括采用先进制程节点的核心计算功能,以支持客户端、数据中心和其他领域的新兴工作负载。
01.
两款全新x86内核
性能核AI加速提升约8倍
英特尔首先介绍了能效核和性能核,顾名思义,前者主打高能效,后者主打高性能。
1、能效核:能耗不到Skylake的40%
能效核曾用代号“Gracemont”,是一个高度可扩展的x86微架构,旨在提高吞吐量效率并提供可扩展多线程性能,能满足客户从低功耗移动应用到多核微服务的全方位计算需求。
借助多种技术进步,能效核可以在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能。
与英特尔迄今最多产的CPU微架构Skylake相比,在提供同样单线程性能时,能效核的功耗不到Skylake的40%。与运行4个线程的两个Skylake内核相比,4个能效核在吞吐量性能提升80%的同时,功耗更低。
2、性能核:英特尔迄今性能最高的CPU内核
性能核曾用代号“Golden Cove”,是英特尔迄今性能最高的CPU内核,并且在CPU架构性能方面实现阶梯式提升,展现出更高的并行性和执行并行性,还减少时延,帮助支持大数据集和大型代码体积的应用程序。
它拥有更宽、更深、更智能的架构:解码器由4个增至6个,6μop缓存增至8μop,分配由5路增至6路,执行端口由10个增至12个;物理寄存器文件更大,拥有512条目的重排序缓冲区;提高了分支预测准确度,降低了有效的一级时延,优化了二级的全写入预测带宽。
与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。此外,性能核搭载了新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,可将AI加速提升约8倍,用于学习推理和训练。这是为软件易用性而设计,利用了x86编程模型。
02.
硬件线程调度器:让两款x86核无缝协作
为了确保性能核、能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,即英特尔硬件线程调度器。
它具有动态性和自适应性,会根据实时的计算需求,动态、智能地调整调度决策,从而优化系统以在真实场景中实现更高的性能和效率。
硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上,并且更精细地监控指令组合、每内核当前状态以及相关的微架构遥测,从而帮助操作系统做出更智能的调度决策。
此外,硬件线程调度器通过与微软合作,优化自身在Windows 11上的极佳性能;并扩展PowerThrottling API,使开发人员能为其线程明确指定服务质量属性;还应用了全新EcoQoS分类,该分类可让调度程序获悉线程是否更倾向于能效(此类线程会被调度到能效核)。
03.
首个混合架构Alder Lake:采用Intel 7制程,支持从笔记本到台式机
英特尔SoC客户端架构Alder Lake重构了多核架构,基于Intel 7制程工艺打造,是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。
它采用了单一、高度可扩展的SoC架构,首次集成了能效核和性能核,支持最新内存和最快I/O,功率范围从9W到125W,适用于从超便携式笔记本到发烧级、商用台式机的所有客户端设备,基于Alder Lake的产品将在今年开始出货。
Alder Lake提供三类产品设计形态:
(1)高性能、双芯片、插座式的台式机处理器,具有领先性能和能效,拥有8个性能核、8个能效核,支持高规格的内存和I/O。
(2)高性能笔记本处理器,拥有6个性能核、8个能效核,采用BGA封装,加入图像单元,采用更大的Xe显卡和Thunderbolt 4连接。
(3)轻薄、低功耗的笔记本处理器,拥有2个性能核、8个效能核,采用高密度的封装,配置优化的I/O和电能传输。
要构建如此高度可扩展架构,需在不影响功率的情况下满足计算和I/O代理对带宽的需求。
英特尔也展示了台式机处理器的I/O信息,总共有最多8个性能核、8个效能核、24个线程和30MB non-inclusive LL缓存。
英特尔设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式:
(1)计算内部总线可支持高达1000GBps,即每个内核或每集群100GBps,通过最后一级缓存将内核和显卡连接到内存:具有高动态频率范围,并且能够动态选择数据路径,根据实际总线结构负载而进行时延和带宽优化;根据利用率动态调整最后一级缓存策略,也就是“包含”或“不包含”。
(2)I/O内部总线支持可高达64GBps,连接不同类型的I/O和内部设备,能在不干扰设备正常运行的情况下无缝改变速度,选择内部总线速度来匹配所需的数据传输量。
(3)内存结构可提供高达204GBps的数据,并动态扩展其总线宽度和速度,以支持高带宽、低时延或低功耗的多个操作点。
04.
基于Intel 7节点,性能封顶的数据中心SoC
Sapphire Rapids处理器基于Intel 7制程工艺技术,采用英特尔性能核与全新加速器引擎,被称作树立了下一代数据中心处理器的标准。
其核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术和先进网格架构,具有显著的可扩展性,同时保持单晶片CPU接口优势。
该处理器提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽。
Sapphire Rapids提供多种数据中心相关加速器,包括新的指令集架构和集成IP:
(1)英特尔加速器接口架构指令集(AIA):支持对加速器和设备的有效调度、同步和信号传递。
(2)英特尔高级矩阵扩展(AMX):可为深度学习算法核心的Tensor处理提供大幅加速。其可以在每个周期内进行2000次 INT8运算和1000次 BFP16运算,大幅提升计算能力。
使用早期的Sapphire Rapids芯片,与使用英特尔AVX-512 VNNI指令的相同微基准测试版本相比,使用新的英特尔AMX指令集扩展优化的内部矩阵乘法微基准测试的运行速度提高了7倍以上,显著提升AI工作负载中的训练和推理性能。
(3)英特尔数据流加速器(DSA):旨在卸载最常见的数据移动任务,改进了对这些开销任务的处理,以提供更高的整体工作负载性能,并可以在CPU、内存和缓存以及所有附加的内存、存储和网络设备之间移动数据。
这些架构上的改进使Sapphire Rapids能为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式提供开箱即用的性能。
05.
独立游戏显卡微架构Xe HPG与其首款SoC
Xe HPG是一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧友级别的性能。
基于Xe HPG架构的英特尔客户端显卡路线图包括Alchemist(此前称之为DG2)、Battlemage、Celestial和Druid系列SoC。
Alchemist系列SoC基于Xe HPG微架构,采用台积电N6工艺,首批产品将于2022年第一季度上市,并采用新品牌名英特尔锐炫(Intel Arc)。
这款消费级GPU预计将与采用台积电N7工艺的AMD Navi 2x显卡和采用三星8LPP工艺的英伟达Ampere GA10x显卡进行较量。
基于Xe HPG微架构的Alchemist SoC通过架构、逻辑设计、电路设计、制程工艺技术和软件优化,相比Xe LP微架构实现1.5倍的频率提升和1.5倍的每瓦性能提升。
此外,Alchemist SoC还拥有多达8个具有固定功能的渲染切片,专为DirectX 12 Ultimate设计;并支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光线追踪单元。
聚焦到微架构Xe HPG,它采用全新Xe内核,聚焦计算、可编程、可扩展,全面支持DirectX 12 Ultimate。
Xe内核中的矩阵引擎(Xe Matrix eXtensions,XMX)能够加速AI工作负载,比如XeSS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。
XeSS能让那些原本只能在低画质设置或低分辨率下玩的游戏,也能在更高画质设置和分辨率下顺利运行。该技术利用XMX AI加速,用深度学习来合成非常接近原生高分辨率渲染质量的图像,可提供高性能和高画质,同时性能提升高达2倍。
XeSS凭借DP4a指令,在包括集成显卡在内的各种硬件上提供基于AI的超级采样。多家早期的游戏开发商已开始使用XeSS,本月将向独立软件供应商(ISV)提供XMX初始版本的SDK,DP4a版本将于今年晚些时候推出。
英特尔显卡设计的核心是软件优先。英特尔正与开发人员密切合作进行Xe微架构的设计,力求与行业标准保持一致;通过在一个统一的代码库中涵盖集成和独立显卡产品的驱动设计,英特尔的第一款高性能游戏显卡将性能和质量放在首位。
英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,从而将计算密集型游戏的吞吐量提高了15%(至多80%),游戏加载时间缩短了25%。
06.
1000亿晶体管!
英特尔最复杂SoC与XeHPC
Ponte Vecchio是英特尔迄今最复杂的SoC,包含1000亿个晶体管,提供领先的浮点运算和计算密度,以加速AI、HPC和高级分析工作负载。
这款SoC也是其践行IDM 2.0战略的绝佳示例,它基于Xe HPC微架构,采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros 3D封装技术。
Ponte Vecchio已走下生产线进行上电验证,并已开始向客户提供限量样品。Ponte Vecchio预计将于2022年面向HPC和AI市场发布。
Xe HPC微架构的IP模块信息被公布,包括每个Xe核的8个矢量和矩阵引擎(XMX)、切片和堆栈信息,以及包括计算、基础和Xe Link单元的处理节点的单元信息。
英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。
其A0芯片已经实现了超过高于45TFLOPS(每秒45万亿次浮点运算)的FP32吞吐量,超过5TBps的持续内存结构带宽及超过2TBps的连接带宽。
同时,英特尔分享了一段演示视频,展示了ResNet推理性能超过每秒43000张图像和超过每秒3400张图像的ResNet训练,这两项性能都有望实现行业领先。
从具体设计来看,Ponte Vecchio由多个复杂的单元设计组成,然后通过EMIB单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于Foveros封装中,为提高功率和互连密度形成有源芯片的3D堆叠。高速MDFI互连允许1到2个堆栈的扩展。
其中,计算单元是一个密集的多个Xe内核,是Ponte Vecchio的核心。该单元基于台积电先进的N5制程工艺技术,一块单元有8个Xe内核,总共有4MB一级缓存,是提供高效计算的关键。
该单元具有极其紧凑的36微米凸点间距,可与Foveros进行3D堆叠。英特尔已通过设计基础设施设置和工具流程以及方法,为测试和验证该节点的单元铺平了道路。
基础单元是Ponte Vecchio的连接组织,基于Intel 7制程工艺,针对Foveros技术进行了优化。
它是所有复杂的I/O和高带宽组件与SoC基础设施——PCIe Gen5、HBM2e内存、连接不同单元MDFI链路和EMIB桥接。该单元采用高2D互连的超高带宽3D连接时延很低,使其成为一台无限连接的机器。英特尔技术开发团队致力于满足带宽、凸点间距和信号完整性方面的要求。
Xe链路单元采用台积电N7工艺,提供了GPU之间的连接,支持每单元8个Xe链路,这对HPC和AI计算的扩展至关重要,旨在实现支持高达90G的更高速SerDes,该单元已被添加到Aurora百亿亿次级超级计算机的扩展解决方案中。
如Xe架构一样,Ponte Vecchio将由英特尔统一软件堆栈oneAPI支持。
07.
首款专用ASIC IPU和IPU参考平台
在传统服务器架构中,一切任务都可以直接跑在CPU上。而在云端服务器架构中,如果所有计算任务都由CPU来执行,那它就有些力不从心了。
一种可编程的网络设备正为云和通信服务提供商减少在CPU方面的开销,使其充分释放性能价值,这个设备被称为基础设施处理器(IPU)。
具体而言,英特尔基于IPU架构有三大优势:一是基础设施功能和客户工作负载的强分离,使客户能够完全控制CPU;二是云运营商可将基础设施任务卸载到IPU上,更大化实现CPU利用率和收益;三是IPU可以管理存储流量,减少时延,同时通过无磁盘服务器架构有效利用存储容量。借助IPU,客户可通过一个安全、可编程、稳定的解决方案更好地利用资源,平衡处理与存储。
应对多样化数据中心的复杂性,英特尔推出了以下IPU家族的新成员:英特尔首款专用ASIC IPU Mount Evans,以及全新的基于FPGA的IPU参考平台Oak Springs Canyon。
Mount Evans是英特尔与一家一流云服务提供商共同设计和开发的,它融合了英特尔多代FPGA SmartNIC的经验,超大规模就绪,提供高性能网络和存储虚拟化卸载,同时保持高度控制。
该IPU提供了业界一流的可编程数据包处理引擎,支持防火墙和虚拟路由等用例。它还使用扩展自英特尔傲腾技术、硬件加速的NVMe存储接口,并采用英特尔高性能Quick Assist技术,部署高级加密和压缩加速。
在软件方面,Mount Evans可使用现有普遍部署的DPDK、SPDK等软件环境进行编程,并能采用英特尔Barefoot Switch部门开创的P4编程语言来配置管线。
Oak Springs Canyon是一个IPU参考平台,基于英特尔至强D处理器和英特尔Agilex FPGA构建:
(1)卸载Open Virtual Switch(OVS)等网络虚拟化功能以及NVMe over Fabric和RoCE v2等存储功能,并提供硬化的加密模块,提供更安全、高速的2x 100Gb以太网网络接口。
(2)让合作伙伴和客户能用英特尔开放式FPGA开发堆栈(英特尔OFS)定制其解决方案,这是一款可扩展、开源软件和硬件基础设施。
(3)使用现有普遍部署的软件环境进行编程,包括已在x86上优化的DPDK和SPDK。
英特尔N6000加速开发平台Arrow Creek是专为搭载至强服务器设计的SmartNIC。
它内置英特尔Agilex FPGA和用于高性能100GB网络加速的英特尔以太网800系列控制器,支持多种基础设施工作负载,使通信服务提供商(CoSP)能够提供灵活的加速工作负载,如Juniper Contrail、OVS和SRv6。
08.
oneAPI工具包:超过20万次单独安装
英特尔oneAPI是一个开放、规范、跨架构和跨厂商的统一软件栈,提供了跨架构的兼容性,让开发者能够摆脱专有语言和编程模型的束缚。
目前,NVIDIA GPU、AMD GPU、Arm CPU均有Data Parallel C++(DPC++)和oneAPI库。
oneAPI正在被独立软件提供商、操作系统供应商、终端用户和学术界广泛采用。行业领导者正在协助发展该规范,以支持更多的用例和架构。
同时,英特尔还提供了商业产品,包括基本的oneAPI基础工具包,它在规范语言和库之外增加了编译器、分析器、调试器和移植工具。
英特尔oneAPI工具包拥有超过20万次单独安装,市场上部署的300多个应用程序采用了oneAPI统一编程模型,超过80个HPC和AI应用程序使用英特尔oneAPI工具包在Xe HPC微架构上运行。
另外,oneAPI工具包5月发布的1.1版临时规范为深度学习工作负载和高级光线追踪库添加了新的图形接口,预计将在年底完成。
09.
结语:以架构创新应对千倍算力挑战
总体来看,英特尔在此次架构日活动中推出两大x86 CPU内核、两款独立GPU、两大数据中心SoC、IPU新品和首款客户端多核性能混合架构,并展示了AMX、XeSS、硬件线程调度器等多项融入产品特性的技术创新。
这些创新的架构与平台,均是为了更好地迎接越来越庞大的计算需求所带来的挑战。英特尔预计,到2025年算力需求将是1000倍级的提升,而四年内增加1000倍相当于摩尔定律的5次方。