欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

RTX40系列、英特尔锐炫、RX7000系列、国产显卡——2022年显卡市场年终盘点

2023-04-05 21:41:03 1527

摘要:我们在之前的文章中就提到过,2022年是GPU和显卡发展的“大年”。在这一年,英伟达和AMD都更新了自己的产品线不说,连英特尔谋划多年的锐炫ARC系列独立显卡也终于登场,正式加入独立显卡市场的竞争。2022年,显卡“御三家”正式成型,竞争也...

我们在之前的文章中就提到过,2022年是GPU和显卡发展的“大年”。在这一年,英伟达和AMD都更新了自己的产品线不说,连英特尔谋划多年的锐炫ARC系列独立显卡也终于登场,正式加入独立显卡市场的竞争。2022年,显卡“御三家”正式成型,竞争也开始以“三体”的形式呈现。除了国际企业,2022年国产显卡正在悄然崛起,也值得我们多一分关注。

英伟达:Hopper和Ada-Lovelace齐上阵

RTX 40再度超越

英伟达在2022年发布了两个架构的新品,分别对应计算市场和图形市场。首先登场的是2022年3月22日发布的全新的Hopper架构和对应的H100系列计算产品。我们先来简要回顾一下Hopper架构和H100的相关信息。

Hopper架构和H100系列继续称王

算力和功能不断变强

Hopper架构的对应产品H100 GPU是英伟达推出的第九代数据中心产品。英伟达展示的数据显示,带有InfiniBand互联总线的H100产品,能够提供相比上代产品A100最多30倍的性能提升。英伟达给出了一些具体的数据:HPC计算方面,H100相比A100在气候建模中性能大约是2~3倍,基因模拟大约是6~7倍,LQCD则大约在1.5~3倍,8K 3D FFT由于对带宽最为敏感因此性能增幅也高达6~7倍。在AI推理方面,MT-NLG 32在不同的参数下的性能增幅大约是15~30倍。在AI训练中,根据不同的训练项目和参数,H100相比A100性能大约在2~9倍,其中带有InfiniBand的版本性能要显著更高一些。

▲英伟达H100的Hopper架构是2022年最重要GPU架构,图为H100 SMX版本。

Hopper架构所对应的GH100 GPU整体规模大幅度扩大,计算能力得到了极大提升。GH100的完整版本,拥有8个GPC,每个GPC拥有9个TPC,每个TPC拥有2个SM单元。总计拥有144个SM单元。1个Hopper架构SM拥有64个INT32单元、128个FP32单元、64个FP64单元和4个第四代Tensore Core。Hopper架构的SM单元中核心计算单元只有INT32单元部分维持了之前的设计,FP32和FP64计算单元的数量都相比前代产品直接翻倍,还启用了最新设计的第四代Tensore Core。此外还包括新增的张量存储加速单元以及256KB数据缓存或共享内存(增大33%)—从计算性能的角度来看,大幅度增加的计算单元,是Hopper架构性能提升的根本原因之一。

▲英伟达H100架构简图

AI计算方面,Hopper架构所拥有的第四代Tensor Core加入了Transformer Engine,在Transformer Engine和FP8数据格式的加速下,英伟达宣称Hopper架构最高可以在人工智能的大型语言模型训练上提供9倍的训练加速和30倍的推理加速。

除了上述功能外,Hopper架构还带来了包括新的DPX指令加速、新增线程块集群和异步改进以及全新的缓存体系结构。H100 GPU现在拥有更大的L2缓存,容量高达50MB,相比前代产品的40MB增加了25%。另外,H100 SXM5 GPU是目前全球首个使用HBM3存储的GPU产品,提供了超过3TB/s的内存带宽。现在,Hopper架构的HBM3、HBM2e以及L2缓存都支持数据压缩和解压缩技术,进一步提高了数据使用的有效性。

▲英伟达公布的H100 GPU的性能提升情况

▲Hopper架构和H100 GPU的特性一览

在互联功能方面,英伟达带来了第四代NVLink和第三代NVSWitch,以及PCIe版本GPU的最新的PCIe 5.0的支持。目前英伟达利用H100和相关互联设计,可以提供更大规模的NVLink网络也就是NVLink Switch System,这个系统目前可以支持最多256个GPU连接,提供57.6TB的总带宽,并且能够支持1 EFLOPS的FP8稀疏AI计算算力。

▲Hopper架构的GPU可以组合而成多款产品,小到计算卡,大到超级计算机。

总的来说,在采用了全新的TSMC 4N工艺之后,英伟达在Hopper架构和对应的H100 GPU上,使用了更多的晶体管,加入了更多新技术,因此带来了更高的性能和更为卓越的使用体验。Hopper架构是一个采用了全新制程后,晶体管规模大幅度扩大带来计算能力提升的架构,Hopper架构相对于Ampere架构来说是进一步地提升和优化,且加强了DSA部分的设计,使得其更适应当前的计算需求,整体来说是非常成功的。

市场方面,由于H100在算力、性能和软件适配、生态发育方面,暂时没有综合性能强有力的竞争对手与之匹敌,因此H100在市场上处于事实上的垄断地位,这也是无可奈何的事情了。

Ada-Lovelace架构和RTX40系列震撼发布

全面超越前代GPU

在发布了面向高性能计算的Hopper架构后,2022年英伟达的重点就转向面向PC图形市场的新品了。终于,英伟达在9月21日的GTC 2022上发布了全新的Ada-Lovelace架构(下简称Ada架构)以及相应的RTX 40系列产品。

▲英伟达Ada-Lovelace架构和RTX 40系列显卡正式发布

回顾Ada架构,可以分为两部分来看:在光栅化部分, Ada架构除了规模更大,架构设计上和之前Ampere架构基本相同,比如SM中的INT32核心和FP32核心目前被设计为多功能核心,因此全部都可以执行FP32指令。有一个例外是L2缓存,AD102总计拥有18432KB L1缓存,相比GA102的10752KB缓存增加了大约70%,巨大的缓存,将为所有GPU相关操作都带来巨大的收益,尤其是光线追踪、路径追踪等复杂的操作收益最为明显。

▲Ada-Lovelace架构图一览

在非光栅化部分,Ada架构在图形方面的改进重点之一是光线追踪。首先,Ada架构中引入了Opacity Micromap(不透明微图单元),可以执行对半透明物体的边缘检查,能在拥有alpha通道的几何图形中提高一倍性能。其次是Displaced Micro-Mesh Engine置换微网络引擎,可以大幅度提升复杂几何模型的BVH处理速度,最多提升10倍构建速度和减少20倍BVH所需构建空间。第三,Ada架构现在可以执行Shader Execution Reordering,也就是一定程度上的执行分歧和数据分歧,能够带来RT核心高达2倍的性能改善。

在张量核心方面,Ada架构和之前Hopeer架构的核心基本相同,特性包括相比Ampere,带来了2倍的FP16、BF16、TF32、INT8、INT4张量性能,加入了FP8 Transformer引擎,带来了最高超过1.3千万亿次的张量处理能力等。视频能力部分,现在Ada架构显存高于12GB的显卡将拥有全新的双NVENC编解码器,最大亮点在于支持AV1格式的硬件编解码,相比之前的CPU编解码整体效率大幅度提升。

在应用方面,DLSS 3是Ada架构的RTX 40系显卡最引以为傲的特点。全新的DLSS 3包含了DLSS 2也就是DLSS超分辨率技术,以及全新加入的DLSS帧生成技术和整合而来的NVIDIA Reflex,其中,新的DLSS帧生成技术结合了新的Ada架构中的高性能光流加速器,能够带来更精确、更为平滑和稳定的运动插帧计算效果。理想状态下,利用DLSS 3可以直接生成游戏第1帧3/4的像素以及整个游戏第2帧,实际上2帧合计的话,GPU算力只需要以前的1/8就可以实现相同的帧率,在画质基本不变甚至更优秀的情况下,大幅度提升了DLSS 3所支持的游戏的帧率。实测显示,DLSS 3对所支持的游戏,能够提供最低50%左右到最高200%~300%的帧率提升,令人震撼。

▲DLSS 3在帧率提升方面效果卓越

在产品方面,英伟达目前发布了三款Ada架构的显卡,分别归属于GeForce RTX 4090系列、RTX 4080系列和RTX 4070系列。这三款显卡全部采用台积电针对英伟达优化的TSMC 4N工艺。其中前者采用大核心AD102、RTX 4080的16GB采用AD103中大型核心,RTX 4070 Ti 12GB采用AD104中等核心。

在这三款新品发布后,对RTX 4090所展示出来的性能和价格,市场反应几乎无任何异议,12999元的定位和绝对领先的性能彰显其卡皇地位。但是RTX 4080 16GB整体性能大约只有RTX 4090的75%左右,售价高达9499元,市场多数声音认为这款显卡定价过高。至于RTX 4070 Ti 12GB,早期被命名为RTX 4080 12GB,但由于其7199元的价格和市场评论过于负面,因此英伟达随后宣布“撤回”这款显卡,并承担所有合作伙伴的材料和包装损失等,最终改为RTX 4070 Ti重新发售,这也是英伟达显卡发展史上为数不多的“撤回”事件。

▲RTX 4080 12GB的匆忙撤回,是今年GPU市场最有趣的事情之一。

除了撤回事件外,由于RTX 4090采用了全新的ATX 3.0的12V接口,用户在使用中可能存在不熟练、插接不牢固等问题,因此在显卡发布后短时间内就造成了多款RTX 4090烧毁事件。后期英伟达通过调查后,认为不是显卡设计原因。此事虽很快告一段落,但显示出新技术在应用中可能还需要更长时间考验,以及存在对消费者的动手能力要求越来越高的问题。

▲RTX 4090夸张的将其散热部分做到了3.5个PCIe插槽那么大,但实际上噪音很低,温度也不高。只是12V电源接口带来的“烧毁”事件着实让人紧张了一把。

总的来看,RTX 40系列显卡的发布,显示英伟达依旧在GPU市场具有极为强悍的技术实力和产品实力,卡皇的宝座依旧牢牢把握在英伟达手中。无论是Ada架构的设计、针对光线追踪的改进、全新的张量核心以及DLSS 3,都显示了英伟达在图形产品上的强势地位。尤其是DLSS 3,开启了以AI计算替代光栅化计算生成图形画面的时代,这是图形计算革命性变化的一次开端,未来如果游戏内的其他物体都可以由DLSS或者类似AI引擎生成的话,将彻底改变GPU图形计算的发展方向,是值得肯定并且进一步期待的。

英特尔锐炫:初生牛犊不怕虎

继续发展看未来

英特尔在GPU和显卡的研发上的路线图是非常清晰的。2021年8月17日,英特尔就宣布了旗下GPU产品的英文和中文名,以及架构代号等信息。经过了长达数年的预热,在2022年的6月底,英特尔正式发布了锐炫系列显卡的入门级型号,ARC A380。随后在10月,又发布了面向中端玩家的A770和A750。至此,英特尔的GPU产品陈列从入门级开始,初步开始建立。

▲英特尔首发锐炫A380独立显卡,定位于入门级市场。

简单来看英特尔锐炫系列显卡所使用的Xe架构。组成英特尔Xe架构的最基本单元是Xe-Core。1个Xe-Core中包含了16个矢量单元和16个矩阵单元(XMX),此外,还包括了存储和加载模块以及相匹配的指令L0、指令L1/SLM,此外还偶有一些特殊计算功能的ALU。Xe-Core的上一层级是Render Slice也就是渲染片。1个渲染片由4个Xe-Core组成,此外还包括4个光线追踪单元、4个纹理采样器、几何和光栅化单前端、2个像素后端(每个可以每个周期计算8个像素)。

▲英特尔Xe架构整体设计还是相当现代化的

市场方面,英特尔使用渲染片和Xe-Core个数来区分GPU档次。在A770、A750这个级别上,英特尔最多设计了8个渲染片,也就是最多32个Xe-Core。其中,A770开启了全部32个Xe-Core,A750只有28个。后期还会发布的A580有16个,已经发布了的A380有8个Xe-Core。

其他功能方面,目前英特尔锐炫GPU拥有全新的Xe媒体引擎,提供了对主流视频模式的编解码能力,最高支持到8K 60Hz 12bit HDR视频解码和8K 10bit HDR视频编码,还特别支持AV1硬件加速的编解码功能,方便视频编辑用户使用。此外,英特尔也提到了DeepLink技术,可以使得英特尔独立显卡和自家的核芯显卡联合在一起,进行游戏画面串流、视频编解码、AI加速处理等工作,也算比较独特了。

在画面处理方面,英特尔也提出了XeSS,其基本功能和英伟达的DLSS类似,都是利用AI来对画面进行放大处理,从而获得更好的游戏帧数。英特尔宣称XeSS可以在画质基本无损的情况下,最多带来2倍性能提升。目前支持的游戏大概已经有接近30款,还在不断增加中。

英特尔在发布了锐炫系列显卡后,市场反应前后不一。6月发布的A380整体测试性能甚至低于GTX 1650,因此只是面向入门级市场,影响力不大。在10月份英特尔相继发布了A770和A750后,引起了不小的市场波澜。整体测试来看,英特尔A770和A750在理论测试比如3DMARK中的成绩都很不错,但是在游戏实际表现中却没有理论测试那么突出,其原因可能是英特尔驱动尚未完善、GPU架构可能未充分发挥性能、GPU架构设计存在瓶颈等。游戏测试来看,锐炫A770的性能相当于RTX 3060略弱,锐炫A750还要更低一些,大概相当于RTX 2060的水平。不过,这两款显卡的价格倒不算贵,最贵的A770也不过3199元,A750更是只有2499多元,在目前的市场环境下,还是有一定的性价比的。

▲英特尔锐炫A770和A750,定位中端市场,价格非常亲民。

总的来说,英特尔时隔多年后首次发布独立显卡,现在所表现出来的性能虽然不可能和英伟达、AMD顶级产品抗衡,但是其可用性、功能性方面比较完善,接下来英特尔要做的就是持续改善驱动水平。实际上,英特尔锐炫在DX12的游戏上,整体表现还是不错的,问题主要是在老的DX10甚至DX9游戏上,英特尔之前宣布放弃DX11以下的游戏优化时招致了市场和媒体的广泛批评,随后英特尔又改口准备持续推进老游戏、应用的优化,并很快发布了新的驱动版本。接下来,英特尔应该还需要大力推进游戏和软件优化,并准备全新的锐炫系列显卡。希望英特尔的加入,能将市场的“二人转”,最终变成“三国杀”。毕竟,让消费者有更多选择,才能形成更好的市场。

AMD:RDNA 3终露峥嵘

光追性能持续提升

AMD在2021年就预告了2022年底RDNA 3架构和对应Radeon RX 7000系列显卡即将到来。2022年11月3日,在等待了大半年时间后,AMD终于拿出了全新的RDNA 3架构,以及首发的Radeon RX 7900XTX和RX 7900XT两款显卡。从AMD的产品定位和价格定位来看,这款新的产品并不是要和英伟达争抢GPU性能之王的宝座,而是在现有的市场情况下,以田忌赛马的态势,为消费者提供更多选择和更高性价比的产品,这是非常实事求是的态度。

▲AMD在2022年底发布了全新一代GPU,带来了很多新特性。

AMD在RDNA 3的架构上做出了大刀阔斧的改进。全新的RDNA 3架构采用全新的统一RDNA 3计算单元(CU)、采用全新的显示引擎模块、采用全新的双媒体引擎模块。

新的CU单元带来了165%的每平方毫米晶体管数量提升。1个新的RDNA 3 CU单元,包含1.5倍于上代产品的通用计算器VGRP单元、64个双指令SIMD单元(Dual Issue SIMD Unit)、2个AI加速单元以及1个第二代RT加速单元。在光线追踪单元方面,新的RDNA 3的第二代光线追踪单元针对比如光线包围盒和遍历性能进行了优化,并且加入了新的指令,这样使得其性能相比之前的第一代光线追踪单元提升了1.5倍。

▲RDNA 3采用了全新的CU设计,带来了更好的性能。

RDNA 3目前拥有被称为Radiance Display Engine(光辉显示引擎)的视频模块,带来了目前业内最新、最先进的DisplayPort 2.1接口的支持,能够支持8K 165Hz显示或者4K 480Hz显示。RDNA 3的新的双媒体引擎,带来了针对AVC和HEVC的硬件编解码能力,支持8K 60Hz AV1编码下的编码和解码,并且能够利用AI功能进行视频增强,同时频率提升了1.8倍,性能更为卓越。

目前RDNA 3只有一款GPU产品,型号是NAVI 31。NAVI 31是AMD也是业内首个Chiplet GPU核心,由GCD计算核心和MCD显存控制器核心两部分组成,其中, GCD采用了TSMC的5nm工艺完成,MCD采用的是TSMC 6nm工艺完成。GCD部分为300平方毫米,MCD部分为222平方毫米,总计约522平方毫米,集成了总计58亿晶体管,最高算力61TFLOPS,形成了我们今天看到的NAVI 31芯片。

▲RDNA 3架构的芯片NAVI 31采用了Chiplet结构,这也是首个Chiplet结构的GPU。

AMD本次发布的产品,也就是Radeon RX 7900 XTX和Radeon RX 7900 XT,前者包含96个CU单元,24GB 384bit GDDR6X显存,游戏频率2.3GHz,支持DP 2.1,支持AV1编解码,TDP功耗为355W。从实际测试来看,这款显卡的性能在光栅化游戏方面综合实力还是略胜RTX 4080的,在光线追踪游戏方面也有了相对于上代产品的巨大改善,当然在光追游戏方面距离RTX 4080还是有明显的差距。这证明AMD在GPU设计方面的重大进步,尤其是光线追踪这样的新技术方面已经逐渐赶上。另一款RX 7900XT的性能则略弱于RTX 4080,可能在光栅化游戏方面和RTX 4070Ti还有一场恶战。

▲RX 7900XTX光栅游戏性能略微领先RTX 4080,价格要便宜不少。

总的来说,AMD 2022年的RDNA 3架构和RX 7900系列GPU,完成了其产品研发和技术实现的预设目标,尤其是这两款显卡定价最高仅为7999元,更是凸显了其性价比,得到了市场的关注和青睐。不过,AMD在部分应用技术方面还存在差距,比如英伟达的DLSS 3如果有更多游戏支持,将形成对AMD的碾压态势,AMD也需要在这方面持续努力。对此,AMD也发布了FSR 3技术,并增加了对插帧技术的支持,但是发布时间将会延后至2023年,具体情况目前还有待观察。

▲RX 7900XT的价格和RX 7900XTX的差距太小,性价比还有提升空间。

国产GPU:2022年开始崭露头角

2022年另一个亮点在于,国产GPU纷纷开始崭露头角。除去专门用于AI计算、云端计算的GPGPU,针对桌面图形市场的国产GPU,在2022年就有多款面世。

2022年首先崭露头角的GPU是摩尔线程。其推出的首款GPU产品MTT S80已经开始在电商上架销售,不过货源很少,很快就售罄或者下架了。从技术角度来看,摩尔线程的GPU采用了自研的MUSA统一系统架构,能够实现对DirectX、Vulkan、OpenGL、OpenGL ES等图形API接口的支持,视频解码支持H.264、H.265(HEVC)和AV1,操作系统支持Windows 10、麒麟、统信、多种Linux发行版等,起步门槛就已经非常不错。

▲摩尔线程首发MTT S80显卡

实际产品来看,摩尔线程MTT S80采用7nm工艺,集成了220亿晶体管,包含了4096个MUSA核心以及128个专用张量核心,配备了256bit 14Gbps 16GB GDDR6显存,整体显存位宽为448GB/s。GPU核心频率为1.8GHz,理论算力为14.4TFLOPS。应用支持方面,除了传统的Windows应用支持外,还有图形图像渲染、视频编解码以及AI训练和推理的支持等。实际测试显示,MTT S80在理论测试比如3DMARK 06中的性能达到了RTX 3060的大约40%,在DX11模式下性能比大约是RTX 3060的1/2~1/3,实际游戏方面,运行主流网游、热门游戏流畅运行已经不在话下,不过DX9的游戏支持较好,DX11和DX12的游戏支持力度就比较差了。

▲摩尔线程MTT S80在发布会上披露的参数

▲摩尔线程的新一代显卡采用的“春晓”架构

无论如何,作为首款真正上架销售的国产GPU,摩尔线程在国产GPU的开发和推广方面算是开了个好头。虽然现在驱动还明显不够完善、虽然整个GPU的规模、架构设计等可能还存在一些差异,但是相信只要有第一款产品上市,随着后期不断迭代,一切顺利的话摩尔线程会不断缩小差距,追上业界主流水平,值得期待。

除了摩尔线程外,国内另一家自研GPU厂商芯动科技也在2022年推出了第二款GPU产品风华二号,加上已经发布的风华一号,芯动科技实现了对GPU产品的“高低配”。从目前的情况来看,芯动科技在多个场合都展示了这两款GPU运行游戏、行业应用和测试软件的相关内容,整体效果和应用体验尚可。目前芯动科技的这两款GPU在产业化方面走的是合作共生的道路,比如和国产CPU搭配进入国产化产品采购名单等,因此暂未有相关GPU上市零售。风华系列GPU目前已经实现了对飞腾、龙芯、申威、海光、兆芯、鲲鹏等国产主流CPU的支持,软件方面不但支持Linux,对Windows的支持和适配也已经有一定的积累,比如在Windows 10下运行日常软件等都没有任何问题,整体产品表现还是相当不错了。

▲芯动科技的风华2号定位入门级市场

2022年5月,景嘉微宣布JM9系列GPU已完成流片和封装,等待后期测试和销售。根据景嘉微的数据,JM920的性能大概相当于GTX 1050,像素填充率为32G Pixels/s,单精度浮点性能为1.5TFlops,功耗为30W。这个参数面向行业用户已经绰绰有余,不过后续景嘉微没有公布太多消息。9月28日,由象帝先计算技术(重庆)有限公司(简称“象帝先”)研发的天钧一号GPU芯片在重庆两江新区正式发布,在GFXBench 5.0的MANHATTAN 3.0测试中,基于盘古架构的天钧一号GPU在测试成绩上已经超越1660Ti、RX590、RX580一众国外GPU产品。

▲景嘉微宣布JM9系列GPU已完成流片和封装

总的来看,2022年的国产GPU开始逐渐走上赛道,进入高速发展期。无论是摩尔线程、芯动科技,还是景嘉微、象帝先等企业,都纷纷走上了合适自己的研发、迭代道路。除了这些面向图形计算的产品外,国产GPU实际上还有更多面向计算市场的GPU,比如百度、阿里、壁仞科技等厂商都在纷纷下场自研相关产品。还是那一句话,市场这么大,足够容纳下更多的玩家进行探索和发展。国产GPU的春天,才刚刚开始。

2022年:技术大进步 市场大混乱

本文回顾了2022年英伟达、英特尔和AMD三家的GPU发展情况,对国产以图形计算为主的GPU的发展进行了简单回顾。从技术角度来看,2022年是一个技术大进步的年份,无论是AMD、英伟达还是英特尔,都发布了自己全新的GPU产品,带来了大量的新技术,尤其是英伟达的RTX 40系列,DLSS 3的优秀画质和惊人帧率提升真的令人眼前一亮,还有针对光线追踪计算的改进、针对AV1等新兴的视频编解码格式的支持等,都显示了英伟达作为一线大厂的技术底蕴。AMD在2022年巧妙地采取了“田忌赛马”的策略,Chiplet的小芯片和RDNA 3优秀的能耗比提升也使得AMD在高端市场占据一席之地。英特尔作为新进入行业的新手,锐炫显卡虽然暂时定位不高,但是随着英特尔不断改进和迭代,未来发展可期。

虽然技术进步显著,但是2022年的市场堪称大混乱。无论是矿卡崩盘带来的市场混乱,还是RTX 30系显卡大量库存导致RTX 40系价格畸高(尤其是RTX 4080),还有包括RTX 4080 12GB的撤回以及多款RTX 30(尤其是128bit的RTX 3060新版)系新卡的推出,都是在这种混乱市场状态下不多见的情形。希望在接下来的2023年,随着RTX30系清货完成以及RTX 40系和RX 7000系中端、低端显卡的发布,整个市场会逐渐回归平稳和正常,毕竟多家行业预测机构都报告2023年将是PC市场销量大跌的一年,GPU也肯定无法独善其身,如果继续维持这样的高价格和混乱情况,那么可能无论是上游还是下游,都不会太好看了。

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!
友情链接
币圈社群欧易官网