RTX 30 时代开启,聊聊“刀法”、看看未来
9 月 2 日,英伟达在线上举办了 GPU Technology Conference 2020,英伟达 CEO 黄仁勋先生发表主旨演讲,正式公布了 RTX 30 系列显卡,一系列激动人心、划时代的软硬件技术和产品亮相。本文将站在个人的视角,谈一谈对显卡性能判断的理解,推及对近年英伟达显卡系列的看法,以及由此引发的、关于英伟达部分产品线未来发展的思考,希望能够抛砖引玉。
我们怎么分析显卡性能
在聚焦到特定显卡系列前,笔者首先想分享的是一些分析显卡性能的方法论。
当我们在选购一台计算机的时候,第一眼就能看到商品名里后缀的一些关键参数,比如这台机器用什么型号的 CPU、内存多少等等,然后大家可能会再去看一看这个 CPU 的核心数、频率是多少;其实这一思路对于看显卡来说同样适用,因为显卡可以被看作一台独立的计算机,它“寄生”于“宿主”计算机体内,协助“宿主”完成计算任务。所以,大致估计一块显卡的性能就和估计一台计算机的性能差不多,首先也是看它的核心、内存。
显卡的核心和计算机的 CPU 类似,都可以从“频率”和“核心数”中看出个大概的高下:“频率”代表每个核心每秒能执行的 GPU 指令条数,GPU 的频率越高,一个核心运行同一段计算指令需要的时间就越少;“核心数”代表有多少个不同的核心能一起协作完成这段计算,在计算任务能被均匀分工的情况下,核心数越多,计算所需时间越少。
显卡的核心与计算机的 CPU 不同的是,显卡面对的计算任务相对 CPU 来说较为简单,显卡负责的这部分计算任务往往重复性很高,比如游戏中常用的矩阵运算,这就可以被很平均地分配个多个核心单独计算、最后把答案汇总,所以显卡普遍采用了单个核心构造比 CPU 的简单、核心数很多的设计。
事实上,显卡核心不仅频率比 CPU 慢很多,指令执行效率也有差距:显卡内建的指令比较简单,这也就意味着相同的任务可能需要比 CPU 更多的指令来完成,譬如说,要对缓存中某个数据做修改,显卡上需要多条指令才能完成,在计算机 CPU 上可能一条指令就好了。不过,失之东隅、收之桑榆,显卡在核心数上已经高出 CPU 两个数量级了,计算机 CPU 就好比一台跑车,可以把人飞速地从 A 地运到 B 地,而如果有几十个人都需要从 A 到 B,比起用跑车一趟一趟地运,开个大巴可能更优,慢是慢了点,但一趟就能拉上所有人。
另一个影响 GPU 性能的重大参数就是显存大小了。显存和计算机内存作用类似,用来暂存数据、供核心计算使用。不过,显卡上并没有自己的硬盘,显存里的数据也不是从硬盘直接读取来的,而是由计算机的内存通过 PCIe 总线发送过来的;游戏中,越是复杂的场景、越高的分辨率,所需要的显存就越多,这时候如果显存越大,显卡能暂存的数据就越多,对从计算机内存传输数据的需求也就越少。
看完了通用的技术总结,再回到本文的核心主角——英伟达 10-30 系列显卡,结论就相对简单了。近年来,显卡和核心设计并没有太大变化,英伟达的 CUDA 核心频率从在 10-30 的发展期间就一直维持在约 1.4-1.7GHz 的水准,同时,显卡的计算任务也一直能比较好地被多核心并行计算,所以我们基本不会太关注显卡的频率,主要从显卡的核心数、显存大小就能大致推断显卡的性能水准。
老黄的“刀法”和命名哲学
英伟达新一代显卡的性能一定程度上是可以预测的,近年的新一代一般会出现“越级打怪”的情况,不知是否是有意而为之。简单来说,新一代的“60”会接近上一代的“70”,新一代的“70”会接近于上一代的“80”,在参数上略逊一筹(毕竟你少付了钱),但得益于新的架构和更高速的显存,整体测试性能上会略胜一筹。
坊间常用“老黄刀法”来调侃英伟达黄老板这种精准切出产品细分定位的“神功”,有多少预算、想要什么样的产品,都能在一揽子英伟达显卡里找到心仪的标的,“参数上少一点、性能上多一点”,刀法精准、耐人寻味,给人一种加量不加价的实诚感觉。
回顾 10-30 系列的整个发布历程,可以让我们更透彻地理解如此商法,也对即将到来的 30 系列有更明晰的认知:
GTX 10 系列:树立精准的市场定位
2016 年英伟达显卡进入了“10XX”四位数编号的新时代,在公布 GeForce 10 系列显卡时率先发布了 1060、1070 和 1080 三款,首发公版(Founder Edition)定价分别为 300、450 和 700 美元,这三款产品覆盖了主流玩家对显卡性能的需求,也设置了相对合理的价格梯度。
随后的一年里,英伟达发布了 1070 Ti 和 1080 Ti 作为升级版。1070 Ti 的 CUDA 核心从 1920 增加到了 2432,直逼 1080 的 2560;1080 Ti 更是以 3584 的 CUDA 核心数几乎打平了 Titan X(1200 美元),老黄只是在显存上略砍 1GB 以示尊敬。1080 Ti 就这么以 700 美元的售价成为了当年的良心旗舰卡。一个趣闻是,笔者在 2016 年 8 月以两百多美元入手了全新非公版 6G 的 1060,后来在 2018 年初,因为比特币挖矿大热导致显卡价格暴涨,笔者二手卖掉这张显卡时一算,比买入时还多赚了 20 美元。
RTX 20 系列:打破了前一代的命名规则
2018 年 20 系列显卡发布时,虽然挖比特币的热度有所消退,但显卡市场的火热仍在持续,英伟达也趁机抬高了进入显卡加速光线追踪的“门槛要价”。
最初,RTX 2060 并没有首发登场,如果想要第一批体验上 RTX 的光线追踪,至少要花上 500 美元购买 RTX 2070;同一批次发布的还有 RTX 2080、RTX 2080Ti,后者售价 1200 美元,高出前者足足 400 美元。以前,“Ti”后缀一般指向原产品线的小幅升级,例如 GTX 1070 Ti 和 GTX 1080 Ti,比起前一年的 GTX 1070 和 GTX 1080 都是“加量不加价”;虽然 GTX 1050 时出现过 Ti 版、非 Ti 版同时登场的极个别例外,但是其定价上也几乎没有差异。
可能是前一代 GTX 1080 Ti 实在太火,老黄想借着“Ti”的名声来“诈骗”一波,但究其根本,RTX 2080 Ti 的定位已经不再是简单升级,而是一款可以完全替原来“Titan”系列地位的旗舰产品。可能老黄也意识到了,“Ti”的代言意味已经变了味,于是从次年起,小幅升级的显卡均以“Super”来命名了。
RTX 30 系列:诚意十足的升级
今年的 30 系显卡中,老黄在旗舰卡 RTX 3090 上加足了料,CUDA 核心数首次突破了 10000,24GB 的显存与上一代的 Titan 卡一致,与 RTX 3080 的 10G 显存拉开了极远的距离。个人的猜测是,老黄可能觉得如此大的差距要是命名为 3080 Ti 会有失水准、掩盖其真实的能力水准,而Titan 的名字又要为之后显存更大的卡留着,于是乎搬出了尘封的“90”来命名。要知道,上一个拥有“90”称号的显卡还是著名的“690战术核显卡”——GTX 690。本次发布的另外两款显卡 RTX 3080 和 RTX 3070 也是诚意十足,其中 3070 在参数上力压 2080,同样是 8GB 内存,CUDA 核心数是 2080 的两倍多、超过了 2080 Ti。
虽然现在还没有跑分结果,但是根据现有的数据分析,考虑到核心数、显存技术的“大跃进”,这两款显卡仍将符合以往“越级打怪”的规律,并且会以更大的优势超越上一代高一档的显卡,RTX 3070 完全可能“越两级”干掉 RTX 2080 Ti。
30 系列引发的一些思考
本次的新品发布开启了 RTX 的新时代,也带起了笔者对英伟达部分技术栈、产品线的一些思考,包含了个人多年使用英伟达显卡产品的部分感想,仅供各位读者参考:
NVLink 的门槛逐年提高
NVLink 是英伟达推出的一种高性能运算解决方案,用于 CPU 和 GPU 之间、不同 GPU 之间的点对点数据传输,实现多路交火。这里我们还是把显卡比作一台计算机,那么 NVLink(包括更早的 NVIDIA SLI 技术)就是打通这些计算机的高度通信网络,实现了计算任务分配至多卡协作完成的功能。随着 NVLink 的升级,通信的带宽越来越大,显卡之间合作运算的方式也是越来越灵活,但英伟达为使用 NVLink 设置的门槛也是越来越高,从 1070 到 2080 再到今年的 3090。
其实对于大多数家庭用户来说,多路显卡并非必需品,至少在玩游戏这个需求下,单卡的性价比和兼容性仍是最好的。不过对工作站和实验室而言,NVLink 将是一个达到更多计算核心、更大显存的好途径。或许在未来,NVLink 才是真正能将家用游戏显卡和工作实验室卡区分开来的标准。
Titan 何去何从
Titan 原本主要针对工作站电脑,但在游戏画面标准从 1080P 过渡到 4K 的过程中,它事实上也占住了相当一部分家用电脑的市场;与之相比,Titan RTX 则是以24GB 的超大显存以及 2500 美元的超高定价,几乎完全跳脱出了家用旗舰显卡的定位,真正成为了属于工作站和实验室的配置。今年 RTX 30 系列的 Titan 显卡还没有发布,但是 RTX 3090 的性能和定价已经抵达了曾只属于 Titan 的位置。
个人的猜测是:老黄也许会在今年内推出新一代的 Titan 卡,它也许会拥有 48GB 的显存,定价可能还是会在 2500-3000 美元左右;当然了,Titan 这个产品线也有可能就这么被砍掉,毕竟 RTX 3090 已经是名副其实的 Titan 了,而且如果真就为了 48GB 显存和更多 CUDA 核心,用 NVLink 串两颗 3090 就成了,这样做的成本也才 3000 美元而已;这么一算的话,Titan 的生存空间就愈发狭窄了,再加上 Titan 现在已经完全不走家用条线的定价模式,或许老黄也该把它踢出游戏卡定位的 GeForce、归到专业卡的行列中去了。
光线追踪的逐渐流行
其实,对于当初 RTX 20 系列增加光线追踪功能,笔者是有些意外的。事实上,想让光影效果更为惊人、画面更显逼真,RTX 这样的硬件光线追踪只是众多技术流派中的一种,不靠特殊硬件、就从软件层面进行模拟也是完全可行的;光线追踪模块的加入颇有一些为用户创造需求的意味,好比苹果公司作为行业龙头带头整活、取消 3.5mm 耳机接口,为手机用户造出了使用无线耳机的需求,这不是“自然规律”,而是一次成功的“人工干预”。
同样的道理套过来看,基于特殊硬件模块和 AI 算法的 RTX 光线追踪确实能让游戏画面更加真实,但用户会那么简单就多掏钱支持英伟达树立新标准吗?
所以,站在英伟达的角度,想让远非必需品的 RTX 光线追踪发展成行业生态标准,不仅自己要发力,还需要和游戏开发商强强联合,让开发团队不断产出内容适配 RTX。如此一来,在 RTX 显卡上拥有“独占特效”的游戏,在增加了自身卖点的同时,也可能带动 RTX 显卡的销量,让英伟达和开发商各取所需、实现双赢,这与“主机独占游戏”的商法有异曲同工之妙。
RTX 20 刚刚发布的时候,市面上还只有寥寥几款原生支持 RTX 光线追踪的游戏,用户还有可能会为了更优的帧数、画质而主动选择“RTX OFF”;英伟达自己对刚上市的 RTX 可能也比较心虚,为防用户不买账,同时还推出了不带光线追踪的 16 系列显卡。
为给 RTX“首发护航”,英伟达当时推出过买 RTX 送《战地 5(Battlefield V)》的优惠,希望有更多用户能高保真地接触到自家全新的光线追踪技术,传递良好的第一印象,着手建立起对 RTX 的依赖;转眼到了 RTX 风头愈发强劲的今年,随着英伟达和更多大牌游戏厂商达成合作,大量支持 RTX 光线追踪、不同种类的游戏纷至沓来,英伟达主导的这一光线追踪生态已更趋成型,相信 RTX 30 系列的到来能把生态基础夯得更实在。
结语
最后,我想总结到的是,RTX 20 系列作为英伟达试水硬件光线追踪的第一代产品,其探索的意味更重,本次诚意发布的 RTX 30 系列显然成熟得多,升级幅度相当可观,极富诚意的新一代光线追踪核心、整体性能提升将会为用户带来更好的体验。
英伟达此番大踏步的前进,想必也与宿命的对手之一——AMD 带来的竞争压力密不可分,AMD 今年还没有出手,其将在年底带来拥有全新架构的新显卡。虽然高端市场被英伟达占据,但 AMD 还是凭价格优势、不错的能耗管理,占领了可观的中端市场份额。
上一个“挤牙膏”的工厂,一不留神就被 AMD 逆转、按在地上摩擦了,英伟达此次率先发难,又拉开了一段预防反杀的安全距离,但“红绿”势力的此消彼长还会继续,而这样的良性拉锯也还会继续给用户带来红利,就让我们接着看热闹吧。
(文中图片来自网络,图表为自制)