123,123

超算“猛將”英偉達：AI超算的未來已來？

2020-11-19 11:40

在談英偉達的大戰(zhàn)略之前，明確兩個重要事件：

英偉達NVIDIA在2019年3月公開以69億美元現(xiàn)金收購Mellanox，該項交易最終在2020年4月塵埃落定。

英偉達NVIDIA在2020年9月宣布以400億美元現(xiàn)金加股票的方式，對軟銀旗下芯片設計公司、全球重要芯片架構提供商Arm進行收購。

這兩件事情的成功，為英偉達在芯片領域的發(fā)展帶來了更深入、更廣泛的發(fā)展前景，以及更為利好的影響。從資本市場的表現(xiàn)就可見一斑，按周一美東時間11月16日16：00收盤時的價格計算，英偉達的總市值為3335．56億美元，幾乎快超過某友商市值的兩倍。友商名字不方便公布，大家可以猜猜看。

前些天業(yè)內朋友感嘆，這一年，過得太快了。其實，我更想感嘆，英偉達的市值飆升得太快了。

但這市值增長的背后，卻暗藏著英偉達的更大圖謀：超算大戰(zhàn)略。

根據(jù)最新的TOP500榜單排名顯示，英偉達全面領先，無論是針對超算領域的計算、網(wǎng)絡還是HPC。

事實上，NVIDIA GPU和網(wǎng)絡正在越來越多地用于加速世界上最快的超級計算機。

一是，基于NVIDIA技術構建的超算系統(tǒng)占比絕對領先，包括8個TOP10超算系統(tǒng)在內，近70％進入TOP500榜單的超算系統(tǒng)都基于NVIDIA技術構建。

二是，NVIDIA Selene超級計算機（HPC）在全球超級計算機速度排行中位列第五。該超級計算機基于NVIDIA DGX A100 640GB系統(tǒng)和NVIDIA Mellanox InfiniBand網(wǎng)絡構建。

三是，在衡量系統(tǒng)能源效率的Green500榜單中，NVIDIA DGX SuperPOD系統(tǒng)位居榜首，得到業(yè)界一致肯定。

從SC20（Supercomputing Conference）超算大會公布的最新TOP500榜單可以看出，英偉達的超算大戰(zhàn)略勢在必得，將在強化現(xiàn)有技術能力部署的前提下，明確了下一步戰(zhàn)略的“三駕馬車”：GPU更強、HPC更快、網(wǎng)絡更優(yōu)。面向超算領域，英偉達的戰(zhàn)略很明確，一點兒都不用含糊，更強更快更優(yōu)，也將會是其長期屹立超算領域的制勝法寶。

更強：GPU一路高歌猛進

在超算行業(yè)，強中自有強中手。作為超算領域最佳加持者，英偉達在GPU這條發(fā)展路上，可謂一路高歌猛進。

AI算力的強大，再一次彰顯了英偉達整體超算戰(zhàn)略的英明。似乎，這也是英偉達命中注定的好趨勢，誰叫AI行業(yè)化，行業(yè)AI化的智能化時代來得如此之快呢。

針對數(shù)據(jù)中心GPU需求來看，英偉達以A100、A40、V100、T4、RTX 6000、RTX 8000多款業(yè)界知名的產品系列既已覆蓋。

然而術業(yè)有專攻。針對大流量數(shù)據(jù)工作負載方面，AI算力的需求特別突出，但是隨著NVIDIA A100 80GB GPU的出現(xiàn)，非常有助于各種訓練、推理和超級計算應用等方面的發(fā)展，在速度和性能上得以前所未有的滿足。

作為英偉達創(chuàng)始人、現(xiàn)任CEO黃仁勛親手推出的GPU力作，A100第一代產品是在幾個月前的英偉達GTC 2020大會上首次亮相的。

因為是基于英偉達安培（Ampere）架構的首款圖形處理器，所以備受業(yè)界關注。當時A100引入了有著里程碑式意義的Tensor Cores雙精度計算技術。要知道以前在NVIDIA V100 Tensor Core GPU上需要10個小時的雙精度模擬作業(yè)，在A100上4小時即可完成。

NVIDIA A100 Tensor Core GPU針對AI、數(shù)據(jù)分析和高性能計算（HPC）等應用上，實現(xiàn)了更強的加速，針對極其嚴峻的計算挑戰(zhàn)上有了更大作為。A100高效擴展性也很突出，數(shù)千個A100 GPU在同一個系統(tǒng)中成功實現(xiàn)集成，也可以利用NVIDIA多實例 GPU （MIG）技術將每個A100 劃分割為七個獨立的GPU實例，獲得對各種規(guī)模工作負載的加速。

需要注意的是，這里針對HPC性能的對比中，僅限于NVIDIA V100 GPU第一代產品。

A100的出現(xiàn)，對數(shù)據(jù)中心大規(guī)模的計算帶來了更強的優(yōu)化效果，不僅統(tǒng)一了人工智能訓練和推理，同時將靈活、彈性加速的實現(xiàn)可能性向前又推進一步。

作為A100 GPU系列中的最新力作，A100 80GB GPU在繼承了第一代A100 GPU的優(yōu)勢基礎上，內存比第一代A100 GPU提升一倍，也支持NVIDIA HGX AI超級計算平臺。

大內存容量和高帶寬，對于AI與HPC實際應用的好處有目共睹，畢竟在這個領域中一切都要以速度決勝負。全新A100采用HBM2e技術，可將A100 40GB GPU的高帶寬內存增加一倍至80GB，提供每秒超過2TB的內存帶寬。這使得數(shù)據(jù)可以快速傳輸?shù)饺蜃羁斓臄?shù)據(jù)中心GPU A100上，使研究人員能夠更快地加速其應用，處理最大規(guī)模的模型和數(shù)據(jù)集。

由此，我們可以很容易看到全新一代的增強A100 80GB GPU在HPC領域的表現(xiàn)更為突出，相比最早一代2016年代表之作P100 GPU，A100 80GB GPU實現(xiàn)了HPC應用性能的11倍提升。

不僅如此，在深度學習、數(shù)據(jù)分析、能效方面都獲得了前所未有的優(yōu)化。

對于如RNN－T等自動語言識別模型的AI推理，單個A100 80GB MIG實例可處理更大規(guī)模的批量數(shù)據(jù)，將生產中的推理吞吐量提高1．25倍。

在TB級零售大數(shù)據(jù)分析基準上，A100 80GB將其性能提高了2倍，使其成為可對最大規(guī)模數(shù)據(jù)集進行快速分析的理想平臺。隨著數(shù)據(jù)的動態(tài)更新，企業(yè)可以實時做出關鍵決策。

對于科學應用，A100 80GB可為天氣預報和量子化學等領域提供巨大的加速。材料模擬軟件Quantum Espresso采用單節(jié)點A100 80GB實現(xiàn)了近2倍的吞吐量提升。

從這幾個比較典型的需要大量數(shù)據(jù)存儲空間的應用來看，A100 80GB GPU在應用性能上確實成為新一代GPU的亮點。由此在架構特性上可以總結為幾點：

一是，采用第三代Tensor Core核心。通過全新TF32，將上一代Volta架構的AI吞吐量提高多達20倍。通過FP64，將HPC性能提高多達2．5倍。通過 INT8，將AI推理性能提高多達20倍，并且支持BF16數(shù)據(jù)格式。

二是，采用更大、更快的HBM2e GPU內存。從而使內存容量增加一倍，在業(yè)內率先實現(xiàn)2TB／s以上的內存帶寬。

三是，采用MIG技術，將單個獨立實例的內存增加一倍，可最多提供七個MIG，每個實例具備10GB內存。

四是，采用結構化稀疏技術，將推理稀疏模型的速度提高兩倍。

五是，第三代NVLink和NVSwitch，相較于上一代互連技術，可使GPU之間的帶寬增加至原來的兩倍，將數(shù)據(jù)密集型工作負載的GPU數(shù)據(jù)傳輸速度提高至每秒600 gigabytes。

AI能力的強大，表現(xiàn)在GPU產品的推陳出新，以及GPU為行業(yè)應用帶來革命性的改變。這就是英偉達的過人之處，好技術帶來行業(yè)改變和產業(yè)格局變化。

更智即更強。由此而言，對于超算行業(yè)的發(fā)展來說，更智能也就自然表現(xiàn)得更為強大了。

更快：HPC沒有最快只有更快

超算的核心在于快，競爭的價值在于更快。在超算領域只有在超算系統(tǒng)上實現(xiàn)更快的速度，才能實現(xiàn)超算系統(tǒng)整體能力的更強。

作為強化AI算力的全球領先廠商，英偉達新一代DGX Station A100和DGX A100 640GB移動數(shù)據(jù)中心引起了我特別的注意，這也是在 SC20超級計算大會上與A100 80GB GPU同期發(fā)布的重量級產品。

DGX Station A100的AI性能可以達到2．5 petaflops，通過NVIDIA NVLink完全互連，實現(xiàn)四個全新NVIDIA A100 80GB GPU融合在一起的工作組服務器，同時GPU內存高達320GB。更為特別是DGX Station A100也是唯一支持NVIDIA多實例GPU技術（MIG）的工作組服務器。借助MIG，單一DGX Station A100最多可提供28個獨立GPU實例以運行并行任務，并可在不影響系統(tǒng)性能的前提下支持多用戶應用。

這也是全球唯一的千萬億級工作組服務器，如此性能超快的DGX Station A100，被業(yè)內稱之為一體式AI數(shù)據(jù)中心，也就是說，用戶借助一臺DGX Station A100，就可以在任何地方部署AI超算中心了。

如此說來，作為服務器級的系統(tǒng)，DGX Station A100無需配備數(shù)據(jù)中心級電源或散熱系統(tǒng)，卻具有與NVIDIA DGX A100數(shù)據(jù)中心系統(tǒng)相同的遠程管理功能。當數(shù)據(jù)科學家和研究人員在家中或實驗室辦公時，系統(tǒng)管理員可輕松地通過遠程連接，執(zhí)行任何管理任務。

作為一臺隨處可得的AI超級計算機，性能上的突出表現(xiàn)尤為吸引人。為支持諸如BERT Large推理等復雜的對話式AI模型，DGX Station A100比上一代DGX Station提速4倍以上。對于BERT Large AI訓練，其性能提高近3倍。

此外，全新DGX A100 640GB系統(tǒng)也將集成到企業(yè)版NVIDIA DGX SuperPOD解決方案，使機構能基于以20 個DGX A100系統(tǒng)為單位的一站式AI超級計算機，實現(xiàn)大規(guī)模AI模型的構建、訓練和部署。

配備A100 80GB GPU的NVIDIA DGX SuperPOD系統(tǒng)將率先安裝于英國的Cambridge－1超級計算機，以加速推進醫(yī)療健康領域研究，以及佛羅里達大學的全新HiPerGator AI超級計算機，該超級計算機將賦力這一“陽光之州”開展AI賦能的科學發(fā)現(xiàn)。

由此可見，新一代DGX Station A100和DGX A100 640GB移動數(shù)據(jù)中心的出現(xiàn)，將給AI超級計算機的行業(yè)格局帶來一次新的震動。全球云觀察分析，這有望將超算從傳統(tǒng)超算時代推向真正的智能超算時代，那么英偉達必定就是其中舉足輕重的使能者之一。同時AI超算上的創(chuàng)新也將因為NVIDIA A100 80GB GPU而再次迎來新的發(fā)展，對AI超算的行業(yè)應用普及帶來了更大的發(fā)展?jié)摿εc空間。

更優(yōu)：高效網(wǎng)絡性能空前

任何超算系統(tǒng)，離開了高效的網(wǎng)絡，基本上談不上超算�？梢娋W(wǎng)絡對于超算系統(tǒng)整體價值的貢獻缺一不可。

為此，英偉達并購Mellanox后，對于InfiniBand高效網(wǎng)絡的性能發(fā)揮得到了空前的提升。

400G InfiniBand系統(tǒng)在之前聽說過業(yè)內傳聞，沒有想到英偉達如今很快變成了現(xiàn)實。“NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加速引擎使HPC、AI和超大規(guī)模云基礎設施能夠以更低的成本和復雜性，實現(xiàn)了全球最具挑戰(zhàn)性的網(wǎng)絡互連性能�！�

為了支撐更強更快的AI超算的需要，Mellanox 400G InfiniBand帶來的加速能力也是值得一看。Mellanox NDR 400G InfiniBand交換機，可提供3倍的端口密度和32倍的AI加速能力。并且將框式交換機系統(tǒng)的聚合雙向吞吐量提高了5倍，達到1．64 petabits／s，減少交換機使用量獲得更大工作負載的支撐，必然對用戶整體應用成本帶來更良好的回報。

當然，好的產品，特別是在行業(yè)領域有著技術創(chuàng)新領先性的產品，往往贏得市場的認同更為廣泛。

從一組財報數(shù)據(jù)來看，英偉達截至2020年7月26日的第二季度財報，營收為38．7億美元，創(chuàng)歷史新高，較去年同期的25．8億美元增長50％，較上一季度的30．8億美元增長26％。

其中有一個關鍵信息就是該季度數(shù)據(jù)中心方面業(yè)務收入出奇高增長，財報期內為17．5億美元，為2019年同期收入6．55億美元的兩倍多。這也是數(shù)據(jù)中心領域帶來的收入首次出現(xiàn)超越英偉達成立以來的主營視頻游戲領域業(yè)務，財報期內視頻游戲業(yè)務為16．5億美元。

就此來說，英偉達在數(shù)據(jù)中心取得高速增長成績，與收購Mellanox有著密切相關。

可見，英偉達Mellanox在高效網(wǎng)絡方面的性能表現(xiàn)，已經贏得了用戶的心聲，特別是在超算領域，英偉達Mellanox的InfiniBand技術一直備受矚目。

小結：AI超算的未來已來

英偉達的超算大戰(zhàn)略，必然就是將AI加入到HPC中，并擴展至傳統(tǒng)超級計算中心之外的平臺，從而引發(fā)了全球AI超算大趨勢。

與此同時，創(chuàng)新效率超高的英偉達，在加速計算領域、HPC、網(wǎng)絡三大領域分別發(fā)布了新一代A100 80GB GPU處理器、新一代DGX StationA100和DGX A100 640GB移動數(shù)據(jù)中心、Mellanox 400G InfiniBand系統(tǒng)多款重磅新品，可謂三駕馬車并駕齊驅，以應對全球爆發(fā)式增長的數(shù)據(jù)處理需求和日益凸顯的機器學習需要。這對全球超算整體格局的變化，帶來非常積極的推動作用。

更強的GPU，更快的AI超算，更優(yōu)的高效網(wǎng)絡，也將成為英偉達持續(xù)向前發(fā)展的重要三部曲。

【阿明】：科技評論專欄作者、科技媒體從業(yè)22年、新聞評論年產出上百萬字，用數(shù)據(jù)說話，帶你看懂科技上市公司