機器之心編輯部

「這才是我理想中的 GPU。」—— 黃仁勳。

「這不是演唱會。你們是來參加開發者大會的!」老黃出場時,現場爆發出了巨大的歡呼聲。

今天凌晨四點,加州聖何塞,全球市值第三大公司英偉達一年一度的 GTC 大會開始了。

今年的 GTC 大會伴隨著生成式 AI 技術爆發,以及英偉達市值的暴漲。相對的是,算力市場也在升溫,硬體和軟體方面的競爭都在加劇。

而英偉達帶來的產品,再次將 AI 晶片的標杆推向了難以想象的高度。

「通用計算已經失去動力,現在我們需要更大的模型,我們需要更大的 GPU,更需要將 GPU 堆疊在一起。」黃仁勳說道。「這不是為了降低成本,而是為了擴大規模。」

黃仁勳提到,大模型參數量正在呈指數級增長,此前 OpenAI 最大的模型已經有 1.8T 參數,需要吞吐數十億 token。即使是一塊 PetaFLOP 級的 GPU,訓練這樣大的模型也需要 1000 年才能完成。這句話還透露了一個關鍵資訊:GPT-4 的實際參數量應該就是 1.8 萬億。

為了幫助世界構建更大的 AI,英偉達必須首先拿出新的 GPU,這就是 Blackwell。此處老黃已有點詞窮了:「這是塊非常非常大的 GPU!」

Blackwell 的發佈意味著,近八年來,AI 算力增長了一千倍。一些網友看完發佈會驚歎:Nvidia eats world!

2080 億個電晶體的 Blackwell

同行不知應該怎麼追

雖然全球的科技公司都還在爭搶 H100 晶片,但新一代產品已來。

在今天的大會上,英偉達正式推出了 Blackwell 平臺。從此以後,在數萬億參數上構建和運行實時生成式 AI 大型語言模型的成本和能耗降低到此前的 25 分之一。

Blackwell 的名字旨在紀念第一位入選美國國家科學院的黑人學者、數學家和博弈論學家 David Harold Blackwell,它繼承了 Hopper GPU 架構,為加速計算樹立了新的標準。英偉達表示,Blackwell 架構的 GPU 預計將於今年晚些時候發貨。

David Harold Blackwell。圖源 britannica

正如預期的一樣,Blackwell 是英偉達首個採用 MCM(多晶片封裝)設計的 GPU,在同一個晶片上集成了兩個 GPU。

在活動現場,黃仁勳對比了 Blackwell(右手)與 Hopper GH100 GPU(左手)的尺寸大小。

It’s OK, Hopper.

黃仁勳表示,Blackwell 將成為世界上最強大的晶片。Blackwell 架構的 GPU 擁有 2080 億個電晶體,採用定製的、雙 reticle 的台積電 4NP(4N 工藝的改進版本)製程工藝,兩塊小晶片之間的互聯速度高達 10TBps,可以大幅度提高處理能力。

此處需要強調的是,沒有記憶體局部性問題或快取問題,CUDA 將其視為單塊 GPU。

它還帶有 192GB 速度為 8Gbps 的 HBM3E 記憶體,AI 算力能達到 20 petaflops(FP4 精度),相比之下,上代的 H100「僅為」4 petaflops。

這是世界上第一次有如此高效整合在一起的多 die 晶片,或許也是在製程升級速度減慢之後,升級算力的唯一方法。

黃仁勳提到,Blackwell 不是晶片名,而是整個平臺的名字。具體來講,採用 Blackwell 架構的 GPU 分為了 B200 和 GB200 產品系列,後者集成了 1 個 Grace CPU 和 2 個 B200 GPU。

其中 B200 GPU 通過 2080 億個電晶體提供高達 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通過 900GB / 秒的超低功耗晶片到晶片連接,將兩個 B200 GPU 連接到 1 個 Grace CPU 上。

GB200 架構,包含兩個 GPU 和一個 CPU。

相較於 H100 Tensor Core GPU,GB200 NVL72可以為大語言模型(LLM)推理負載提供 30 倍的性能提升,並將成本和能耗降低高達 25 倍。

「人們認為我們製造 GPU,但 GPU 看起來並不像以前那樣了,」黃仁勳表示。「我現在一手拿著 100 億,一手拿著 50 億。」

現在,顯示卡不再是顯示卡,而是作為系統整體售賣,畢竟只有通過英偉達自家的元件才能達到最佳效率。「現在我們賣的 GPU 是 7000 個元件,3000 磅重。」

基於 Blackwell 的 AI 算力將以名為 DGX GB200 的完整伺服器形態提供給使用者,結合了 36 顆 NVIDIA Grace CPU 和 72 塊 Blackwell GPU。這些超級晶片通過第五代 NVLink 連接成一臺超級計算機。

再往上擴展,Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統構建而成,這些系統通過 NVIDIA Quantum InfiniBand 網路連接,可擴展到數萬個 GB200 超級晶片。使用者可通過 NVLink 連接 8 個 DGX GB200 系統中的 576 塊 Blackwell GPU,從而獲得海量共享視訊記憶體空間,來訓練下一代 AI 模型。

再詳細對比一下性能的升級,以前使用 Hopper 訓練 GPT-MoE-1.8T,8000 塊 GPU 要花費 90 天,同樣的事只需要 2000 塊 GB2000,能耗也只需要四分之一。

生成式 AI 的下一步是多模態和視訊,也就意味著更大規模的訓練,Blackwell 帶來了更多可能性。

此外,大模型(LLM)的大規模推理始終是一個挑戰,並非適合單個 GPU 的任務。在具有 1750 億個參數的 GPT-3 LLM 基準測試中,GB200 的性能是 H100 的 7 倍,並且訓練速度是 H100 的 4 倍。

現在,用於大模型推理的速度是上代的 30 倍,黃仁勳展示了一張對比圖,藍線是 Hopper。

「DGX 超級計算機是推進 AI 產業變革的工廠。新一代 DGX SuperPOD 集加速計算、網路和軟體方面的最新進展於一身,能幫助每一個公司、行業和國家完善並生成自己的 AI,」黃仁勳說道。

有了 Blackwell,我們距離生成式 AI 的實用化也更近了一步。

兩大技術革新

第二代 Transformer 引擎、第五代 NVLink

30 倍 AI 算力是如何做到的?除了使用新制程,並聯兩塊晶片以外,Blackwell 的關鍵改進在於引入第二代 Transformer 引擎,它支持了 FP4 和 FP6,使得計算、頻寬和模型大小翻了一番。

得益於新的微張量(micro-tensor)擴展支持和集成到英偉達 TensorRT-LLM 和 NeMo Megatron 框架中的先進動態範圍管理演算法,Blackwell 通過 4-bit 浮點 AI 推理能力支持了雙倍的算力和模型大小。

當互聯大量此類 GPU 時,第二個關鍵區別開始顯現:下一代 NVLink 交換機可讓 576 個 GPU 相互通訊,具有每秒 1.8 TB 的雙向頻寬。

英偉達表示,此前,僅由 16 個 GPU 組成的集群會在相互通訊上花費 60% 的時間,而只有 40% 的時間用於實際計算。

現在,英偉達的 NVLink Switch Chip 可以讓所有這些晶片互聯起來,全速運轉沒有瓶頸(1.8TB/s,幾乎比上代快 10 倍),並幫助構建了 DGX GB200 NVL72。

通過高速互聯的機制,DGX GB200 NVL72 可以被認為是一個超級 GPU,FP8 訓練吞吐量高達 720 PFLOPS、FP4 推理吞吐量為 1.44 ExaFLOPS,多節點 All-to-All 通訊速度為 130TB / 秒,多節點 All-Reduce 通訊速度為 260TB / 秒。

在具體架構方面,DGX GB200 NVL72 擁有 18 個 GB200 節點機架,每個節點搭配 2 個 GB200 GPU。此外還有 9 個 NVSwitch 機架,從而為 GB200 NVL 提供了 720 PFLOPS 的 FP8 吞吐量,以及 FP4 精度的 ExaFLOPS。

所以今年畫風變了現在 DGX 長這樣:擁有 5000 條 NVLink 電纜,長達 2 英里,都是銅電纜,不需要光收發器,節省了 20kW 的計算成本。

它的功耗過大,以至於需要用液冷,同時重量高達 3000 磅(約 1361 公斤)。

2016 年,老黃扛著第一個 DGX 系統給 OpenAI,這才有瞭如今的 ChatGPT。那個時候 DGX 的算力是 0.17Petaflops,現在這個 GB200,算力是以 Exaflop 計算的。

在英偉達新的摩爾定律下,算力的提升速度居然還加快了。

構建生態,入場具身智慧

除了硬體系統,英偉達也利用生成式 AI 構建了一系列元宇宙、工業數字孿生、機器人訓練軟體體系。

英偉達表示,它正在將 Omniverse 企業技術引入蘋果。這個想法是讓開發人員通過 Vision Pro 在 AR/VR 設置中使用 Omniverse 工具。在 GTC 上,英偉達展示了設計師是如何通過 Vision Pro 使用汽車配置工具來操縱車輛,然後虛擬地進入其中的。人們可以通過 Omniverse Cloud API 以及通過雲端直接流式傳輸到 Vision Pro 的圖形傳輸網路來做到這一點。

最後,還有前沿方向機器人的工作,英偉達公佈了人形機器人項目 GR00T。

在今天的主題演講中,黃仁勳展示了多個由 GR00T 驅動的人形機器人如何完成各種任務,包括來自 Agility Robotics、Apptronik、傅利葉智慧(Fourier Intelligence) 和宇樹科技(Unitree Robotics) 的機器人產品。

GR00T 脫胎於英偉達的 Isaac 機器人平臺工具,基於新的通用基礎模型,GR00T 驅動的人形機器人能夠接受文字、語音、視訊甚至現場演示的輸入,並對其進行處理以採取特定的操作,包括理解自然語言、模擬人類行為、在現實世界中導航和互動。

英偉達還開發了一種新型「機器人大腦」計算晶片 Jetson Thor,能夠執行復雜的任務並使用 Transformer 引擎處理多個傳感器。

人形機器人賽道近期達到了一個新的火熱程度。就比如英偉達的「大客戶」OpenAI,一直在使用自己的 AI 模型來為一家名為 Figure 的初創公司的人形機器人提供支持。

現在英偉達也把它擺在了重要位置,正如黃仁勳所說:「機器人的 ChatGPT 時刻可能即將到來。」

你準備好了嗎?

參考連結:

https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai

https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing

https://venturebeat.com/ai/nvidia-unveils-next-gen-blackwell-gpus-with-25x-lower-costs-and-energy-consumption/

https://venturebeat.com/ai/nvidia-shows-off-project-gr00t-a-multimodal-ai-to-power-humanoids-of-the-future/

https://www.nextplatform.com/2024/03/18/with-blackwell-gpus-ai-gets-cheaper-and-easier-competing-with-nvidia-gets-harder/

來上海這場大模型技術workshop,一起探討大模型的重點技術路徑

3月22日下午,來自復旦大學、波形智慧、亞馬遜雲科技的專家學者和技術大咖們,將重點分享大模型能力對齊、長文字、Claude 3等議題[機智]

識別海報二維碼或點選閱讀原文即刻報名!

Source

Visited 7 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x