作者:HyperAI超神經

作者:HyperAI超神經

「皮衣黃」再現江湖,又帶了滿滿的高性能產品發佈。

「AI 的 iPhone 時刻已經到來。」黃仁勳在英偉達 GTC 2023 上的金句言猶在耳,這一年,AI 的發展也印證了其所言非虛。

多年來,伴隨 AI 發展提速,加之英偉達的技術與生態護城河難以撼動,GTC 已經從最初的技術會議逐漸升級為全產業鏈共同關注的 AI 行業盛會,英偉達秀出的「肌肉」或許就是行業革新的重要催化劑。

今年的 2024 GTC AI 大會如約而至,在 3 月 18 日至 3 月 21 日期間,將有超 900 場會議與 20 餘場技術講座。當然,最受矚目的仍然是「皮衣黃」的演講。在前期公佈的日程中,黃仁勳的演講從 3 月 19 日凌晨 4:00 開始,持續到 6:00。就在剛剛,老黃在長達 2 小時的分享中,接連扔下「AI 核彈」:

* 新一代 GPU平臺 Blackwell

* 首款基於 Blackwell 的晶片 GB200 Grace Blackwell

* 下一代 AI 超級計算機 DGX SuperPOD

* AI 超級計算平臺 DGX B200

* 新一代網路交換機 X800 系列

* 量子計算雲服務

* 氣候數字孿生雲平臺 Earth-2

* 生成式 AI 微服務

* 5 種全新的 Omniverse Cloud API

* 專為生成式 AI 應用設計的車載計算平臺 DRIVE Thor

* BioNeMo 基礎模型

直播回放連結:

https://www.bilibili.com/video/BV1Z6421c7V6/?spm_id_from=333.337.search-card.all.click

cuLitho 投入使用

在去年的 GTC 大會上,英偉達推出了一個計算光刻庫——cuLitho,稱能夠將計算光刻加速 40 倍以上。今天,黃仁勳介紹道,台積電與新思科技已經將 NVIDIA cuLipo 與其軟體、製造流程和系統集成在一起,以加快晶片製造。在共享工作流程上測試 cuLitho 時,兩家公司共同實現了 curvilinear flows 速度提高 45 倍,更加傳統的 Manhattan-style flows 效率提高近 60 倍。

此外,英偉達還開發了應用生成式 AI 的演算法,以進一步提升 cuLitho 平臺的價值。具體而言,在基於 cuLitho 實現生產流程提效的基礎上,這一生成式 AI 演算法還能額外提高 2 倍的速度。

據介紹,通過應用生成式 AI,可以創建近乎完美的反向掩膜解決方案,將光的衍射納入考慮,進而通過傳統的物理方法得出最終光罩,最終將整個光學近似校正 (optical proximity correction, OPC) 流程的速度提高了 2 倍。

面向萬億參數規模生成式 AI 的 Blackwell 平臺

上述對於 cuLitho 應用情況的介紹更像是一道「開胃菜」,展示計算光刻技術的發展前景,也在一定程度上英偉達 AI 晶片的代際升級提供了基礎保障。

接下來,正餐開始。遵循英偉達每兩年更新一次 GPU 架構的傳統,老黃帶來的第一個重磅產品便是全新的 bigger GPU——Blackwell 平臺。他表示,Hopper 很棒,但是我們需要更強大的 GPU。

Blackwell 架構的命名是為了紀念首位入選美國國家科學院 (National Academy of Sciences)的非裔學者 David Harold Blackwell。

在性能上,Blackwell 擁有 6 項革命性技術加持:

* 世界上最強大的晶片:

Blackwell 架構 GPU 採用定製的 4NP 台積電工藝製造,內含 2080 億個電晶體,通過 10 TB/秒 的 chip-to-chip 鏈路,將兩個極限 GPU 晶片連接成一個統一的 GPU。 第二代 Transformer 引擎:Blackwell 將基於新的 4 位浮點人工智慧推理能力支持雙倍的計算和模型規模。

* 第五代 NVLink:

最新迭代的 NVIDIA NVLink 為每個 GPU 提供了突破性的 1.8TB/s 雙向吞吐量,確保在多達 576 個 GPU 之間進行無縫高速通訊,以實現最複雜的 LLM。

* RAS 引擎:

Blackwell 驅動的 GPU 包括一個用於可靠性、可用性和可維護性的專用引擎。此外,Blackwell 架構還增加了晶片級功能,利用基於 AI 預防性維護來運行診斷並預測可靠性問題。這最大限度地延長了系統正常運行時間,提高了大規模 AI 部署的恢復能力,使其能夠連續不間斷地運行數週甚至數月,並降低運營成本。

* Secure AI:可在不影響性能的情況下保護人工智慧模型和客戶資料,並支持新的本地接口加密協議,這對醫療保健和金融服務等隱私敏感行業至關重要。

* 解壓縮引擎:專用解壓縮引擎支持最新格式,可加速資料庫查詢,為資料分析和資料科學提供最高性能。

目前,AWS、Google、Meta、微軟、OpenAI、特斯拉等企業都已經率先「預約」Blackwell 平臺。

GB200 Grace Blackwell

首款基於 Blackwell 的晶片命名為 GB200 Grace Blackwell Superchip,其通過 900GB/s 的超低功耗 NVLink chip-to-chip 的互連,將兩個 NVIDIA B200 Tensor Core GPU 連接到 NVIDIA Grace CPU 中。

其中,B200 GPU 的電晶體數量是現有 H100 的兩倍多,擁有 2080 億個電晶體。其還能通過單個 GPU 提供 20 petaflops 的高計算性能,而單個 H100 最多只能提供 4 petaflops 的 AI 計算能力,此外,B200 GPU 還配備了 192 GB 的HBM3e 記憶體,提供高達 8 TB/s 的頻寬。

GB200 是英偉達 GB200 NVL72 的關鍵元件,NVL72 是多節點、液冷、機架式系統,適用於計算最密集的工作負載,結合了 36 個 Grace Blackwell 超級晶片,其中包括 72 個 Blackwell GPU 和 36 個 Grace CPU,通過第五代 NVLink 互連。

此外,GB200 NVL72 還包括 NVIDIA BlueField®-3 資料處理單元,可在超大規模人工智慧雲中實現雲網路加速、可組合儲存、零信任安全和 GPU 計算彈性。與相同數量的英偉達 H100 Tensor Core GPU 相比,GB200 NVL72 在 LLM 推理工作負載方面的性能最多可提升 30 倍,成本和能耗最多可降低 25 倍。

下一代 AI 超級計算機 DGX SuperPOD

英偉達 DGX SuperPOD 採用高效的新型液冷機架式架構,由 NVIDIA DGX GB200 系統構建而成,可在 FP4 精度下提供 11.5 exaflops 的 AI 超級計算能力和 240 TB 的快速記憶體,並且可通過額外的機架擴展到更高性能。DGX SuperPOD 具有智慧預測管理功能,可以不斷監測硬體和軟體上的數千個資料點,以預測和攔截造成停機和效率低下的 sources,從而節省時間、能源和計算成本。

其中,DGX GB200 系統搭載了 36 個 NVIDIA GB200 超級晶片,其中包括 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,通過第五代 NVLink 連接為一臺超級計算機。

而每個 DGX SuperPOD 能夠搭載 8 個或更多的 DGX GB200,可擴展到通過 NVIDIA Quantum InfiniBand 連接的數萬個 GB200 超級晶片。例如,使用者能夠將 576 個 Blackwell GPU 連接到 8 個基於 NVLink 互聯的 DGX GB200 中。

AI 超級計算平臺 DGX B200

DGX B200 是一個用於人工智慧模型訓練、微調和推理的計算平臺,採用風冷式、傳統機架式 DGX 設計。DGX B200 系統在全新 Blackwell 架構中實現了 FP4 精度,可提供高達 144 petaflops 的 AI 計算性能、1.4TB 的海量 GPU 記憶體和 64TB/s 的記憶體頻寬。與上一代相比,萬億參數模型的實時推理速度提高了 15 倍。

基於全新 Blackwell 架構的 DGX B200 搭載了 8 個 Blackwell GPU 和 2 個第五代英特爾至強處理器。使用者還可以使用 DGX B200 系統構建 DGX SuperPOD。在網路連接方面,DGX B200 配備 8 個 NVIDIA ConnectX™-7 網路卡和 2 個 BlueField-3 DPU,可提供高達每秒 400 千兆比特的頻寬。

新一代網路交換機系列——X800

據介紹,新一代網路交換機 X800 系列專為大規模人工智慧設計,打破了計算和AI工作負載的網路性能極限。

該平臺包含 NVIDIA Quantum Q3400 交換機以及 NVIDIA ConnectX@-8 超級網路卡,實現了行業領先的 800Gb/s 端到端吞吐量,比上一代產品提升了 5 倍頻寬容量,同時還通過採用英偉達的可擴展分層聚合與還原協議 (Scalable Hierarchical Aggregation and Reduction Protocol, SHARPv4),實現了高達 14.4 Tflops 的網路內計算能力,較上一代產品的性能增幅高達 9 倍。

量子計算雲服務,加速科研探索

英偉達量子計算雲服務基於公司的開源 CUDA-Q 量子計算平臺,目前業內部署量子處理單元 (QPU) 的企業有四分之三都在使用該平臺。英偉達推出的量子計算雲服務首次允許使用者在雲中構建並測試新的量子演算法和應用,包括強大的模擬器和量子混合程式設計工具。

量子計算雲具有強大的功能和第三方軟體集成,可加速科學探索,包括:

* 與多倫多大學合作開發的生成式量子特徵求解器,利用大型語言模型使量子計算機更快地找到分子的基態能量。

* Classiq 與 CUDA-Q 的集成使量子研究人員能夠生成大型、複雜的量子程序,並深入分析和執行量子電路。

*QC Ware Promethium 可解決複雜的量子化學問題,如分子模擬。

發佈氣候數字孿生雲平臺 Earth-2

Earth-2 旨在對天氣和氣候進行大規模模擬和視覺化,進而實現對極端天氣的預測。Earth-2 API 提供 AI 模型,並採用 CorrDiff 模型。

CorrDiff 是 NVIDIA 新推出的生成式 AI 模型,它採用 SOTA Diffusion 模型,生成的圖像解析度比現有的數值模型 (numerical models) 高 12.5 倍,速度提升 1,000 倍,能源效率提高 3,000 倍。它克服了粗解析度預測的不準確性,並綜合了對決策至關重要的指標。

CorrDiff 是一種首創的生成式人工智慧模型,可提供超解析度,合成全新的重要指標,並從高解析度資料集中學習當地細粒度天氣的物理特性。

發佈生成式 AI 微服務,促進藥物研發、醫療技術迭代及數字健康

新推出的英偉達醫療健康微服務 (NVIDIA healthcare microservices) 套件包括最佳化後的 NVIDIA NIM™ AI 模型及行業標準 API 工作流,可作為創建和部署雲原生應用的構建模組。這些微服務具備高級成像、自然語言與語音識別、數字生物學的生成、預測與模擬等能力。

此外,包括 Parabricks®、MONAI、NeMo™、Riva 和 Metropolis 在內的英偉加速軟體開發工具包及相關工具,現已支持通過英偉達 CUDA-X™ 微服務訪問。

推理微服務 (inference microservice)

發佈數十種企業級生成式 AI 微服務,企業可以在保有智慧財產權的同時,使用這些服務在自己的平臺上創建和部署自定義應用程序。

新的 GPU 加速 NVIDIA NIM Microservices 和 Cloud Endpoints,適用於經過最佳化的預訓練 AI 模型,可在跨雲、資料中心、工作站和 PC 的數億個支持 CUDA 的 GPU 上運行。

企業可使用微服務來加速資料處理、LLM 定製、推理、 檢索增強生成和防護;

被廣泛的人工智慧生態系統採用,包括領先的應用平臺提供商 Cadence、CrowdStrike、SAP、ServiceNow 等。

NIM 微服務提供由英偉達推理軟體支持的預構建容器(包括 Triton Inference Server™ 和 TensorRT™-LLM),可以將部署速度從幾周縮短到幾分鐘。

發佈 Omniverse Cloud API,為工業數字孿生軟體工具賦能

利用 5 種全新的 Omniverse Cloud API,開發者可以直接將 Omniverse 核心技術集成到數字孿生現有設計及自動化軟體應用中,也可以集成到測試及驗證機器人或自動駕駛汽車等仿真工作流程中,如將互動式工業數字孿生流傳輸到 Apple Vision Pro。

這些 API 包括:

* USD Render:生成全局光線追蹤 OpenUSD 資料的 NVIDIA RTX™ 渲染

* USD Write:允許使用者修改 OpenUSD 資料並與之互動。

* USD Query:支持場景查詢和場景互動。

* USD Notify:追蹤 USD 更改並提供更新。

* Omniverse Channel:連結使用者、工具及現實,實現跨場景協作

黃仁勳認為,未來所有制造出來的東西都會有數字孿生,Omniverse 是構建和運行物理現實數字孿生的作業系統,Omniverse 和生成式人工智慧是 50 兆美元重工業市場數字化的基礎技術。

DRIVE Thor:具備 Blackwell 架構的生成式 AI 能力,為自動駕駛賦能

DRIVE Thor 是專為生成式 AI 應用設計的車載計算平臺,可在集中式平臺上提供功能豐富的模擬駕駛以及高度自動駕駛功能。作為下一代自動駕駛汽車中央計算機,它安全可靠,將智慧功能統一到一個系統中,可以提高效率,降低整個系統的成本。

DRIVE Thor 也將集成全新的英偉達 Blackwell 架構,該架構專為Transformer、LLM和生成式人工智慧工作負載而設計。

BioNeMo:輔助藥物發現

BioNeMo 基礎模型可以分析 DNA 序列,預測蛋白質在藥物分子作用下的形狀變化,並根據 RNA 確定細胞的功能。

目前,BioNeMo 所提供的第一個基因組模型 DNABERT,以 DNA 序列為基礎,可用於預測基因組特定區域的功能,分析基因突變和變異的影響等。而其即將推出的第二個模型 scBERT,是根據單細胞 RNA 測序資料訓練而成的,使用者可將其應用於下游任務,如預測基因敲除的效果(即刪除或停用特定基因),以及識別神經元、血細胞或肌肉細胞等細胞類型。

據介紹,目前全球已經有超百家企業在基於 BioNeMo 推進其研發進程,其中包括總部位於東京的 Astellas Pharma、計算軟體開發商 Cadence、藥物研發公司 Iambic 等等。

寫在最後

除了上述提到的諸多新品外,黃仁勳還介紹了英偉達在機器人領域的佈局。老黃表示,所有移動的東西都是機器人,而汽車工業將是其中的重要組成部分,目前 NVIDIA 計算機已經應用於汽車、卡車、送貨機器人和機器人計程車。隨後還推出了 Isaac Perceptor 軟體開發工具包、人形機器人通用基礎模型 GR00T、基於英偉達 Thor 片上系統的人形機器人新計算機 Jetson Thor,並對英偉達 Isaac 機器人平臺進行了重大升級。

總結來看,長達 2 小時的分享中,充斥著高密集度的高性能產品、模型介紹,如此快節奏、內容豐富的發佈會也恰如當下 AI 行業發展現狀——高速且繁榮。

作為 AI 時代的底座,高性能晶片所代表的計算能力是決定行業發展週期與走向的關鍵。毫無疑問,目前的英偉達擁有難以撼動的護城河,儘管已經有多家企業開始朝著老黃髮起衝擊,加之 OpenAI、微軟、Google等也在培養自家的「軍隊」,但這對仍處於高速向前的英偉達而言,或許也是一股更大的推力。

現在,線上直播已經結束,黃仁勳的每一次新品發佈後都會介紹哪些合作伙伴已經「預約」了新服務,大廠巨頭們無一例外的榜上有名。未來,我們也期待著目前衝在行業最前排的企業能夠利用行業先進生產力,帶來更具革新性的產品與應用。

往期推薦

戳「閱讀原文」,免費獲取海量資料集資源!

Source

Visited 7 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x