GoogleDeepMind給AGI劃等級,猜猜ChatGPT在哪個位置

編輯:陳萍

AGI 該如何劃分,Google DeepMind 給出了標準。

我們到底該如何定義 AGI(通用人工智慧)?如果你要求 100 位 AI 專家進行解答,你可能會得到 100 個相關但不同的定義。

現階段,AGI 是 AI 研究中一個重要且存在爭議的概念,有研究者認為 AGI 已經出現在最新一代大語言模型(LLM)中;還有一些人預測人工智慧將在大約十年內超越人類,甚至斷言當前的 LLM 就是 AGI。

深入理解 AGI 的概念很重要,因為它對映了人工智慧所要達到的目標、對事物的預測以及帶來的風險。

我們該如何劃分 AGI 等級呢?就像自動駕駛等級(如 L0 無自動駕駛)一樣,這種級別的劃分對人與人之間的溝通能力、制定規則和定義自動駕駛目標非常有用。本文,來自 Google DeepMind 的研究者提出了類似的 AGI 等級,根據劃分原則,ChatGPT 被劃分為 L1 Emerging AGI,Imagen 是 L3 Expert Narrow AI,AlphaGo 被劃分為 L4 Virtuouso Narrow AI。

具體而言,他們提出了一個框架,用於對 AGI 模型進行分類。Google DeepMind 希望這個框架能夠以類似於自動駕駛水平的方式發揮作用,從而提供一種通用語言來比較模型、評估風險和衡量 AGI 的進展。

為了開發這個框架,DeepMind 對 AGI 的現有定義進行了分析,並提煉出了六個原則:

  • 關注模型能力,而不是過程。

  • 注注通用性和性能。

  • 關注認知和元認知任務。

  • 關注潛能,而不是部署。

  • 關注生態的有效性。

  • 關注 AGI 發展道路,而不是隻關心終點。

在這些原則的基礎之上,DeepMind 從性能和通用性兩個維度提出了「AGI 等級(Levels of AGI)」。

  • Level 0:無 AI(No AI),如 Amazon Mechanical Turk;

  • Level 1: 湧現(Emerging),與不熟練的人類相當或比之更好, 如 ChatGPT、Bard、Llama 2 ;

  • Level 2: 有能力(Competent),達到 50% 的人類水平,廣泛任務上還沒實現;

  • Level 3: 專家(Expert),到達 90% 的人類水平,廣泛任務上還沒實現, Imagen、Dall-E 2 在特定任務上已經實現;

  • Level 4: 大師(Virtuoso) ,達到 99% 的人類水平,在廣泛任務上還沒實現,Deep Blue 、AlphaGo 在特定任務上已經實現;

  • Level 5: 超人類(Superhuman),勝過 100% 人類,廣泛任務上還沒實現,在一些任務範圍內,AlphaFold 、AlphaZero 、 StockFish 已經實現。

論文地址:https://arxiv.org/pdf/2311.02462.pdf

AGI 六個原則

DeepMind 認為,AGI 的任何定義都應滿足以下六個標準:

1. 關注模型能力,而不是過程。這一原則可以幫助我們排除一些不一定是實現 AGI 的必備條件。比如實現 AGI 並不意味著系統以類似人類的方式進行思考或理解;又比如實現 AGI 並不意味著系統擁有諸如意識(主觀意識)或感知力(有感情的能力)等屬性。

2. 關注通用性和性能。所有定義都不同程度地強調了通用性,但有些定義排除了性能標準。DeepMind 認為通用性和性能都是 AGI 的關鍵組成部分。

3. 關注認知和元認知任務。是否需要具身智慧作為 AGI 的標準是一個有爭議的問題。大多數定義側重於認知任務,即非物理任務。儘管機器人技術最近取得了進展,但人工智慧系統的物理能力似乎落後於非物理能力。DeepMind 認為執行物理任務的能力可以增加系統的通用性,但不應被視為實現 AGI 的必要先決條件。另一方面,元認知能力(例如學習新任務的能力或知道何時向人類尋求澄清或幫助的能力)是系統實現通用性的關鍵先決條件。

4. 關注潛能,而不是部署。假如我們證明了一個系統可以在給定的性能水平上執行一組必要的任務,那麼就足以聲明該系統是 AGI,然而部署這樣的系統不應該被視為是 AGI 固有的。要求將可部署能力作為衡量 AGI 的必要條件會帶來非技術障礙,例如需要考慮法律和社會責任,以及潛在的道德和安全問題。

5. 關注生態有效性。用來衡量 AGI 進展的 benchmark 非常重要,雖然傳統的 AI 指標非常容易自動化或量化,但可能無法獲得人們在 AGI 中看重的技能。

6. 關注 AGI 發展之路,而不是隻關心終點。本文認為定義 AGI 等級是有價值的。將 AGI 的每個等級與一組清晰的指標 / 基準相關聯非常有意義。

根據原則 2 和原則 6,表 1 引入了一個矩陣式分級系統,該系統將性能和通用性作為 AGI 的核心維度:

DeepMind 認為,當前的前沿語言模型應被視為 Level 1 General AI(Emerging AGI)。而下一等級 Level 2 General AI,即 Competent AGI,需要在更廣泛任務集上提高性能才能達到。

在 Level 3 Narrow AI,即 Expert Narrow AI 等級中,大家熟知的 DALLE-2 被劃分為這一等級。之所以這樣劃分,DeepMind 表示 DALLE-2 生成的圖像質量比大多數人類能夠繪製的圖像質量都高。

在矩陣分級系統中,AGI 的最高等級是 ASI (Artificial Superintelligence),即把「超人類」的表現定義為超越 100% 的人類。舉例來說,假設 AlphaFold 是 Level 5 Narrow AI (Superhuman Narrow AI),因為它執行單一任務高於世界頂尖科學家水平。這一定義意味著 ASI 系統將能夠以人類無法比擬的水平完成廣泛的任務。

此外,這一框架還意味著超人類系統或許能夠比較低級別的 AGI 執行更廣泛的任務,例如,ASI 系統可能擁有人類所沒有的技能,如通過分析大腦信號來解碼人類思想,通過分析大腦信號來解碼思想機制,又或者與動物交流。

接著文章又討論了 AI 風險。表 2 說明了 AGI 等級、自主等級和風險之間的相互作用。表 2 還提供了六個自主等級的具體示例。

了解更多內容,請參考原論文

了解更多內容,請參考原論文。

Source

Visited 3 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x