GPT-4是8×2200億參數的混合模型？這個小道訊息今天傳瘋了

Jan 14, 2024 #科技

George Hotz：除了蘋果之外，大部分公司保密的原因都不是在隱藏什麼黑科技，而是在隱藏一些‍「不那麼酷」的東西。

「GPT-4 的參數量高達 100 萬億。」相信很多人還記得這個年初刷屏的「重磅」訊息和一張被病毒式傳播的圖表。

6223a11acd0109c44872b163fdaebe4638466e91

不過很快，OpenAI 的 CEO Sam Altman 就出來闢謠，證實這是一條假訊息，並表示，「關於 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起。」

實際上，許多人相信並傳播這樣的謠言是因為近年來 AI 社區不斷在增加 AI 模型的參數規模。Google在 2021 年 1 月發佈的 Switch Transformer 就把 AI 大模型參數量拉高到了 1.6 萬億。在此之後，很多機構也陸續推出了自己的萬億參數大模型。據此，人們有充分的理由相信，GPT-4 將是一個萬億參數的巨量模型，100 萬億參數也不是不可能。

雖然 Sam Altman 的闢謠幫我們去掉了一個錯誤答案，但他背後的 OpenAI 團隊一直對 GPT-4 的真實參數量守口如瓶，就連 GPT-4 的官方技術報告也沒透露任何資訊。

直到最近，這個謎團疑似被「天才駭客」喬治・霍茲（George Hotz）捅破了。

喬治・霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名，目前是一家研發自動駕駛輔助系統的公司（comma.ai）的老闆。

最近，他接受了一家名為 Latent Space 的 AI 技術播客的採訪。在採訪中，他談到了 GPT-4，稱 GPT-4 其實是一個混合模型。具體來說，它採用了由 8 個專家模型組成的集成系統，每個專家模型都有 2200 億個參數（比 GPT-3 的 1750 億參數量略多一些），並且這些模型經過了針對不同資料和任務分佈的訓練。

42b6394cf908acac631db021f2e4703a17e7e6dd

在這段播客播出之後，PyTorch 創建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」，很多人可能也聽過，但只有 George Hotz 在公開場合將其說了出來。

0e0ade0c03d6c476b4c28f6099f5f4a6e4835aca

「混合模型是你在無計可施的時候才會考慮的選項，」George Hotz 調侃說，「混合模型的出現是因為無法讓模型的參數規模超過 2200 億。他們希望模型變得更好，但如果僅僅是訓練時間更長，效果已經遞減。因此，他們採用了八個專家模型來提高性能。」至於這個混合模型是以什麼形式工作的，George Hotz 並沒有詳細說明。