用過GPT-4 Turbo以後,我們再也回不去了
編輯:澤南、陳萍
GPT 變得好用了,但真的更聰明瞭嗎?
昨天,很多人徹夜未眠 —— 全球科技圈都把目光聚焦在了美國舊金山。
短短 45 分鐘時間裡,OpenAI CEO 山姆・超人力霸王向我們介紹了迄今為止最強的大模型,和基於它的一系列應用,一切似乎就像當初 ChatGPT 一樣令人震撼。
OpenAI 在本週一的首個開發者日上推出了 GPT-4 Turbo,新的大模型更聰明,文字處理上限更高,價格也更便宜,應用商店也開了起來。現在,使用者還可以根據需求構建自己的 GPT。
根據官方說法,這一波 GPT 的升級包括:
-
更長的上下文長度:128k,相當於 300 頁文字。
-
更高的智慧程度,更好的 JSON / 函數調用。
-
更高的速度:每分鐘兩倍 token。
-
知識更新:目前的截止日期為 2023 年 4 月。
-
定製化:GPT3 16k、GPT4 微調、定製模型服務。
-
多模態:Dall-E 3、GPT4-V 和 TTS 模型現已在 API 中。
-
Whisper V3 開源(即將推出 API)。
-
與開發者分享收益的 Agent 商店。
-
GPT4 Turbo 的價格約是 GPT4 的 1/3。
發佈會一開完,人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗果然不同凡響。首先是快,快到和以前所有大模型拉開了代差:
然後是功能增多,畫畫的時候,你一有靈感就可以直接說話讓 AI 負責實現:
設計個 UI,幾個小時的工作變成幾分鐘:
我直接不裝了,截個圖複製粘貼別人的網站,生成自己的,只用 40 秒:
利用 ChatGPT 與 Bing 的瀏覽功能以及與 DALL-E 3 圖像生成器的集成,沃頓商學院教授 Ethan Mollick 分享了一段視訊,展示了他的名為「趨勢分析器」的 GPT 工具,其可查找市場特定細分市場的趨勢,然後創建新產品的原型圖像。
Octane AI 執行長 Matt Schlicht 的 Simponize Me GPT 會自動應用提示來轉換使用者上傳的個人資料照片,生成《辛普森一家》的風格,做這個小應用只用了不到十分鐘。
GPT-4 Turbo 具有創紀錄的準確率,在 PyLLM 基準上,GPT-4 Turbo 的準確率是 87%,而 GPT-4 的準確率是 52%,這是在速度幾乎快了四倍多的情況下(每秒 48 token)實現的。
至此,生成式 AI 的競爭似乎進入了新的階段。很多人認為,當競爭對手們依然在追求更快、能力更強的大模型時,OpenAI 其實早就已經把所有方向都試過了一遍,這一波更新會讓一大批創業公司作古。
也有人表示,既然 Agent 是大模型重要的方向,OpenAI 也開出了 Agent 應用商店,接下來在智慧體領域,我們會有很多機會。
競爭者們真的無路可走了嗎?價格降低,速度變快以後,大模型的性能還能同時變得更好?這必須要看實踐,在 OpenAI 的部落格中,其實說法是這樣的:在某些格式的輸出下,GPT-4 Turbo 會比 GPT-4 結果更好。那麼總體情況會如何?
在新模型發佈的 24 小時內,就有研究者在 Aider 上進行了 AI 生成程式碼的能力測試。
在 gpt-4-1106-preview 模型上,僅使用 diff 編輯方法對 GPT-4 模型進行基準測試得出的結論是:
-
新的 gpt-4-1106-preview 模型似乎比早期的 GPT-4 模型快得多;
-
第一次嘗試時似乎更能生成正確的程式碼,能正確完成大約 57% 的練習,以前的模型在第一次嘗試時只能正確完成 46-47% 的練習;
-
在通過檢查測試套件錯誤輸出獲得第二次糾正錯誤的機會後,新模型的表現 (~66%) 似乎與舊模型 (63-64%) 相似 。
接下來是使用 whole 和 diff 編輯格式對 GPT-3.5 模型進行的基準測試。結果表明,似乎沒有一個 gpt-3.5 模型能夠有效地使用 diff 編輯格式,包括最新的 11 月出現的新模型( 簡稱 1106)。下面是一些 whole 編輯格式結果:
-
新的 gpt-3.5-turbo-1106 型號完成基準測試的速度比早期的 GPT-3.5 型號快 3-4 倍;
-
首次嘗試後的成功率為 42%,與之前的 6 月 (0613) 型號相當。1106 模型和 0613 模型都比原來的 0301 第一次嘗試的結果更差,為 50%;
-
新模型在第二次嘗試後的成功率為 56%,似乎與 3 月的模型相當,但比 6 月的模型要好一些,6 月的模型為 50% 得分。
這項測試是如何進行的呢,具體而言,研究者讓 Aider 嘗試完成 133 個 Exercism Python 編碼練習。對於每個練習,Exercism 都提供了一個起始 Python 檔案,檔案包含所要解決問題的自然語言描述以及用於評估編碼器是否正確解決問題的測試套件。
基準測試分為兩步:
-
第一次嘗試時,Aider 向 GPT 提供要編輯的樁程式碼檔案以及描述問題的自然語言指令。這些指令反映了使用者如何使用 Aider 進行編碼。使用者將源程式碼檔案添加到聊天中並請求更改,這些更改會被自動應用。
-
如果測試套件在第一次嘗試後失敗,Aider 會將測試錯誤輸出提供給 GPT,並要求其修復程式碼。Aider 的這種互動式方式非常便捷,使用者使用 /run pytest 之類的命令來運行 pytest 並在與 GPT 的聊天中共享結果。
然後就有了上述結果。至於 Aider ,對於那些不了解的小夥伴,接下來我們簡單介紹一下。
Aider 是一個命令列工具,可以讓使用者將程序與 GPT-3.5/GPT-4 配對,以編輯本地 git 儲存庫中儲存的程式碼。使用者既可以啟動新項目,也可以使用現有儲存庫。Aider 能夠確保 GPT 中編輯的內容通過合理的提交訊息提交到 git。Aider 的獨特之處在於它可以很好地與現有的更大的程式碼庫配合使用。
簡單總結就是,藉助該工具,使用者可以使用 OpenAI 的 GPT 編寫和編輯程式碼,輕鬆地進行 git commit、diff 和撤消 GPT 提出的更改,而無需複製 / 粘貼,它還具有幫助 GPT-4 理解和修改更大程式碼庫的功能。
為了達到上述功能,Aider 需要能夠準確地識別 GPT 何時想要編輯使用者源程式碼,還需要確定 GPT 想要修改哪些檔案並對 GPT 做出的修改進行準確的應用。然而,做好這項「程式碼編輯」任務並不簡單,需要功能較強的 LLM、準確的提示以及與 LLM 互動的良好工具。
操作過程中,當有修改發生時,Aider 會依靠程式碼編輯基準(code editing benchmark)來定量評估修改後的性能。例如,當使用者更改 Aider 的提示或驅動 LLM 對話的後端時,可以通過運行基準測試以確定這些更改產生多少改進。
此外還有人使用 GPT-4 Turbo 簡單和其他模型對比了一下美國高考 SAT 的成績:
同樣,看起來聰明的程度並沒有拉開代差,甚至還有點退步。不過必須要指出的是,實驗的樣本數量很小。
綜上所述,GPT-4 Turbo 的這一波更新更重要的是完善了功能,增加了速度,準確性是否提高仍然存疑。這或許與整個大模型業界目前的潮流一致:重視最佳化,面向應用。業務落地速度慢的公司要小心了。
另一方面,從這次開發者日的發佈內容來看,OpenAI 也從一個極度追求前沿技術的創業公司,變得開始關注起使用者體驗和生態構建,更像大型科技公司了。
再次顛覆 AI 領域的 GPT-5,我們還得再等一等。
參考內容:
https://venturebeat.com/ai/what-can-you-make-with-openais-gpt-builder-5-early-examples/
https://aider.chat/docs/benchmarks-1106.html
https://weibo.com/2194035935/N8pSZCdxH