大模型幻覺率排行:GPT-4 3%最低,GooglePalm竟然高達27.2%
編輯:大盤雞
排行榜一出,高下立見。
人工智慧發展進步神速,但問題頻出。OpenAI 新出的GPT 視覺 API 前腳讓人感嘆效果極好,後腳又因幻覺問題令人不禁吐槽。
幻覺一直是大模型的致命缺陷。由於資料集龐雜,其中難免會有過時、錯誤的資訊,導致輸出質量面臨著嚴峻的考驗。過多重複的資訊還會使大模型形成偏見,這也是幻覺的一種。但是幻覺並非無解命題。開發過程中對資料集慎重使用、嚴格過濾,構建高質量資料集,以及最佳化模型結構、訓練方式都能在一定程度上緩解幻覺問題。
流行的大模型有那麼多,它們對於幻覺的緩解效果如何?這裡有個排行榜明確地對比了它們的差距。

該排行榜由專注於 AI 的 Vectara 平臺發佈。排行榜更新於 2023 年 11 月 1 日,Vectara 表示後續會隨著模型的更新繼續跟進幻覺評估。
項目地址:https://github.com/vectara/hallucination-leaderboard
為了確定這個排行榜,Vectara 使用各種開源資料集對摘要模型進行了事實一致性研究,並訓練了一個模型來檢測 LLM 輸出中的幻覺。他們使用了一個媲美 SOTA 模型,然後通過公共 API 向上述每個 LLM 輸送了 1000 篇簡短文件,並要求它們僅使用文件中呈現的事實對每篇文件進行總結。在這 1000 篇文件中,只有 831 篇文件被每個模型總結,其餘文件由於內容限制被至少一個模型拒絕回答。利用這 831 份檔案,Vectara 計算了每個模型的總體準確率和幻覺率。每個模型拒絕響應 prompt 的比率詳見 「Answer Rate」一欄。發送給模型的內容都不包含非法或 不安全內容,但其中的觸發詞足以觸發某些內容過濾器。這些檔案主要來自 CNN / 每日郵報語料庫。

需要注意的是,Vectara 評估的是摘要準確性,而不是整體事實準確性。這樣可以比較模型對所提供資訊的響應。換句話說,評估的是輸出摘要是否與源檔案「事實一致」。由於不知道每個 LLM 是在什麼資料上訓練的,因此對於任何特別問題來說,確定幻覺都是不可能的。此外,要建立一個能夠在沒有參考源的情況下確定回答是否是幻覺的模型,就需要解決幻覺問題,而且需要訓練一個與被評估的 LLM 一樣大或更大的模型。因此,Vectara 選擇在總結任務中查看幻覺率,因為這樣的類比可以很好地確定模型整體真實性。
檢測幻覺模型地址:https://huggingface.co/vectara/hallucination_evaluation_model
此外,LLM 越來越多地用於 RAG(Retrieval Augmented Generation,檢索增強生成)管道來回答使用者的查詢,例如 Bing Chat 和Google聊天集成。在 RAG 系統中,模型被部署為搜尋結果的彙總器,因此該排行榜也是衡量模型在 RAG 系統中使用時準確性的良好指標。
由於 GPT-4 一貫的優秀表現,它的幻覺率最低似乎是意料之中的。但是有網友表示,GPT-3.5 與 GPT-4 並沒有非常大的差距是令他較為驚訝的。

LLaMA 2 緊追 GPT-4 與 GPT-3.5 之後,有著較好的表現。但Google大模型的表現實在不盡人意。有網友表示,Google BARD 常用「我還在訓練中」來搪塞它的錯誤答案。

有了這樣的排行榜,能夠讓我們對於不同模型之間的優劣有更加直觀的判斷。前幾天,OpenAI 推出了 GPT-4 Turbo,這不,立刻有網友提議將其也更新在排行榜中。

下次的排行榜會是怎樣的,有沒有大幅變動,我們拭目以待。
參考連結:
https://twitter.com/bindureddy/status/1724152343732859392
https://twitter.com/vectara/status/1721943596692070486
