10年前,word2vec經典論文就預定了今天的NeurIPS時間檢驗獎
機器之心編輯部
在 ChatGPT 引爆 AI 熱潮的 2023,一項推動NLP新時代到來的研究拿到了 NeurIPS 時間檢驗獎。
NeurIPS 是當前全球最負盛名的 AI 學術會議之一,全稱是 Neural Information Processing Systems,神經資訊處理系統大會,通常在每年 12 月由 NeurIPS 基金會主辦。大會討論的內容包含深度學習、計算機視覺、大規模機器學習、學習理論、最佳化、稀疏理論等眾多細分領域。
12 月 10 日,NeurIPS 2023 在美國路易斯安那州新奧爾良市拉開帷幕。根據官網部落格公佈的資料,今年大會收到的論文投稿數量創造了新紀錄,達到 13321 篇,由 1100 名領域主席、100 名高級領域主席和 396 名倫理審稿人審查,其中 3584 篇論文被接收。
剛剛,NeurIPS 官方公佈了 2023 年度的獲獎論文,包括時間檢驗獎、兩篇傑出論文、兩篇傑出論文 runner-up、一個傑出資料集和一個傑出基準,其中大部分論文都是圍繞大型語言模型(LLM)展開的工作。值得注意的是,十年前發佈的 word2vec 相關論文摘得了時間檢驗獎,可謂實至名歸。
以下是獲獎論文的具體資訊。
時間檢驗獎
今年的時間檢驗獎頒給了十年前的 NeurIPS 論文「Distributed Representations of Words and Phrases and their Compositionality」。
這篇論文由當時都還在Google的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰寫,被引量超過 4 萬次。
論文地址:https://arxiv.org/pdf/1310.4546.pdf
NeurIPS 官方給出的頒獎理由是:這項工作引入了開創性的詞嵌入技術 word2vec,展示了從大量非結構化文字中學習的能力,推動了自然語言處理新時代的到來。
在機器之心原創技術分析文章《從 word2vec 開始,說下 GPT 龐大的家族系譜》中,我們曾介紹過 word2vec 的重要性。Word2Vec 和 Glove 等詞嵌入方法可以說是當前最為熱門的 GPT 家族老祖級別的研究,引領了後續龐大的 NLP「家族集團」,也為整個 NLP 技術的蓬勃發展奠定了堅實的基礎。
從 Word2Vec 等詞嵌入技術開始到後續的重要模型
機器之心整理的重要 NLP 模型發展脈絡
所以說,在大模型備受關注的 2023 年,Word2vec 獲得 NeurIPS 的時間檢驗獎也實至名歸了。
這裡補充一句,其實提到 Word2vec,首篇論文應該是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。而投稿到當年 NeurIPS 這篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正讓 Word2vec 被廣泛應用的改進論文。
如果有讀者想要詳細了解、學習 Word2vec,也可以查閱機器之心原創技術分析文章《詞嵌入的經典方法,六篇論文遍歷 Word2vec 的另類應用》。
Main Track 傑出論文獎
獲獎論文 1:Privacy Auditing with One (1) Training Run
-
論文地址:https://arxiv.org/abs/2305.08846
-
機構:Google
摘要:本文提出了一種通過單次訓練來檢查差分隱私機器學習系統的方案。該方案利用了差分隱私機器學習系統能夠獨立添加或刪除多個訓練示例的並行性。研究者們從這一點入手,分析了差分隱私和統計泛化的聯繫,從而避免了群體隱私的成本。這種方案對演算法的假設要求極低,可應用於黑盒或白盒環境。研究者們在 DP-SGD 中運用了這項方案,以檢驗其有效性。在 DP-SGD 中,本文中提出的框架只需要訓練一個模型,就能實現有意義的經驗隱私下界。相比之下,標準方法需要訓練數百個模型。
獲獎論文 2:Are Emergent Abilities of Large Language Models a Mirage?
-
論文地址:https://arxiv.org/abs/2304.15004
-
機構:史丹佛大學
摘要:最近有研究稱,大語言模型「湧現」出了在小規模模型中不存在的能力。大模型「湧現」能力之所以吸引人,有兩個原因:一是其突現性,這些能力幾乎是一瞬間出現的;二是湧現的能力具體將在哪種規模的模型中出現,不可預測。因此,研究者們對湧現能力提出了一種新解釋:對於特定的任務和模型家族,在分析固定的模型輸出時,「湧現」能力的出現是由於研究者選擇了特定的度量標準,而不是模型的表現隨規模發生了根本性的變化。
具體來說,非線性或者不連續度量會產生明顯的「湧現」能力,而線性或連續度量則會產生平滑、連續、可預測的模型性能變化。研究者們在一個簡單的數學模型中提出了這項新解釋,並通過三種互補的方式對其進行了檢驗。首先,他們在 InstructGPT/GPT-3 系列中對聲稱具有「湧現」能力的任務檢驗了這項新假設的三項內容;其次,在 BIG-Bench 的湧現能力元分析中制定、測試並證實了兩個關於度量標準選擇的預測;最後,論文中展示瞭如何選擇度量標準,以在不同深度網路的多個視覺任務中「創造出」前所未有的「湧現」能力。
通過以上的分析,論文證明了所謂的「湧現」能力會隨著不同的度量或統計方式消失,而並非人工智慧的基本屬性得到了擴展。
Main Track 傑出論文 Runner-up 獎
獲獎論文 1:Scaling Data-Constrained Language Models
-
論文連結:https://arxiv.org/abs/2305.16264
-
項目連結:https://github.com/huggingface/datablations
-
機構:Hugging Face、哈佛大學、圖爾庫大學
摘要:增加參數數量、擴大訓練資料集的規模是當今語言模型的發展趨勢。根據這一趨勢推斷,訓練資料集的規模可能很快就會受網際網路上可用文字資料量的限制。受到這一可見趨勢的啟發,有研究者對資料受限情況下語言模型的拓展進行了探索。
具體來說,他們通過改變資料的重複程度和計算預算,進行了大量的實驗。實驗中的資料量最高可達 9000 億個訓練 token,模型規模可達 90 億個參數。研究者發現,在計算預算固定、資料受限的情況下,使用重複資料進行 4 個週期(epoch)的訓練,與使用不重複的資料相比,損失的變化可以忽略不計。然而,隨著重複次數的增加,增加計算量的價值最終會降至零。研究者們進而提出並實證驗證了一個計算最最佳化的擴展定律(scaling law),該定律考慮了重複 token 和多餘參數價值遞減的問題。最後,他們嘗試了多種緩解資料稀缺性的方法,包括使用程式碼資料擴充訓練資料集或刪除常用的過濾器。本研究的模型和資料集可在以下連結中免費獲取:https://github.com/huggingface/datablations
獲獎論文 2:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
-
論文連結:https://arxiv.org/abs/2305.18290
-
機構:史丹佛大學、 CZ Biohub
摘要:雖然大規模無監督語言模型(LMs)可以廣泛地學習世界中的知識,獲得一些推理技能,但由於其訓練完全不受監督,因此很難實現對其行為的精確控制。目前獲得這種可控性通常依靠人類反饋強化學習(RLHF)這種方法實現,收集人類對各種模型生成質量打出的標籤,並根據這些偏好對無監督語言模型進行微調。然而,RLHF 是一個複雜並且經常不穩定的過程。它首先需要擬合一個反映人類偏好的獎勵模型,然後利用強化學習對大型無監督語言模型進行微調,以最大限度地提高預計中的獎勵,同時又不會偏離原始模型太遠。
在這項研究中,研究者們通過獎勵函數和最優策略之間的對映關係證明了只需進行一個階段的策略訓練,就能精確最佳化受限獎勵的最大化問題。從根本上解決了人類偏好資料的分類問題。研究者們稱這種新方法為:直接偏好最佳化(DPO),它穩定、高效、計算量小,無需擬合獎勵模型、在微調過程中從語言模型中取樣,或執行重要的超參數調整。實驗表明,DPO 能夠微調 LM 以符合人類偏好,其效果與現有方法相當或更好。值得注意的是,與 RLHF 相比,使用 DPO 進行微調在控制生成內容的情感、提高摘要和單輪對話的響應質量方面表現更好,同時實現和訓練過程大大簡化。
傑出資料集和基準論文
資料集
獲獎論文:ClimSim: A large Multi-scale Dataset for Hybrid Physics-ML Climate Emulation
-
論文地址:https://arxiv.org/pdf/2306.08754.pdf
-
機構:UCI、 LLNL、Columbia、UCB、MIT、DLR、Princeton 等
論文摘要:由於計算限制,現代氣候預測缺乏足夠的空間和時間解析度,導致對風暴等極端氣候預測不準確、不精確。這時融合物理與機器學習的混合方法引入了新一代保真度更高的氣候模擬器,它們可以通過將計算需求巨大、短時、高解析度的模擬任務「外包」給機器學習模擬器以繞過摩爾定律桎梏。不過,這種混合的機器學習 – 物理模擬方法需要針對特定領域具體處理,並且由於缺乏訓練資料以及相關易用的工作流程,機器學習專家們也無法使用。
本文中,研究者推出了 ClimSim,一個專為混合機器學習 – 物理研究設計的迄今為止最大的資料集,包含了氣候科學家和機器學習研究人員聯合開發的多尺度氣候模擬。具體來講,ClimSim 由 57 億個多元輸入和輸出向量對組成,它們隔絕了局部嵌套、高解析度、高保真度物理對主機氣候模擬器宏觀物理狀態的影響。該資料集覆蓋全球,以高取樣頻率持續多年,設計生成的模擬器能夠與下游的操作氣候模擬器相兼容。
ClimSlim 的局部空間版本。
研究者實現了一系列確定性和隨機迴歸基線,以突出機器學習挑戰和基線得分。他們公開了相關資料和程式碼,用以支持混合機器學習 – 物理和高保真氣候模擬的開發,造福科學和社會。
項目地址:https://leap-stc.github.io/ClimSim/README.html
基準
獲獎論文:DECODINGTRUST: A Comprehensive Assessment of Trustworthiness in GPT Models
-
論文地址:https://arxiv.org/pdf/2306.11698.pdf
-
機構:伊利諾伊大學厄巴納 – 香檳分校、史丹佛大學、UC 柏克萊、AI 安全中心、微軟
論文摘要:GPT 模型在能力層面已經展現出了無與倫比的進展,但有關 GPT 模型可信度的文獻仍然不多。從業者提議將強大的 GPT 模型用於醫療和金融領域的敏感性應用,可能面臨高昂的代價。
為此,本文研究者對大型語言模型進行了全面可信度評估,並以 GPT-4 和 GPT-3.5 為重點模型,充分考慮了不同的視角,包括毒性(toxicity)、刻板印象偏差、對抗穩健性、分佈外穩健性、對抗演示穩健性、隱私、機器倫理道德和公平性等。評估結果發現了以往未曾披露的可信度威脅漏洞,例如 GPT 模型很容易被誤導,從而輸出有毒和有偏見的內容,並洩露訓練資料和對話記錄中的個人資訊。
大模型可信度評估指標。
研究者還發現,雖然在標準基準上 GPT-4 比 GPT-3.5 更值得信賴,但由於 GPT-4 更精確地遵循誤導性指令,因而它也更容易受到攻擊。
基準測試:https://decodingtrust.github.io/
參考連結:https://blog.neurips.cc/2023/12/11/announcing-the-neurips-2023-paper-awards/