Fri. Dec 20th, 2024

OpenAI和紐約時報撕起來了，但可能沒人是冤枉的。

Apr 5, 2024 #科技

c3a1abb2bc045ed94097196eb4d6cd17ab4873ee

要說有什麼瓜，能從去年吃到今年，那必須得有紐約時報「開撕」OpenAI 的一席之地。

為了防止有差友還不知道這事兒，我先簡單交代下背景。

去年年底，紐約時報突然向法院起訴微軟和 OpenAI ，給他們安的罪名是大模型侵犯了紐約時報的文章版權。

還在自家網站上發了篇文章，專門報道了這事兒。

de1a283d37a8800994e707cba24d4a2faaa8db2a

一時間，輿論紛紛開始討伐 OpenAI 。

而就在幾天前，另外一位當事人 OpenAI 卻大喊冤枉，還指責紐約時報沒有說實話。

給一眾吃瓜群眾，看得是一愣一愣的。

其實之前 OpenAI 因為訓練資料的事情，也沒少被起訴過，但都沒有這次這麼大的陣仗。

一邊是老牌傳統媒體，一邊是新興 AI 巨頭，事情發生後，有人把這次的案件，拔到了 AI 版權糾紛「里程碑」的高度。

」的高度

甚至，還有不少科技、媒體圈的大佬親自下場站隊。

可現在的情況是，公說公有理婆說婆有理，那到底怎麼一回事？

抱著說什麼都得把這瓜吃明白的決心，世超在瓜田裡上躥下跳，終於把來龍去脈給理清楚了。

在紐約時報洋洋灑灑 22000 頁的起訴書裡，羅列了 OpenAI 包括未經授權拿文章訓練大模型、 ChatGPT 生成了高雷同的作品，以及把生成的虛假資訊甩鍋給紐約時報等等罪名。

而且證據，也準備得非常充分

而且證據，也準備得非常充分。

就比如，他們說 GPT-2 和 GPT-3 的訓練資料都大量地使用了紐約時報的文章內容。

在 GPT-3 的訓練資料中，有 60% 來自一個叫CommonCrawl資料集，這個資料集中域名為 www.nytimes.com 的來源，僅次於維基百科和美國專利檔案資料庫。

3fac02d5c677347157dea55f7ca9499e46592bd5

並且，他們也合理懷疑， GPT-3.5 和 GPT-4 也同樣使用了他們的資料。

到這兒，其實訓練資料的證據還不算是最關鍵的。

再往下看， GPT 生成的內容和紐約時報的原文幾乎達到了雷同 99% 的程度。

像這篇紐約時報的報道，左邊是 GPT-4 生成的內容，右邊是報道原文。

標紅的部分，就是輸出內容和原文重複的地方。

da57c00e361a078687186d430faa8a21286cf309

類似的情況還有很多，起訴書一眼望去，齊刷刷一大片紅色。

紐約時報還專門準備了個附件，詳細列舉了一百來個雷同的範例。

不僅如此， OpenAI 還被指控「砸了紐約時報的飯碗」。

比如，一篇在紐約時報上需要付費閱讀的文章，使用者現在可以通過跟 ChatGPT 對話就白嫖全文。

像這樣，告訴 ChatGPT 因為付費沒法兒看某篇文章，讓它給你打出原文的第一段。

632182d578cab42672a7a9be00779b0d53da37a6

再一段接著一段地問，讓 ChatGPT 把原文全都吐出來。

eacda2a75cd51f36ab0e681131773ad9f6df8666

生成內容和原文對比，相同的部分也同樣被標紅了。

4b13a55a9023abfc48fd16c7214bf92260571abe

這就相當於，使用者現在完全可以繞過付費牆，直接看文章了。

而且，因為 Bing 檢索了紐約時報的線上時事新聞，但又比傳統搜尋引擎呈現的內容更詳細，這就導致了紐約時報的網站流量被截胡。

c37fc3e28be02fa1a25c0141f6a7425314b52969

說實話，看完起訴書後我覺得 OpenAI 這麼做確實有那麼點不厚道。

這也難怪，紐約時報在最後的訴求裡要 OpenAI 賠償數十億美元的損失。

不過，這也只是紐約時報的一面之詞，咱們再來看看 OpenAI 是怎麼喊冤的。

先說「沒有講述完整的故事」

先說「沒有講述完整的故事」。

根據 OpenAI 的說法，去年 12 月月中的時候，他們還在跟紐約時報協商合作。

但沒想到，不過幾天時間就讓紐約時報給起訴了，而且他們還是看了新聞報道才知道這事兒。。。

從 OpenAI 的角度來看，這波明顯是被背刺了。

所以針對起訴書中的幾個關鍵性問題， OpenAI 也作出了回應。

一個是訓練資料，在 OpenAI 看來，使用網上公開的資料訓練大模型屬於版權法中「合理使用」的範疇。

」的範疇

也就是，在某些特定情況下，即使沒有版權方的同意，也可以直接使用其作品。

早年間，Google就因為掃描紙質書上傳到Google圖書，被出版商和作家起訴了，但最後法院還是認定Google的行為符合「合理使用」。

但這次，紐約時報並不買賬，咬定大篇幅雷同的內容並不符合「合理使用」。

對此， OpenAI 也解釋了雷同內容有可能是因為大模型「反芻」。

就是，大模型在輸出內容的時候，將訓練資料也原封不動交代出來。

add38aee76c7df79bac7043897f203275b29b254

不過根據 OpenAI 的解釋，在去年 7 月發現類似情況的時候，他們就已經採取措施限制了這種「反芻」。

雖然沒有完全消除 bug ，但像起訴書裡出現的上百個案例，還是很罕見的情況，除非是有人故意引導。

而且他們好幾次聯繫紐約時報，想看看到底是怎麼個事兒，都被拒之門外。

所以 OpenAI 覺得自己怪冤枉的，又把髒水潑了回去，給紐約時報安了個「故意操控模型」的罪名。

一直到現在，紐約時報都還沒出來回應。

反正這瓜吃到這，劇情是越來越精彩，但也越來越讓人摸不著頭腦了。

包括輿論，也是亂成了一鍋粥。

紐約時報剛交起訴書的時候，就有國外知名媒體人 Jason Kint 連發了十幾條推文為它發聲。

a106fcd4b344c2a3fc1fd785cb2d9f9ecd1f6fea

即使在看了 OpenAI 回應後，他還是堅持自己的立場。

bdd8d083b53d363c203476cd9d9ef569c81db619

但 TechDirt 的記者卻認為，紐約時報這是想借機敲 OpenAI 一筆。

ff8ccf72357cab4ee0456b085d04386e20944be0

有不少網友留言說，按照起訴書裡的提示詞，自己沒法兒重現類似的「反芻」bug ，懷疑紐約時報在起訴書中提供證據的真實性。

64d6726a2dc0019852781d352966e7b543f8b4e3

而在 OpenAI 回應後， AI 大佬吳恩達也趕來聲援。

8164e31f3c3818b19f5eb68cee42299d332c822b

按照他的說法，起訴書中 ChatGPT 吐出原文的情況，可能是由於類似RAG （檢索增強生成）的機制導致的。

的機制導致的

打個比方，你問大模型《紅樓夢》的某個情節，這個時候檢索器會到知識庫裡找到相關的文件，大模型再根據這些文件來生成回答。

這種機制，就有可能導致生成出來的東西跟檢索到的內容重複。

並且，吳恩達也認為 AI 用網上公開的資料拿來訓練，屬於「合理使用」。

但評論區還是各執己見，有說 bug 不是因為 RAG 機制，有不贊成「合理使用」的說法。。。

05a6c04d01b312692205ad47166b407a030145e3

一直到現在，也沒人能說得清楚到底誰對誰錯。

所以，咱們還是法庭上見分曉吧。

撰文：西西編輯：面線封面：煥妍

圖片、資料來源：

OpenAI、The New York Times、techdirt

X（Twitter）：@Jason Kint、@Andrew Ng、@Kristen Ruby、@Roma Lobanov

0aa159ba5ebb91e8493cfdff2a536f82be22293a

Visited 5 times, 1 visit(s) today

Subscribe

Name*

Email*

Website

Name*

Email*

Website

0 Comments

Most Voted

Newest Oldest

Inline Feedbacks

View all comments

You missed

深度解码SpaceX（下）：二代星座、星盾、马斯克与俄乌冲突

2024-12-20 0 Comment

齐白石画葡萄，真入味

2024-12-20 0 Comment

为了当爹妈，这对不孕小夫妻清空了家里所有“日常用品”！接下来的事震撼所有人…

2024-12-20 0 Comment

10月经济的名与实

2024-12-20 0 Comment

0

Would love your thoughts, please comment.x

()