要說有什麼瓜,能從去年吃到今年,那必須得有紐約時報 「 開撕 」OpenAI 的一席之地。

為了防止有差友還不知道這事兒,我先簡單交代下背景。

去年年底,紐約時報突然向法院起訴微軟和 OpenAI ,給他們安的罪名是大模型侵犯了紐約時報的文章版權

還在自家網站上發了篇文章,專門報道了這事兒。

一時間,輿論紛紛開始討伐 OpenAI 。

而就在幾天前,另外一位當事人 OpenAI 卻大喊冤枉,還指責紐約時報沒有說實話。

給一眾吃瓜群眾,看得是一愣一愣的。

其實之前 OpenAI 因為訓練資料的事情,也沒少被起訴過,但都沒有這次這麼大的陣仗。

一邊是老牌傳統媒體,一邊是新興 AI 巨頭,事情發生後,有人把這次的案件,拔到了 AI 版權糾紛 「里程碑」 的高度。

」 的高度

甚至,還有不少科技、媒體圈的大佬親自下場站隊。

可現在的情況是,公說公有理婆說婆有理,那到底怎麼一回事?

抱著說什麼都得把這瓜吃明白的決心,世超在瓜田裡上躥下跳,終於把來龍去脈給理清楚了。

在紐約時報洋洋灑灑 22000 頁的起訴書裡,羅列了 OpenAI 包括未經授權拿文章訓練大模型、 ChatGPT 生成了高雷同的作品,以及把生成的虛假資訊甩鍋給紐約時報等等罪名。

而且證據,也準備得非常充分

而且證據,也準備得非常充分。

就比如,他們說 GPT-2 和 GPT-3 的訓練資料都大量地使用了紐約時報的文章內容。

在 GPT-3 的訓練資料中,有 60% 來自一個叫CommonCrawl資料集,這個資料集中域名為 www.nytimes.com 的來源,僅次於維基百科和美國專利檔案資料庫。

並且,他們也合理懷疑, GPT-3.5 和 GPT-4 也同樣使用了他們的資料。

到這兒,其實訓練資料的證據還不算是最關鍵的。

再往下看, GPT 生成的內容和紐約時報的原文幾乎達到了雷同 99% 的程度。

像這篇紐約時報的報道,左邊是 GPT-4 生成的內容,右邊是報道原文。

標紅的部分,就是輸出內容和原文重複的地方。

類似的情況還有很多,起訴書一眼望去,齊刷刷一大片紅色。

紐約時報還專門準備了個附件,詳細列舉了一百來個雷同的範例。

不僅如此, OpenAI 還被指控 「砸了紐約時報的飯碗」 。

比如,一篇在紐約時報上需要付費閱讀的文章,使用者現在可以通過跟 ChatGPT 對話就白嫖全文。

像這樣,告訴 ChatGPT 因為付費沒法兒看某篇文章,讓它給你打出原文的第一段。

再一段接著一段地問,讓 ChatGPT 把原文全都吐出來。

生成內容和原文對比,相同的部分也同樣被標紅了。

這就相當於,使用者現在完全可以繞過付費牆,直接看文章了。

而且,因為 Bing 檢索了紐約時報的線上時事新聞,但又比傳統搜尋引擎呈現的內容更詳細,這就導致了紐約時報的網站流量被截胡

說實話,看完起訴書後我覺得 OpenAI 這麼做確實有那麼點不厚道。

這也難怪,紐約時報在最後的訴求裡要 OpenAI 賠償數十億美元的損失。

不過,這也只是紐約時報的一面之詞,咱們再來看看 OpenAI 是怎麼喊冤的。

先說 「 沒有講述完整的故事 」

先說 「 沒有講述完整的故事 」 。

根據 OpenAI 的說法,去年 12 月月中的時候,他們還在跟紐約時報協商合作。

但沒想到,不過幾天時間就讓紐約時報給起訴了,而且他們還是看了新聞報道才知道這事兒。。。

從 OpenAI 的角度來看,這波明顯是被背刺了。

所以針對起訴書中的幾個關鍵性問題, OpenAI 也作出了回應。

一個是訓練資料,在 OpenAI 看來,使用網上公開的資料訓練大模型屬於版權法中 「合理使用」 的範疇。

」 的範疇

也就是,在某些特定情況下,即使沒有版權方的同意,也可以直接使用其作品。

早年間,Google就因為掃描紙質書上傳到Google圖書,被出版商和作家起訴了,但最後法院還是認定Google的行為符合 「 合理使用 」 。

但這次,紐約時報並不買賬,咬定大篇幅雷同的內容並不符合 「 合理使用 」 。

對此, OpenAI 也解釋了雷同內容有可能是因為大模型 「反芻」 。

就是,大模型在輸出內容的時候,將訓練資料也原封不動交代出來。

不過根據 OpenAI 的解釋,在去年 7 月發現類似情況的時候,他們就已經採取措施限制了這種 「 反芻 」 。

雖然沒有完全消除 bug ,但像起訴書裡出現的上百個案例,還是很罕見的情況,除非是有人故意引導

而且他們好幾次聯繫紐約時報,想看看到底是怎麼個事兒,都被拒之門外。

所以 OpenAI 覺得自己怪冤枉的,又把髒水潑了回去,給紐約時報安了個 「故意操控模型」 的罪名。

一直到現在,紐約時報都還沒出來回應。

反正這瓜吃到這,劇情是越來越精彩,但也越來越讓人摸不著頭腦了。

包括輿論,也是亂成了一鍋粥。

紐約時報剛交起訴書的時候,就有國外知名媒體人 Jason Kint 連發了十幾條推文為它發聲。

即使在看了 OpenAI 回應後,他還是堅持自己的立場。

但 TechDirt 的記者卻認為,紐約時報這是想借機敲 OpenAI 一筆。

有不少網友留言說,按照起訴書裡的提示詞,自己沒法兒重現類似的 「 反芻 」bug ,懷疑紐約時報在起訴書中提供證據的真實性。

而在 OpenAI 回應後, AI 大佬吳恩達也趕來聲援。

按照他的說法,起訴書中 ChatGPT 吐出原文的情況,可能是由於類似RAG ( 檢索增強生成 )的機制導致的。

的機制導致的

打個比方,你問大模型《 紅樓夢 》的某個情節,這個時候檢索器會到知識庫裡找到相關的文件,大模型再根據這些文件來生成回答。

這種機制,就有可能導致生成出來的東西跟檢索到的內容重複。

並且,吳恩達也認為 AI 用網上公開的資料拿來訓練,屬於 「 合理使用 」 。

但評論區還是各執己見,有說 bug 不是因為 RAG 機制,有不贊成 「 合理使用 」 的說法。。。

一直到現在,也沒人能說得清楚到底誰對誰錯。

所以,咱們還是法庭上見分曉吧。

撰文:西西編輯:面線封面:煥妍

圖片、資料來源

OpenAI、The New York Times、techdirt

X(Twitter):@Jason Kint、@Andrew Ng、@Kristen Ruby、@Roma Lobanov

Source

Visited 5 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x