ChatGPT的學術造假能力已經達「專業水準」
以Chat GPT為代表的人工智慧工具,依靠其強大的文字生成能力,早已經無可避免地滲入到了學術論文寫作領域。當人們還在驚歎於AI論文的流暢結構、精準表達之時,AI工具們又「向前邁出了一大步」,它們已經成為了一個學術造假的高手。
圖片來源:Mateusz Slodkowski
專業水平的學術造假
11月9日,一篇發表在JAMA Ophthalmol的論文展示了Chat GPT的驚人學術造假能力[1]。論文中,作者以GPT-4為基礎,並用Python演算法模型高級資料分析(Advanced Data Analysis, ADA) 對其進行拓展,得到了一個偽造實驗資料的利器。研究人員使用這項AI工具生成了一個以假亂真的實驗資料集,按照這些偽造的實驗資料,人們可以「資料翔實」地支持一項與實際情況不符的科學假設。
換言之,AI已經學會了高超的學術造假技藝。
接下來,我們來細緻地感受一下AI的造假水平。研究人員要求AI偽造的實驗資料,是關於一種重要的致盲性眼病——圓錐角膜(Keratoconus)。該病的特徵是角膜中央或旁中央擴張變薄並向前呈錐形突出,常造成高度不規則散光,晚期視力顯著下降而致盲。
部分圓錐角膜患者必須接受手術治療,常見的術式有兩種:一種是穿透性角膜移植術(PK),該術式會切除患者角膜中所有受損層(全層),並用捐贈者的健康組織替換之;另一種則是板層角膜移植術(DALK),該術式僅替換角膜的前層,而最內層保持完整。
而研究人員指示AI偽造的實驗資料,正是為了論證「DALK療效優於PK」。
為了偽造支持這一結論的資料,AI生成了包括160名男性和140名女性參與者的實驗資料,資料範圍包括評估角膜形狀並檢測不規則性的成像測試,以及實驗參與者在手術前後的視力差異。這些偽造資料表明,接受 DALK術式的人,在術後的視力和成像測試得分都高於接受PK術式的人。
圖片來源:Paweł Jońca
AI偽造的這些資料完全符合科研正規化,即便是一個該領域內接受過專業學術訓練的研究人員,也無法遽然判斷這些AI生成資料的真偽。除非他們自己去做一遍相應的實驗。
當然,研究人員選取的這項關於圓錐角膜的研究,其實早已有相應的臨床試驗資料。2010年一項涉及77名參與者的試驗報告顯示,在手術後長達2年的時間內,DALK和PK兩種術式的療效沒有顯著區別。AI的實驗資料只是徹頭徹尾的杜撰。這種強大造假能力令人擔憂。
AI給學術帶來的負面挑戰
在前一段時間沸沸揚揚的室溫超導事件,某些團隊爭先恐後地公佈發現室溫超導,並迅速引發了世界範圍內的輿論風暴,但所謂的室溫超導卻難以復現,最終留下不了了之的一地雞毛。這說明了在許多領域,識別一些實驗資料的有效性或真偽,其實並非那麼容易。尤其是在這些資料「看似十分可靠」的時候。
但現在AI將學術造假的門檻進一步拉低,人們可以以很低的成本得到這些「看似十分可靠的虛假實驗資料」。
AI在這種專業級的學術造假都信手拈來,某些輕量級的「學術造謠」則更是不在話下。
今年年初的一項預印本文章表明,AI可以輕鬆杜撰令人信服的虛假論文摘要,而即使是科學家群體,也難以分辨這些論文摘要是否由AI生成[2]。
圖片來源:Ascannio
研究人員要求Chat GPT根據《美國醫學會雜誌》 、《新英格蘭醫學雜誌》、 《英國醫學雜誌》、《柳葉刀》和《自然醫學》上的論文內容,撰寫50篇醫學研究論文的摘要。
然後,研究人員分別讓抄襲檢測器、AI輸出檢測器以及一組醫學研究人員來判斷這些摘要是否由AI生成。首先是抄襲檢測器,AI生成摘要的原創性得分中位數為100%,完全不能甄別出AI生成摘要;然後是AI輸出檢測器,這項工具甄別出了 66% 的AI生成摘要,效果也不理想;最後是醫學研究人員的人工鑑別,他們僅甄別出了68%的AI生成摘要,而且他們還把14%的真實摘要判斷成了AI生成的。
可以說人工組的戰績和AI輸出檢測器是半斤八兩。而這樣的鑑別準確率顯然是十分低下的。
這種輕量級的「學術造謠」雖然不如實驗資料造假那麼「專業」,但可以在大眾層面的科學傳播中發揮影響力。所謂造謠一張嘴,闢謠跑斷腿。有了AI工具的加持,科學傳播中魚目混珠的現象會更加嚴重。
不可迴避,也不必迴避
AI工具的迅速發展,給學術界尤其是學術出版領域提出了考驗。一項設計100家出版商和期刊的調查研究發現,截至今年5月,有17%的出版商和70% 的期刊發佈了關於生成式AI的使用規定。儘管他們對於AI的態度各有不同,但顯然AI工具在學術出版領域已經成為了一個不可迴避的問題。
事實上,運用AI輔助論文寫作成為了相當普遍的現象,但出於各種原因,作者們並不總是樂意披露這個事實。
今年8月9日, Physica Scripta發表了一篇論文,報道發現了一個複雜數學方程的新解[3]。但「科研偵探」Guillaume Cabanac 在文章的第三頁上發現了一個奇怪的短語:「Regenerate response」(重新生成回覆)。
這個憑空冒出來的短語,顯然來自於ChatGPT上的按鈕,粗心大意的作者可能是在複製的時候沒注意一起給粘貼上去了。
論文中的「奇怪短語」和ChatGPT的「重新回覆」按鈕
圖片來源:pubpeer
面對鐵證如山,論文作者不得不向期刊承認,他們確實使用了ChatGPT來幫助起草論文。Physica Scripta的誠信負責人Kim Eggleton後續表示:期刊已決定撤回該論文,因為作者在提交論文時沒有聲明他們使用了AI工具,「這違反了我們的學術道德政策」。
科研偵探Cabanac表示,今年光是這種誤粘貼ChatGPT按鈕短語的「社死」論文,他就找到了十幾篇。他全給截圖發PubPeer上了,並且認為「這只是冰山一角」。
但是,當我們在談論AI工具所應發的負面影響的時候,更應當看到它們所帶來的便捷與進步。下方是Nature向科學家們對AI好處的一項調查,結果發現:科學家們認為AI在「幫助母語非英語的科學家」、程式設計領域以及加速文獻閱讀等方面幫助很大。
資料來源:Nature
因此,我們不難看出AI在當下科研工作中已扮演重要角色,並且在未來它們的影響會越來越重要。
我們的態度,不應是一刀切的反對,也不應是對AI帶來的各種影響放任不管。生物學家兼資料科學家Roy Kishony表示,我們的目標應當是探索ChatGPT作為科研「副駕駛」的潛力,「我們需要討論如何才能獲得好處,同時減少壞處」。
在技術發展的洪流中,掌握好這一根平衡杆,是不容易的。但也唯有如此做,學界才能獲得最長遠的發展收益。更重要的是,我們似乎也別無選擇——面對AI,我們不必迴避,況且也避無可避。
參考文獻:
[1] Taloni, A., Scorcia, V. & Giannaccare, G. JAMA Ophthalmol.
[2] https://doi.org/10.1101/2022.12.23.521610 (2022).
[3] https://iopscience.iop.org/article/10.1088/1402-4896/aceb40