2023年4月26日,《》子刊《NPJ 》(IF= 15.357)刊登了一項研究, 對于生成論文摘要和真實發表的摘要,AI檢測工具和審稿人是否能正確識別出來呢?讓我們看一下這項研究的發現。

的人工智能(AI)工具于2022年11月30日發布,展示出了AI模型生成內容的能力,很快就有文章指出的可能用途和爭議。

有文章哀嘆大學布置的作業已失去意義, 因為可以生成高分論文,還能正確回答考試問題,甚至可以清晰地表達批判性思維。目前,在論文寫作中可接受的界限尚不清楚ChatGPT論文生成,不過一些出版商已制定了相關政策。

大型語言模型(LLM)生成的文本,很難與人編寫的文本區分開來。隨著的發布,強大的LLM技術提供給廣大用戶,數百萬人正在使用這項新技術。那么問題來了, 能寫出令人信服的醫學研究論文摘要嗎?

先看一下生成的論文摘要

本研究從這5本期刊收集了最新幾期發表的 50篇真實文章標題和摘要,5本期刊是 ,JAMA,NEJM,BMJ和。研究者基于這些論文的標題讓生成摘要ChatGPT論文生成,給發送的要求是:按照[xx]期刊的格式撰寫一篇題為[xx]的文章。 也生成了50篇醫學論文摘要。

生成的內容看起來確實像一篇醫學論文摘要,但其實只有8篇摘要(16%)正確使用了相應期刊的摘要格式要求。生成的摘要的樣本量與原始摘要的樣本量類似。

論文生成ppt_論文生成器下載_ChatGPT論文生成

圖. 生成的NEJM文章摘要,該標題對應的真實論文詳見:

N Engl J Med. 2022;387(24):2245-2257.

“GPT-2 ”是一款AI 內容檢測工具,可以檢測內容是人工智能生成的還是人類編寫的,對于檢測的內容會給出一個 “fake”分數,分數越高,代表該內容由AI算法生成的可能性越大。

對于生成的論文摘要,“GPT-2 ”認為AI生成的可能性很高,“fake”得分的中位數達到99.98%,而真實摘要的“fake”得分中位數僅為0.02%。“GPT-2 ”區分真實摘要和生成摘要的靈敏度為86%ChatGPT論文生成,特異度達到94%。

研究者還利用免費的抄襲檢測網站 20和付費的查重工具 23檢測真實摘要和生成的摘要,得分越高表示重復率越高。在 網站上,真實摘要的 “疑似抄襲”得分的中位數為62.5%,而生成的摘要為0%。顯示,原始摘要的相似指數中位數為100,生成的摘要為27。

討 論

本研究發現生成的摘要可以通過AI檢測模型識別出來,人工也能夠識別出大部分,但是仍有可能誤判。

AI生成論文很容易被論文工廠等用來造假。但另一方面,研究人員確實可以利用該技術減輕寫作和格式化工作負擔。

大型語言模型是否能用于論文寫作,不同的期刊和出版商正在或已制定自己的政策,有的不允許任何人工智能生成的文本,有的是只要公開披露就可以。

參考文獻:NPJ Med. 2023;6(1):75.