AI“寫”出來的新聞,能信嗎?
本文來自微信公眾號:中國工程院院刊(ID:CAE-),作者: ,本文選自中國工程院院刊《》2020年第7期,原文標題:《前沿熱點丨人工智能增強型媒體:我們還能相信新聞嗎?》,頭圖來自:電影《華盛頓郵報》
導語
在當今的數字世界,隨著計算機、互聯網以及智能手機、社交媒體的出現,用來處理照片和其他媒體的工具越來越多,人工智能可以用更復雜程序進一步改變數字媒體。出于各種目的,人們可以使用這些程序近乎完美地篡改和處理各種視頻、照片、音頻和文本。這種人工智能增強型媒體(新聞),我們還能相信嗎?
中國工程院院刊《》刊發《人工智能增強型媒體——我們還能相信新聞嗎?》一文指出,在數字媒體領域,針對人工智能帶來的變化和挑戰,如視頻“深度造假”“口型同步”等現象,促使計算機科學家和工程師不斷開發人工智能算法(取證軟件)來檢測視頻和音頻是否被修改。文章指出,盡管出現了一些人工智能的負面應用,但是也有許多正面的應用,如改善有言語障礙的人的視頻或音頻記錄等,推動運用人工智能技術來生成可靠的文本和語音,促進科學技術的進步。
雖然消息、信件甚至照片的內容和意圖都有可能被篡改,但是人們通常不會認為它們被篡改了,因為這并不是件容易的事情。但在當今的數字世界中,情況已不再如此。隨著計算機、互聯網以及近年來智能手機和社交媒體的出現,用來處理照片和其他媒體的工具也迅速出現?,F在,人工智能(AI)正在用更復雜的程序進一步改變數字媒體,出于各種目的,人們可以使用這些程序近乎完美地處理各種視頻、照片、音頻和文本。
紐約州立大學奧爾巴尼分校計算機科學教授兼計算機視覺和機器學習實驗室主任 Lyu說:“處理照片的歷史與攝影本身一樣古老。最近的變化則是其與AI結合,從而擴大照片處理的操作范圍。過去,處理照片需要大量的時間、精力以及特殊的培訓和設備?!盠yu說,有了功能強大的計算機和足夠的知識來運行算法,現在就可以在更大的范圍內處理視頻。
計算機工程師也在努力完善用于“自然語言處理”的AI系統,該系統可以生成與人類語言非常接近的文本和語音。
例如,在2019年年初,位于舊金山的研究實驗室宣布他們已經開發出一種最先進的文本生成器,叫做GPT-2,該生成器可以根據少量提示,用英語寫出連貫的句子,甚至寫出短篇小說和詩歌。研究人員最初不愿發布該軟件的完整模型,因為他們擔心該軟件因效果太好,而被惡意利用,如被用于生成“假新聞”。但是在看到“沒有強有力的濫用證據”之后,他們在2019年11月放松了限制。但是,在這種媒體和其他媒體中,老話“眼見為實”似乎已成為了假新聞。
等用來修改照片的軟件已經存在了一段時間(圖1),現在,人們也可以輕松地操縱視頻了。最常見的處理方法是深度造假(),指將一個人(目標)的臉與另一個人(供體)的臉交換。
深度造假的另一種類型是“口型同步”,指通過修改源視頻,使得講話者嘴部的動作與另一個音頻保持一致。如果處理得好,輸出的視頻將會非常逼真,看起來講話者說出了一些實際上他們從未說過的話。此類欺騙性視頻可以并且曾經被用來操縱公眾輿論,實施欺詐以及抹黑他人。
圖1 使用 軟件,用16張不同的照片創建了這個奇特但逼真的風景。由AI算法驅動的軟件現在提供了工具,讓人們可以更輕松地創建逼真但被處理過和(或)模擬生成的視頻、文本和語音。圖片來源: (CC BY-SA 3.0)
在實踐中,要生成深度造假視頻,需要將數據(大量圖片或者文本)輸入到一種叫做生成對抗網絡(GAN)的機器學習工具中。最簡單的生成對抗網絡包含兩個神經網絡,用來開發和改進模型將輸入數據轉化成新圖片和新視頻的能力。早期算法使用海量數據集進行訓練,這些數據來自政客和名人等容易獲得的圖像。雖然這一過程曾經需要程序員進行某種程度上的監督,但最新的程序幾乎是完全自動化的。
“不需要大量的訓練數據,短短10 s的視頻就足夠了?!眮喞D侵萘⒋髮W(位于坦佩市)計算機科學與工程學教授 說,他也是人類感知AI的專家。但是使用較長的視頻訓練模型并使用具有至少1000個高質量幀的源視頻,將得到質量更好的輸出視頻。對于視頻中的每一幀,算法都能夠繪制出人頭上的“標記”,以及人的頭部姿勢、視線,以及更詳細的特征,包括眉毛、眨眼、眼瞼、上下嘴唇、臉頰、下巴和酒窩。
輸出視頻中,人的運動看起來像人類視覺所期望的那樣流暢。但是,如果處理不當,輸出視頻可能會有破綻,這些內容可能會使敏銳的觀看者懷疑視頻被修改過?!坝袝r候會出現奇怪的現象,例如,面部特征的拉伸或扭曲與正常面部特征不完全匹配?!备トR徹·瓊斯計算學者、美國加利福尼亞州克萊蒙特市斯克里普斯學院媒體研究專業的訪問教授Doug 說。例如,如果訓練數據的分辨率不足,則輸出視頻可能具有模糊的區域,在嘴中出現白色條紋,而不是單個的牙齒,或者面部毛發沒有按照應有的方式運動。說,使用包含各種面部表情和吐字的數據訓練后,算法的效果會更好。
處理技術的進步促使了計算機科學家和工程師開發 AI算法(取證軟件)來檢測視頻和音頻是否被修改?!叭∽C工具可以檢測合成的媒體,并判斷它是由機器還是由人生成的。但是,如果不對這些工具保密,那么總是可以制作出繞過工具的媒體?!奔永D醽喆髮W圣地亞哥分校計算機科學博士 說,他的研究方向包括音頻和視頻的深度造假。
處理和檢測之間的拉鋸戰類似于病毒和防病毒軟件的計算機安全軍備競賽,其中,補丁程序阻止了黑客,而黑客又找到了繞過補丁程序的方法。專家發現了一個缺陷,使他們能夠檢測出被修改過的媒體,隨后媒體的生成者調整算法,生成更逼真的假媒體。例如,第一代的深度造假軟件會生成不定期眨眼的臉,導致造假很容易被檢測出來,而下一代深度造假軟件便修復了這一問題。說,另一個例子是,一個包含時任美國總統巴拉克·奧巴馬的視頻被人為修改,使其看起來像是他說了一些實際上沒說過的話,但視頻中他的眉毛運動與嘴唇運動不符。但在后來的深度造假視頻中,奧巴馬的眉毛如預期般正常地動了起來。由于可以訓練AI來檢測和修復此類差異,因此最新一代的深度造假軟件幾乎沒有破綻。
出現了許多AI的負面應用,但是也有許多正面的應用,它們推動了技術的進步。例如,改善有言語障礙的人的視頻或音頻記錄,為電影添加更逼真的外語配音,甚至在電影中重現已故演員飾演的角色。例如,在《星球大戰外傳:俠盜一號》中,重現了已故演員卡麗·費雪飾演的萊婭公主。結合了該項技術的虛擬現實游戲或其他娛樂活動看起來很有發展前景。
正如上面提到的,計算機科學家也在使用 AI來生成可靠的文本和語音。像修改視頻一樣,這種技術也使用了GAN來生成逼真的句子。例如,谷歌翻譯現在就使用了這種AI算法。這些算法足夠復雜精妙,可以以特定人物的風格生成文本,如生成看似出自已故作家簡·奧斯汀之手的新故事。程序員也在社交媒體等平臺上創造了聊天機器人,該聊天機器人具有足夠的閱讀和真實聽覺,可以像真人一樣與潛在客戶互動。亞馬遜的和蘋果的Siri可能是使用最廣泛的 AI通信的商業應用,它們基于云的語音服務被設定為模仿與客戶的真實對話。雖然和Siri不是真人,但它們的確能夠給出問題的真實答案。
說,迄今為止,程序員在生成逼真的視頻和圖像方面取得了更大的進步。他說,如果當前的趨勢繼續發展下去,可能很快就可以構建AI算法,來創造全新且可信的語音,并自動將其與模擬音頻和視頻融合。這種前景及其在詐騙中的潛在用途,促使研究人員開發自動檢測深度造假視頻的代碼,并呼吁社交媒體網站將此類媒體標識為被篡改過的媒體。2020年12月,與、亞馬遜和包括Lyu在內的學術界計算機科學家合作發起了深度造假檢測挑戰賽,號召研究人員提交自己的自動檢測工具,并有機會贏得100萬美元的獎金。美國國防高級研究計劃局的工程師也在研究自動檢測視頻或照片是否被篡改的工具。
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。