More  

收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

小編的世界 優質文選 科學

AI生成數據會“毒害”新模型,人工智能會“吃掉”自己嗎?


字體大小:
2024年1月11日 -
:       
 

隨著人工智能(AI)生成的內容充斥互聯網,它正在破壞未來模型訓練的數據。當AI“吃掉”自己時,會發生什麼?

得益於生成式人工智能的蓬勃發展,普通人也可隨時使用計算機程序來生成文本、計算機代碼、圖像和音樂。與此同時,新的AI模型開發需要更多數據進行訓練,這些由AI生成的內容可能很快會進入訓練新模型的數據集。一些專家表示,這將在無意中引入錯誤,並隨著每一代模型的誕生而不斷積累。

越來越多證據顯示,人工智能生成的文本,即使被引入訓練數據集的量很少,最終也會對訓練中的模型產生“毒害”。而目前,幾乎還沒有有效的“解毒劑”。英國愛丁堡大學信息學院計算機科學家裏克·薩卡爾說:“雖然現在或幾個月後,這可能還不是問題,但我相信,幾年後這將成為一個必須要面對的問題。”

AI生成數據“毒害”已真實存在

AI模型以自身產生的數據“毒害”自身的狀況,可能有點類似於核試驗帶給人類的困境。

自1945年人類引爆第一顆原子彈後,數十年的核試驗使得大量放射性塵埃進入地球大氣層。而當這些空氣進入新制造的鋼材時,就會增高這些鋼材的輻射性。

對輻射特別敏感的鋼材應用而言,例如蓋革計數器(一種用於測量放射性輻射的探測器),就必需使用低輻射金屬。因此,人們只能搶購日益減少的低輻射金屬,比如在舊船殘骸中尋找1945年前生產的鋼鐵廢料。

amocity
amocity

  


一些業內人士認為,類似的循環將在AIGC中重演——研究人員不得不尋找沒有被“汙染”的訓練數據。

AI模型是如何“中毒”的?研究人員將一些由AI生成的語料作為訓練數據,“喂”給一個正在訓練的語言模型,然後使用它所輸出的結果再來訓練新模型,並重複這一循環。他們發現,模型每迭代一次,錯誤就會疊加一次。當人們要求第10次被訓練出的模型寫出有關英國歷史建築的內容時,它“吐出”的卻是有關豺兔的一堆胡言亂語。

英國牛津大學機器學習研究員伊利亞·舒邁洛夫及其同事稱這種現象為“模型崩潰”。他們在語言模型、生成手寫數字和區分概率分布等模型中,都觀察到了這種現象。“即使在最簡單的模型中,這種情況也已經發生。”舒邁洛夫說,“我向你保證,在更複雜的模型中,也肯定已經發生了”。

在最近的一項預印本研究中,薩卡爾及其在西班牙馬德裏和英國愛丁堡的同事,用一種名為擴散模型的AI圖像生成器進行了類似的實驗:第一個模型可以生成可識別的花朵或鳥類,但到了第三個模型,所生成的圖片就變得模糊不清了。

薩卡爾說,其他測試也表明,即使是部分由AI生成的訓練數據集也是“有毒”的。他解釋說:“只要有一部分訓練數據源自人工智能所生成的內容,就會產生問題。”但更多具體細節還有待研究。

目前研究表明,模型在其數據的“尾部”(模型訓練集中出現頻率較低的數據元素)所受到的影響最大。由於這些尾部包含的數據與“標准”相去甚遠,模型崩潰可能導致AI輸出的結果失去“人類數據”特有的多樣性。

令舒邁洛夫特別擔心的是,這會加劇模型對邊緣群體的既有偏見,“我們需要加緊努力,來遏制這種情況的發生”。

阻止“模型崩潰”尚需求解

無可辯駁的事實是,AI生成的內容已經開始進入機器學習工程師們所習慣於獲取訓練數據的領域。以語言模型為例:即使是主流新聞媒體也已經開始發布人工智能生成的文章,一些百科網站的編輯也希望使用語言模型為網站生成內容。

瑞士洛桑聯邦理工學院(EPFL)學者維尼亞明·韋謝洛夫斯基認為,人類正處於這樣一個拐點,“許多我們用來訓練模型的現有工具,很快就會被AI生成的文本‘喂飽’”。

有跡象表明,AI生成的數據也可能通過其他途徑進入模型訓練。韋謝洛夫斯基及其同事通過統計分析發現,已有約1/3的醫學研究摘要有ChatGPT生成文本的痕跡。

amocity
amocity

  


EPFL小組的研究成果於上個月發布在預印本服務器arXiv.org上。不過,機器學習工程師們也提出反駁。EPFL的研究生馬諾埃爾·奧爾塔·裏貝羅認為,使用ChatGPT對文本數據進行注釋更加便捷且效果更佳。

面對模型崩潰的威脅,機器學習工程師該怎麼辦?答案可能相當於蓋革計數器中的戰前鋼鐵:已知不受(或盡可能不受)AIGC影響的數據。

例如,薩卡爾提出了采用“標准化”圖像數據集的想法。這些數據集將由人類進行策劃,因為人類知道這些數據集的內容僅由人類創作組成,並且可供開發人員免費使用。

一些工程師可能想打開互聯網檔案館,查找AI熱潮之前的內容,但舒邁洛夫並不認為使用歷史數據是一種解決方案。首先,可能沒有足夠的歷史信息來滿足不斷增長的模型需求。另外,這些歷史數據不一定能反映不斷變化的世界。

“如果你想收集過去100年的新聞,並試圖預測今天的新聞,這顯然是行不通的,因為技術和時代都已經發生了變化。”舒邁洛夫說。

因此,我們面臨的挑戰可能更為直接:從合成內容中分辨出人工生成的數據,並過濾掉後者。不過,即使有了這方面的技術,這也遠不是一項簡單的任務。正如薩卡爾指出的那樣,如果Adobe Photoshop允許用戶使用人工智能生成技術編輯圖像,那麼這樣編輯出來的圖像到底是不是人工智能生成的呢?

作者:楊馥溪/編譯

編輯:許琦敏

*文匯獨家稿件,轉載請注明出處。