More  

收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

小編的世界 優質文選 生物

反向傳播和生物學沒關系?大牛:在反向傳播基礎上找到生物學解釋


字體大小:
2021年2月25日 -
:     
 

新智元

萬象大會年度獲獎創作者,新智元官方帳號

新智元導讀反向傳播和生物學無關?近期網上出現了一些質疑,那麼二者之間真的沒有關系?也許Hinton和Bengio的想法可以解答你的疑惑。

2007年,深度學習研究的先驅們在NIPS召開期間發起了一場關於「深度學習」的非正式研討會,當時距離深度神經網絡接管人工智能還有幾年時間。

這次會上,最後一位發言人是多倫多大學的傑弗裏·辛頓(Geoffrey Hinton),他以一個笑話開場:「大概一年前,我回家吃晚飯,我說,‘我想我終於弄明白大腦是怎麼工作的了’,我15歲的女兒說,‘哎呀,爸爸,又來了,別這樣了。」觀眾大笑。

辛頓繼續說:「而這,就是它的工作原理」。這又引發了更多的笑聲。

人工智能領域一直都有一個嚴肅的追求:如何利用人工智能來理解大腦。今天,深層神經網絡統治人工智能的部分原因是源於反向傳播(backpropagation)算法。

但是真正的大腦不可能依賴反向傳播算法。「大腦的概括和學習能力比最先進的AI系統更快更好」(Bengio),而且反向傳播不符合大腦的解剖學和生理學,特別是在大腦皮層。

許多研究人員一直在思考更具生物學意義的學習機制,其中,反饋比對法、平衡傳播法和預測編碼法具有獨特的應用前景。

一些研究人員還將某些類型的皮層神經元和注意力等過程的特性加入到他們的模型中,這些研究使我們更能理解哪些算法可能在大腦中起作用。

「人們普遍認為,對於大腦這個巨大的謎團,如果我們能夠解開其中的一些原理,那將對人工智能有所幫助。但它本身也有價值。」Bengio說。

通過「反向傳播」學習

幾十年來,神經科學家關於大腦如何學習的理論主要受到1949年提出的「赫布理論」影響,通常被解釋為「共同激發的神經元之間存在連接」,即相鄰神經元的活動越相關,它們之間的突觸聯系就越強。

這個原則經過一些修改後,成功解釋了某些類型的學習和分類任務。

赫布規則在使用錯誤信息時,是一種的非常狹窄、特殊且不敏感的方法。盡管如此,這對神經科學家來說,仍然是最好的學習規則,甚至在20世紀50年代後期,它就激發了第一個人工神經網絡的發展。

這些網絡中的每個人工神經元接收多個輸入並產生一個輸出,就真實的神經元一樣。人工神經元用一個所謂的「突觸」權重(一個表示該輸入重要性的數字),然後對輸入進行加權求和。

到了20世紀60年代,這些神經元可以被組織成一個有輸入層和輸出層的網絡,人工神經網絡可以被訓練來解決某些簡單的問題。

在訓練過程中,神經網絡為其神經元確定最佳權值,以降低誤差。

然而直到1986年以前,沒有人知道如何有效地訓練帶有隱藏層的人工神經網絡,直到Hinton發表了「反向傳播算法」相關論文。

對大腦來說反向傳播是不可能的

反向傳播的發明立即引起了一些神經科學家的強烈抗議,他們認為這種方法不可能在真正的大腦中起作用。

首先,雖然計算機可以很容易地在兩個階段實現該算法,但是對於生物神經網絡來說,這樣做並不簡單。

其次,是計算神經科學家所說的權重傳遞問題: 反向傳播算法複制或「傳輸」關於推理所涉及的所有突觸權重的信息,並更新這些權重以獲得更高的准確性。

但是在生物網絡中,神經元只能看到其他神經元的輸出,而不能看到影響輸出的突觸權重或內部過程。

從神經元的角度來看,「知道自己的突觸權重是可以的,你不能知道其他神經元的突觸權重。」

任何生物學上似乎可行的學習規則也需要遵守神經元只能從相鄰神經元獲取信息的限制; 反向傳播可能需要從更遠的神經元獲取信息。

因此,「如果你反向傳播信號,大腦似乎不可能計算。」

更像生命體

2016年,DeepMind的Timothy Lillicrap提供了一個解決權重傳遞問題的特殊方法:使用一個隨機值初始化的矩陣作為反向傳遞的權重矩陣,而不使用正向傳遞。

一旦被賦值,矩陣中的值是恒定的,因此不需要為每個反向通道傳輸權重。讓人驚訝的是,網絡仍然是可訓練的。

由於用於推理的正向權值和每次反向通道的更新頻率一致,因此網絡仍然沿著不同的路徑減小誤差。

正向權重慢慢地與隨機選擇的反向權重對齊,最終得到正確的答案,這種算法就是「反饋對齊」。

對於大規模的問題和具有更多隱藏層的更深層次的網絡,反饋對齊不如反向傳播好: 因為正向權重的更新不如真正的反向傳播信息准確,所以訓練網絡需要更多的數據。

在辛頓研究的基礎上,本吉奧的團隊在2017年提出了一個學習規則,要求神經網絡具有循環連接(也就是說,如果神經元A激活神經元B,那麼神經元B反過來激活神經元A)。

如果給這樣一個網絡一些輸入,網絡就會自我學習,每個神經元都與直接相鄰的神經元來傳遞權重。

神經網絡達到一個最終狀態,在這個狀態中神經元與輸入以及彼此之間處於平衡,它產生一個輸出,然後該算法將輸出神經元推向預期結果。

這就通過網絡設置了另一個反向傳播的信號,引發了類似的動態。網絡找到了新的平衡點。訓練網絡在大量的標記數據上重複這個「平衡傳播」過程。

預測知覺

Beren Millidge提出的預測編碼(predictive coding),也同樣要求反向傳播。「如果合理設置預測編碼,將會生成一個在生物學上看起來很合理的學習規則。」

預測編碼假定大腦不斷地對感覺輸入的原因進行預測。這個過程包括了神經處理的層次結構。

為了產生特定的輸出,每一層必須預測前一層的神經活動。如果最上層想要看到一張臉,那他就會預測前一層的活動來判斷這種感知的預測。

前面的層對更前的層進行相似的預測,以此類推。最低層能夠預測實際的感受輸入,比如說光子落在視網膜上。

通過這種方式,高層的感知能力流向低層。

但是錯誤可能發生在任何一個網絡中的任何一個層,每層的期望的輸入和實際的輸入之間的存在誤差。

最底層根據接收到的感知信息調整突觸的權重來降低誤差。這個調整結果導致了更新後的高層和更上面一層之間的誤差,因此更高層也必須調整突觸的權重來降低預測誤差。

這些錯誤信號向上逐層傳遞,直到每層的預測誤差都達到最小值。通過適當的設置,預測編碼網絡可以收斂到和反向傳播幾乎相同的學習梯度值。

然而,對於反向傳播運行一次來說,預測編碼網絡必須迭代多次。盡管如此,如果可以接受一定程度上不准確的預測結果,預測編碼通常可以快速地得到有用的答案。

錐體神經元

一些科學家已經開始研究基於單個神經元的已知特性來構建類似反向傳播的算法。

標准神經元有樹突,它們從其他神經元的軸突中收集信息。樹突傳遞信號到神經元的細胞體來整合信號。

但並非所有的神經元都有這種結構。特別是錐體神經元,它在大腦皮層中有著最豐富的的神經元類型。

錐體神經元具有樹狀結構,有兩套不同的樹突。樹幹向上伸展,分枝形成所謂的頂端樹突。

樹幹向上延伸,分枝形成頂端樹突。根向下延伸,分枝形成基部樹突。

2001年由Kording獨立開發的模型已經表明錐體神經元能夠同時進行向前和向後計算,可以作為深度學習網絡的基本單元。

模型的關鍵是分離進入神經元的信號,包括前向推理或者向後的流動誤差。這些誤差可以通過基樹突和頂樹突分別處理。

這兩種信號都可以編碼在神經元傳遞到軸突電活動的尖峰中。

Richards的團隊最新研究表明,已經可以通過相當真實的神經元模擬,來訓練錐體神經元網絡去完成各種各樣的任務。

沒有人會告訴大腦神經元該打開/關閉

對於使用反向傳播的深度網絡,一個隱含的要求就是必須有「老師」來幫助計算神經元網絡的誤差。

但是,大腦中沒有一個老師會告訴運動皮層中的每一個神經元,「你應該被打開,你應該被關閉。」

Roelfsema認為大腦解決這個問題的方案是「注意力」。

在上世紀90年代後期,他和他的同事發現,當猴子盯著一個物體,在大腦皮層中表示該物體的神經元變得更加活躍。

猴子集中注意力的行為給相關的神經元一個反饋信號。

「這是一個高度選擇性的反饋信號,它不是一個錯誤信號。他只是告訴這些神經元:你們負責這個動作。」

當這種反饋信號與其他神經科學的研究成果結合起來時,可以實現類似反向傳播學習的效果。

劍橋大學的Wolfram Schultz和其他研究人員已經證明:當動物做一個行動產生比預期更好的結果時,大腦中的多巴胺系統就會被激活。

「他讓整個大腦充滿了神經調節劑。多巴胺水平就像一個全局強化的信號。」

理論上,注意力的反饋信號只能通過更新對應的突觸權重來啟動那些負責對整體強化信號做出反應的神經元。

Roelfsema和他的同事利用這個想法構建了一個深層神經網絡,並且研究了數學屬性,得到的是和反向傳播基本相同的等式,但在生物學上有了合理的解釋。

這個團隊在NIPS上展示了這項工作,它可以被訓練成深層次的網絡,這只比反向傳播慢兩到三倍,比其他所有生物學相關的算法都要快。

鑒於這些進步,計算神經學家們對未來的發展十分樂觀。

Hinton提出的反向傳播,並且是深度學習的大大牛,但是現在他一直在否定自己的工作,提出膠囊網絡還有其他工作來增加生物學上的解釋。

參考資料:

https://www.quantamagazine.org/artificial-neural-nets-finally-yield-clues-to-how-brains-learn-20210218/