如果機器能像動物一樣學習與進化會如何?
這是李飛飛團隊的最新研究。
在過去6億年中,動物在復雜的環(huán)境中學習與進化成各異的形態(tài),又利用進化的形態(tài)來學習復雜的任務。如此周而復始的學習與進化,造就了動物的認知智慧。
但其中環(huán)境復雜性、進化形態(tài)和智能控制的可學習性之間的關系原理仍然難以捉摸。
本中提出了一種深度進化強化學習計算框架DERL。它可以演化不同的形態(tài),在復雜的環(huán)境中學習一些具有挑戰(zhàn)性的運動、操縱任務。
最終利用DERL,研究人員證明了環(huán)境復雜性、形態(tài)智能和控制的可學習性之間的幾個關系。
通過學習和進化來實現(xiàn)的形態(tài)智能
創(chuàng)建適應性的形態(tài),在復雜的環(huán)境中學習操縱任務是具有挑戰(zhàn)性的,存在雙重困難。
第一種,在大量可能的形態(tài)組合中進行搜索。第二種,通過終生學習評估適應性所需要計算時間。
因此,此前的工作要么在有限的形態(tài)空間中進化,要么專注于尋找固定的形態(tài)最佳參數(shù),亦或是就在平坦的地形中學習。
為了克服這些實質性的限制,本文提出了深度進化強化學習(Deep Evolutionary Reinforcement Learning,DERL)計算框架。
本文提出了一種高效的異步方法,用于在許多計算元素之間并行化學習和進化基礎計算。
如圖(b)所示,進化的外循環(huán)通過突變操作優(yōu)化機器形態(tài),比如高度、位置、箱子的大小等屬性。
而內(nèi)部的強化學習循環(huán)則用來優(yōu)化神經(jīng)控制器的參數(shù)。
還引入了一個UNIMAL,即UNIversal aniMAL形態(tài)設計空間,如圖(d)所示,它既具有高度的表現(xiàn)力,又豐富了有用的可控形態(tài)。
而復雜環(huán)境由三個隨機生成的障礙物組成:山丘、臺階和碎石。模型必須從初始位置(圖e綠色物體)開始,并將一個盒子移動到目標位置(紅色方塊)。
此外,DERL創(chuàng)建了體現(xiàn)型的模型,不僅可以在較少的數(shù)據(jù)進行學習,還可以泛化解決多個新任務,從而緩解了強化學習的樣本效率低下。
DERL的運作方式是模仿達爾文進化過程中幾代模型在形態(tài)上的搜索、一生中的神經(jīng)學習交織在一起的過程,通過智能控制來評估一個給定形態(tài)解決復雜任務的速度和效果。
總共有8個測試任務,涉及了穩(wěn)定性、敏捷性和操縱性的測試,來評估每個形態(tài)對強化學習的促進作用。
研究人員在每個環(huán)境的3次進化運行中挑選出10個表現(xiàn)最好的形態(tài)。然后,每個形態(tài)從頭開始訓練所有8個測試任務。
最終選出了在不同環(huán)境下演化出的最佳模型形態(tài)。
結果發(fā)現(xiàn),通過鮑德溫效應,模型適應性可以在幾代的進化過程中從其表型學習能力迅速轉移到其基因型編碼的形態(tài)上。
(鮑德溫效應:沒有任何基因信息基礎的人類行為方式和習慣,經(jīng)過許多代人的傳播,最終進化為具有基因信息基礎的行為習慣的現(xiàn)象。)
這些進化后的形態(tài)學又賦予了模型更好更快的學習能力,以適應新任務。
團隊猜測,很可能是通過增加被動穩(wěn)定性和能量效能來實現(xiàn)的。
此外還證實了環(huán)境復雜性、形態(tài)智能和可學習性控制之間存在著以下的關系。
首先,環(huán)境復雜性促進了形態(tài)智能的進化,以一種形態(tài)促進學習新任務的能力來量化。
其次,進化時會迅速選擇學習速度較快的形態(tài),這一結果構成了長期以來猜想的形態(tài)學鮑德溫效應的首次證明。
第三,實驗表示, 鮑德溫效應和形態(tài)智能的出現(xiàn)都有一個機理基礎,即通過物理上更穩(wěn)定、能量效率更高的形態(tài)的進化,從而可以促進學習和控制。
團隊介紹
這篇文章李飛飛團隊領銜,由來自斯坦福大學計算機科學系、應用物理系、吳蔡德神經(jīng)科學研究所等團隊共同研究。
第一作者是Agrim Gupta,斯坦福大學二年級博士生,致力于研究計算機視覺。
論文鏈接:
https://arxiv.org/abs/2102.02202