打王者榮耀的騰訊絕悟AI，這次贏了谷歌足球Kaggle競賽！

電競 2021年1月01日

智東西

智能行業媒體官方賬號，鯤鵬計劃獲獎作者,優質創作者

▲絕悟WeKick（黃色球衣）vs SaltyFish（本次競賽第二名）近期的一局比賽實錄：絕悟WeKick射門

在架構遷移的基礎上，絕悟WeKick版本針對足球任務進行了一些針對性的調整，使其能適應11智能體足球遊戲訓練環境，展現了絕悟AI背後深度強化學習方法的通用能力。

絕悟WeKick版本如何實現了比其它競爭AI球隊更強的優勢？這裏，我們對其贏得冠軍背後的核心技術進行解讀。一、足球AI賽題首發，逾1100支科研隊伍參戰

一直以來，足球運動團隊策略以其複雜性、多樣性和高難度，成為長期困擾世界頂尖AI研究團隊的難題，更加稀疏的遊戲激勵使其成為比MOBA遊戲更難攻克的目標。

創立於2010年的Kaggle，是全球最大的數據科學社區和數據科學競賽平台。此次競賽是Kaggle首次針對足球AI領域發布賽題，由Google Research與英超曼城俱樂部在Kaggle平台上聯合舉辦，這為深度強化學習多智能體技術競技和基准評測提供了一個全新平台。

比賽使用Google Research Football強化學習環境，基於開源足球遊戲Gameplay Football開發，采取11 vs 11的賽制，參賽團隊需要控制其中1個智能體與10個內置智能體組成球隊，兼具挑戰性和趣味性。

一經推出，便吸引了來自世界頂級院校和研究機構的1100多支科研強隊參與挑戰。最終，騰訊派出的絕悟WeKick球隊，憑借1785.8的總分以顯著優勢獲勝。

▲Kaggle競賽Google Football排行榜前五名

大賽排行榜：https://www.kaggle.com/c/google-football/leaderboard二、11個強化學習智能體的協作與對抗

Google Football（on Kaggle）以流行的足球遊戲為模型，就像是一款由AI操作的FIFA遊戲，智能體控制足球隊中的一個或所有足球運動員，學習如何在他們之間傳球，並設法克服對手的防守以進球。

其競賽規則與普通足球比賽類似，比如目標都是將球踢入對方球門以及越位、黃牌和紅牌規則。

不同於常見足球視頻遊戲的統一調控式NPC球隊，在本次Kaggle競賽中，每個球員都各由一個單獨的智能體控制，而參賽的AI模型則根據比賽情況控制其中一個智能體，與其他10個內置智能體配合。

這要求每個球員不僅需要觀察對手的行為，還需要留意己方隊員的情況，因此背後需要非常複雜的團隊協作和競爭策略作為支撐。

▲絕悟WeKick（黃色球衣）vs SaltyFish（本次競賽第二名）近期的一局比賽實錄：絕悟WeKick傳球

比如當對方球員控球時，己方智能體不僅要根據球場上雙方球員的分布位置，預測控球球員的下一步動作，還需要與己方其他球員協同如何合規地奪取足球的控制權。由於球場動態瞬息萬變，因此高速的實時決策能力也是必需的。

此外，從零開始完全采用強化學習方法來訓練完整的足球AI也相當困難。

與MOBA遊戲中不斷有經濟、血量、經驗等實時學習信號不同，足球的遊戲激勵非常稀疏，基本只能依靠進球，而稀疏激勵一直是目前強化學習一大難題。三、絕悟AI如何奪冠？解讀關鍵技術秘籍

那麼，絕悟AI如何走上冠軍之路？

得益於深度強化學習在遊戲領域突飛猛進的發展，從Atari遊戲、圍棋再到更多類型的視頻遊戲，AI智能體不斷迭代優化，逐漸攻克更難的策略協作型任務。

與多數參賽隊伍一樣，絕悟WeKick版本采用了強化學習和自博弈（Self-Play）
來從零開始訓練模型。其訓練的基礎架構基於絕悟完全體的架構遷移得到，總體上采用一種改進版PPO強化學習算法，在價值估計上采用了多頭價值（MHV）估計方案，在特征設計上對標准的115維向量進行了擴展，使之包含更多特征。

▲架構概況

絕悟WeKick版本部署了一種異步的分布式強化學習框架
。該異步架構雖然犧牲了訓練階段的部分實時性能，但顯著提升了靈活性，還支持在訓練過程中按需調整計算資源。

由於MOBA遊戲和足球遊戲任務目標的差異，絕悟WeKick版本在特征與獎勵設計上進行了擴展和創新，采用了生成對抗模擬學習（GAIL）與人工設計的獎勵結合
的方法，來擬合專家行為的狀態和動作分布，使得其可以從其它球隊學習，再將GAIL訓練的模型作為固定對手進行進一步自博弈訓練，從而進一步提升策略的穩健性。

▲GAIL的優勢（WeKick的獎勵設計綜合了Reward Shaping和GAIL兩種方案）

但通過自博弈強化學習得到的模型有一個天然的缺點：很容易收斂到單一風格。在實際比賽中，單一風格的模型可能因沒見過某種打法而表現失常，最終導致成績不佳。

於是為提升策略的多樣性和穩健性，絕悟WeKick版本還采用了針對多智能體學習任務的League（若幹策略池）多風格強化學習訓練方案
。

該方案的主要流程可總結為“先專精，後綜合”。

1、訓練一個具備一定程度競技能力的基礎模型，比如運球過人、傳球配合、射門得分；

2、基於基礎模型訓練出多個風格化模型，每個模型專注一種風格打法，在風格化模型訓練的過程中會定期加入主模型作為對手，避免過度堅持風格，丟失基本能力；

3、基於多個基礎模型訓練一個主模型，主模型除了以自己的歷史模型為對手以外，還會定期加入所有風格化對手的最新模型作為對手，確保主模型能夠適應風格完全不同的對手。

內部能力評分系統顯示，加入對手池訓練以後的主模型，可以較基礎模型提高200分，比最強的風格化打法高80分。

▲對戰評分

總體來看，基於絕悟完全體的架構遷移、定制化的框架改進，加上關鍵性的生成對抗模擬學習（GAIL）方案和League（若幹策略池）多風格強化學習訓練方案，助力絕悟WeKick最終獲勝。結語：深度強化學習正從遊戲拓展到更多複雜場景

騰訊AI Lab正不斷展現其在前沿AI技術上的研發實力。從圍棋AI絕藝，到MOBA遊戲AI絕悟、絕悟完全體升級，再到如今能適應複雜足球競技場景的AI足球隊WeKick，騰訊AI Lab的深度強化學習智能體正通過持續迭代，逐漸向更複雜更多樣化的問題遷移，並向通用人工智能的終極目標不斷邁進。

據悉，絕悟團隊的研究方向正在從足球比賽中的單個智能體控制向11個智能體同時控制、協同作戰深入。當完整的足球獨立智能體個數達到11個，隨著智能體個數的增長，強化學習的難度將呈現指數級的爆炸增長。同時，足球智能體之間差距不大，如何自動形成角色分工以及在不同角色間的激勵分配，也一直是多智能體強化學習的難題。

在此之前，騰訊絕悟團隊在5v5形式（多智能體）的谷歌天梯比賽Google Research Football League中也獲得冠軍。

這些在不同策略協作型場景中的應用，體現了騰訊絕悟AI底層架構與方法的通用性。長遠來看，絕悟背後的算法積累，未來有望在智慧農業、智慧醫療及智慧城市等更多領域，創造出更大的實用價值。