天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

時代焦點網 - 專業(yè)財經新聞門戶
當前位置: 時代焦點網 -> 熱點

清華打造足球AI:首次實現(xiàn)同時控制10名球員完成比賽,勝率94.4%

發(fā)布時間:2021-11-13 20:23   來源:IT之家   閱讀量:10837   

只見 4 號球員在隊友的配合下迅速攻破后防,單刀直入,一腳射門,球,進了!

清華打造足球AI:首次實現(xiàn)同時控制10名球員完成比賽,勝率94.4%

觀眾朋友們大家好,您現(xiàn)在看到的是谷歌 AI 足球比賽的現(xiàn)場,場上身著黃色球衣的是來自清華大學的 AI 球員。

這屆清華 AI 可不一般,他們在艱苦訓練之下,不僅有個人能力突出的明星球員,也有世界上最強最緊密的團隊合作。

在多項國際比賽中所向披靡,奪得冠軍。

Oh,現(xiàn)在 7 號接過隊友傳來的助攻,臨門一腳,球又進了!

言歸正傳,以上其實是清華大學在足球游戲中打造的一個強大的多智能體強化學習 AI——TiKick。

在多項國際賽事中奪得冠軍則是指,TiKick 在單智能體控制和多智能體控制上均取得了 SOTA 性能,并且還是首次實現(xiàn)同時操控十個球員完成整個足球游戲。

這支強大的 AI 團隊是如何訓練出來的呢。

從單智能體策略中進化出的多智能體足球 AI

在此之前,先簡單了解一下訓練所用的強化學習環(huán)境,也就是這個足球游戲:Google Research Football。

它由谷歌于 2019 年發(fā)布,提供基于物理的 3D 足球模擬,支持所有主要的比賽規(guī)則,由智能體操控其中的一名或多名足球運動員與另一方內置 AI 對戰(zhàn)。

在由三千步組成的上下半場比賽中,智能體需要不斷決策出移動,傳球,射門,盤球,鏟球,沖刺等 19 個動作完成進球。

在這樣的足球游戲環(huán)境中進行強化學習難度有二:

  • 一是因為多智能體環(huán)境,也就是一共 10 名球員可供操作,算法需要在如此巨大的動作空間中搜索出合適的動作組合,

  • 二是大家都知道足球比賽中一場進球數(shù)極少,算法因此很難頻繁獲得來自環(huán)境的獎勵,訓練難度也就大幅增大。

而清華大學此次的目標是控制多名球員完成比賽。

他們先從 Kaggle 在 2020 年舉辦的 GRF 世界錦標賽中,觀摩了最終奪得冠軍的 WeKick 團隊數(shù)萬場的自我對弈數(shù)據(jù),使用離線強化學習方法從中學習。

這場錦標賽只需控制場中的一名球員進行對戰(zhàn)。

如何從單智能體數(shù)據(jù)集學習出多智能體策略呢。

直接學習 WeKick 中的單智能體操作并復制到每個球員身上顯然不可取,因為這樣大家都只會自顧自地去搶球往球門沖,根本就不會有團隊配合。

又沒有后場非活躍球員動作的數(shù)據(jù),那怎么辦。

他們在動作集內添加了第二十個動作:build—in,并賦予所有非活躍球員此標簽 。

接著采用多智能體行為克隆 算法訓練模型。

對于離線強化學習來說,最核心的思想是找出數(shù)據(jù)中質量較高的動作,并加強對這些動作的學習。

所以需在計算目標函數(shù)時賦予每個標簽不同的權重,防止球員傾向于只采用某個動作作為行動。

這里的權重分配有兩點考慮:

  • 一是從數(shù)據(jù)集中挑選出進球數(shù)較多的比賽,只利用這些高質量的數(shù)據(jù)來訓練,由于獎勵較為密集,模型能夠加速收斂并提高性能。

  • 二是訓練出 Critic 網絡給所有動作打分,并利用其結果計算出優(yōu)勢函數(shù),然后給予優(yōu)勢函數(shù)值大的動作較高的權重,反之給予較低的權重。

此處為了避免梯度爆炸與消失,對優(yōu)勢函數(shù)做出了適當?shù)牟眉簟?/p>

最終的分布式訓練架構由一個 Learner 與多個 Worker 構成。

其中 Learner 負責學習并更新策略,而 Worker 負責搜集數(shù)據(jù),它們通過 gRPC 進行數(shù)據(jù),網絡參數(shù)的交換與共享。

Worker 可以利用多進程的方式同時與多個游戲環(huán)境進行交互,或是通過 I/O 同步讀取離線數(shù)據(jù)。

這種并行化的執(zhí)行方式,也就大幅提升了數(shù)據(jù)搜集的速度,從而提升訓練速度。

另外,通過模塊化設計,該框架還能在不修改任何代碼的情況下,一鍵切換單節(jié)點調試模式和多節(jié)點分布式訓練模式,大大降低算法實現(xiàn)和訓練的難度。

94.4% 的獲勝率和場均 3 分的凈勝分

在多智能體游戲上的不同算法比較結果中,TiKick 的最終算法以最高的獲勝率和最大的目標差異達到了最佳性能。

TrueSkill得分也是第一。

TiKick 與內置 AI 的對戰(zhàn)分別達到了 94.4% 的勝率和場均 3 分的凈勝分。

將 TiKick 與 GRF 學術場景中的基線算法進行橫向比較后發(fā)現(xiàn),TiKick 在所有場景下都達到了最佳性能和最低的樣本復雜度,且差距明顯。

與其中的基線 MAPPO 相比還發(fā)現(xiàn),在五個場景當中的四個場景都只需 100 萬步就能達到最高分數(shù)。

一作黃世宇,清華大學博士生,研究方向為計算機視覺,強化學習和深度學習的交叉領域曾在華為諾亞方舟實驗室,騰訊 AI,卡內基梅隆大學和商湯工作

共同一作也是來自清華大學的陳文澤。

論文地址:

項目地址:

參考鏈接:

。

聲明:本網轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。