av大片免费观看-av大片免费看-国产精品国产三级国产普通话蜜臀-国产精品国产三级国产在线观看-久久福利小视频-久久福利一区-欧美日韩二区三区-欧美日韩福利-色婷婷成人网-色婷婷导航-亚洲男人天堂影院-亚洲男人网-2018年亚洲欧美在线v-亚洲香蕉aⅴ视频在线播放-少妇爆乳无码专区网站-亚洲aⅴ天堂av在线电影

清華打造足球AI:首次實現同時控制10名球員完成比賽,勝率94.4%

“只見4號球員在隊友的配合下迅速攻破后防,單刀直入,一腳射門,球,進了!”

觀眾朋友們大家好,您現在看到的是谷歌AI足球比賽的現場,場上身著黃色球衣的是來自清華大學的AI球員。

這屆清華AI可不一般,他們在艱苦訓練之下,不僅有個人能力突出的明星球員,也有世界上最強最緊密的團隊合作

在多項國際比賽中所向披靡,奪得冠軍

“Oh,現在7號接過隊友傳來的助攻,臨門一腳,球又進了!”

言歸正傳,以上其實是清華大學在足球游戲中打造的一個強大的多智能體強化學習AI——TiKick

在多項國際賽事中奪得冠軍則是指,TiKick在單智能體控制和多智能體控制上均取得了SOTA性能,并且還是首次實現同時操控十個球員完成整個足球游戲。

這支強大的AI團隊是如何訓練出來的呢?

從單智能體策略中進化出的多智能體足球AI

在此之前,先簡單了解一下訓練所用的強化學習環境,也就是這個足球游戲:Google Research Football(GRF)。

它由谷歌于2019年發布,提供基于物理的3D足球模擬,支持所有主要的比賽規則,由智能體操控其中的一名或多名足球運動員與另一方內置AI對戰。

在由三千步組成的上下半場比賽中,智能體需要不斷決策出移動、傳球、射門、盤球、鏟球、沖刺等19個動作完成進球。

在這樣的足球游戲環境中進行強化學習難度有二:

一是因為多智能體環境,也就是一共10名球員(不含守門員)可供操作,算法需要在如此巨大的動作空間中搜索出合適的動作組合;

二是大家都知道足球比賽中一場進球數極少,算法因此很難頻繁獲得來自環境的獎勵,訓練難度也就大幅增大。

而清華大學此次的目標是控制多名球員完成比賽。

他們先從Kaggle在2020年舉辦的GRF世界錦標賽中,觀摩了最終奪得冠軍的WeKick團隊數萬場的自我對弈數據,使用離線強化學習方法從中學習。

這場錦標賽只需控制場中的一名球員進行對戰。

如何從單智能體數據集學習出多智能體策略呢?

直接學習WeKick中的單智能體操作并復制到每個球員身上顯然不可取,因為這樣大家都只會自顧自地去搶球往球門沖,根本就不會有團隊配合。

又沒有后場非活躍球員動作的數據,那怎么辦?

他們在動作集內添加了第二十個動作:build-in,并賦予所有非活躍球員此標簽(比賽中若選用build-in作為球員的動作,球員會根據內置規則采取行動)。

接著采用多智能體行為克隆(MABC)算法訓練模型。

對于離線強化學習來說,最核心的思想是找出數據中質量較高的動作,并加強對這些動作的學習。

所以需在計算目標函數時賦予每個標簽不同的權重,防止球員傾向于只采用某個動作作為行動。

這里的權重分配有兩點考慮:

一是從數據集中挑選出進球數較多的比賽、只利用這些高質量的數據來訓練,由于獎勵較為密集,模型能夠加速收斂并提高性能。

二是訓練出Critic網絡給所有動作打分,并利用其結果計算出優勢函數,然后給予優勢函數值大的動作較高的權重,反之給予較低的權重。

此處為了避免梯度爆炸與消失,對優勢函數做出了適當的裁剪。

最終的分布式訓練架構由一個Learner與多個Worker構成。

其中Learner負責學習并更新策略,而Worker負責搜集數據,它們通過gRPC進行數據、網絡參數的交換與共享。

Worker可以利用多進程的方式同時與多個游戲環境進行交互,或是通過I/O同步讀取離線數據。

這種并行化的執行方式,也就大幅提升了數據搜集的速度,從而提升訓練速度(5小時就能達到別的分布式訓練算法兩天才能達到的同等性能)。

另外,通過模塊化設計,該框架還能在不修改任何代碼的情況下,一鍵切換單節點調試模式和多節點分布式訓練模式,大大降低算法實現和訓練的難度。

94.4%的獲勝率和場均3分的凈勝分

在多智能體(GRF)游戲上的不同算法比較結果中,TiKick的最終算法(+AW)以最高的獲勝率(94.4%)和最大的目標差異達到了最佳性能。

TrueSkill(機器學習中競技類游戲的排名系統)得分也是第一。

TiKick與內置AI的對戰分別達到了94.4%的勝率和場均3分的凈勝分。

將TiKick與GRF學術場景中的基線算法進行橫向比較后發現,TiKick在所有場景下都達到了最佳性能和最低的樣本復雜度,且差距明顯。

與其中的基線MAPPO相比還發現,在五個場景當中的四個場景都只需100萬步就能達到最高分數。

最后,獻上TiKick對戰全場視頻供大家欣賞:

作者介紹

一作黃世宇,清華大學博士生,研究方向為計算機視覺、強化學習和深度學習的交叉領域。曾在華為諾亞方舟實驗室、騰訊AI、卡內基梅隆大學和商湯工作。

共同一作也是來自清華大學的陳文澤。

此外,作者還包括來自國防科技大學的Longfei Zhang、騰訊AI實驗室的Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清華大學的Chen Ting。

通訊作者為清華大學的朱軍教授。

論文地址:https://arxiv.org/abs/2110.04507

項目地址:https://github.com/TARTRL/TiKick

參考鏈接:https://zhuanlan.zhihu.com/p/421572915

本文來自微信公眾號“量子位”(ID:QbitAI),作者:豐色,36氪經授權發布。

av大片免费观看-av大片免费看-国产精品国产三级国产普通话蜜臀-国产精品国产三级国产在线观看-久久福利小视频-久久福利一区-欧美日韩二区三区-欧美日韩福利-色婷婷成人网-色婷婷导航-亚洲男人天堂影院-亚洲男人网-2018年亚洲欧美在线v-亚洲香蕉aⅴ视频在线播放-少妇爆乳无码专区网站-亚洲aⅴ天堂av在线电影
  • <tfoot id="u2uyu"><delect id="u2uyu"></delect></tfoot><cite id="u2uyu"><center id="u2uyu"></center></cite>
  • <table id="u2uyu"></table><li id="u2uyu"><source id="u2uyu"></source></li>
    <abbr id="u2uyu"></abbr>
    <strike id="u2uyu"></strike>
    <strike id="u2uyu"><acronym id="u2uyu"></acronym></strike>
    <rt id="u2uyu"><tr id="u2uyu"></tr></rt>
    <button id="u2uyu"></button>
    <abbr id="u2uyu"></abbr>
  • <button id="u2uyu"></button>
    主站蜘蛛池模板: 欧美成人激情视频| 日本久久亚洲电影| 91中文在线观看| 欧美视频在线观看 亚洲欧| 亚洲a∨日韩av高清在线观看| 色综合91久久精品中文字幕| 国产午夜精品久久久| 国产精品99久久久久久白浆小说| 日韩少妇与小伙激情| 亚洲福利视频二区| 欧美在线视频网站| 欧美日韩国产91| 在线视频亚洲欧美| 亚洲va码欧洲m码| 国产精品91在线| 久久久噜久噜久久综合| 日韩中文字幕在线免费观看| 91啪国产在线| 国产精品91视频| 91国语精品自产拍在线观看性色| www.xxxx欧美| 亚洲激情免费观看| 国产精品三级美女白浆呻吟 | 久久久国产成人精品| 亚洲精品久久久久中文字幕二区 | 久久香蕉精品香蕉| 亚洲日韩欧美视频| 亚洲高清久久久久久| 国产日韩中文在线| 91chinesevideo永久地址| 欧美性xxxxx极品| 精品国产自在精品国产浪潮| 亚洲午夜未删减在线观看 | 日本午夜人人精品| 久久久欧美一区二区| 黑人巨大精品欧美一区二区| yellow中文字幕久久| 国产一区二区三区视频免费| 精品视频在线导航| 亚洲黄色av女优在线观看| 亚洲黄色www|