• 深度
  • 行業
  • 行業
  • 互動

谷歌AI在游戲中組隊擊敗人類團隊 這一壯舉到底有何意義?

極客網?極客觀察(小刀)6月4日,聽說過“奪旗”嗎?這是一個游戲,夏令營時,孩子們會在空地上玩;一些職業視頻游戲玩家也會玩。不論是在現實世界玩還是在電腦上玩,“奪旗”都是一個團隊游戲。兩隊人馬對峙,都想奪走對方的旗幟,帶回基地,并守衛自己的旗幟。想成為贏家需要團隊合作,在防守與反擊之間保持協調。

換句話說,奪旗需要高超的人類技巧。倫敦谷歌AI實驗室的研究人員向我們證明,機器可以不斷學習,掌握游戲,至少在虛擬世界可以做到。

111111111111111.jpg

谷歌AI研究人員發表論文稱,它們已經開發出一套自動“代理”,在Quake III游戲內,它們可以玩“奪旗”游戲。代理可以組隊對抗人類玩家,或者與代理團隊對決。

谷歌旗下實驗室DeepMind的研究人員Wojciech Czarnecki說:“它們可以適應擁有任意技能的隊友。”

代理不斷玩游戲,學了幾千小時之后就能掌握一些特殊技巧,比如當一名團隊成員即將奪到旗幟時,它們會沖向敵軍基地。因為人類玩家都知道,當對方的旗幟被帶回基地時,會有一面新的旗幟出現在對方基地,等著被奪取。

DeepMind正在開發AI,它可以玩復雜的3D視頻游戲,比如Quake III、Dota 2、《星際爭霸2》。許多人相信,如果AI能夠在虛擬競技場獲得勝利,它也許能變成自動系統,用于現實世界。

例如,類似的技術可以用在倉庫機器人身上,讓機器人組隊搬運貨物,從一個地方運到另一個地方,或者幫助自動駕駛機器人穿過擁擠的車流。OpenAI研究人員Greg Brockman解釋說:“游戲一直以來都是AI的評測基準。如果你不能解決游戲問題,就無法解決其它問題。”

不久之前,想開發一套AI系統,讓它在Quake III之類的游戲中對抗人類,還是一件不可能的事。就在前幾年,DeepMind、OpenAI及其它實驗室取得明顯進步,它們用到一種新的數學技術,也就是“增強學習”,有了這種技術,機器可以通過極端試錯不斷學習。

通過一次又一次的游戲,自動代理不斷學習,理解到哪種策略能帶來成功,哪種不能。當一名團隊成員即將奪到旗幟,如果朝著敵軍的基地沖鋒能拿到更多點數,代理會將這種策略吸收進去。

u=3566728245,179483006&fm=26&gp=0.jpg

正是憑借這一策略,2016年DeepMind開發的AI代理在圍棋上擊敗人人類。第一稱視頻游戲更復雜一些,如果是兩個團隊對決,那就更復雜了。DeepMind的自動代理玩了大約45萬回合的游戲,學著奪旗,相當于在幾周的時間內訓練了4年。最開始時,代理慘敗。但它最終理解到了游戲的訣竅,比如當它們襲擊敵軍的基地時,何時應該追隨隊友前進。

DeepMind還在開發可以擊敗人類的《星際爭霸2》代理,OpenAI研究人員也開發了一套可以玩Dota 2的代理。4月份,在Dota 2游戲中,5個代理組成團隊,擊敗了5名人類頂尖高手組成的團隊。

William Lee是一名職業Dota 2玩家,去年,他曾經與早期版本的AI系統對決,一對一玩游戲,當時AI并沒有給William Lee留下深刻印象。后來代理不斷學習,當William Lee以團隊成員的身份與AI團隊對決時,他為AI的表現感到震驚。William Lee說:“我原本以為,機器不可能以5對5的方式玩游戲,更別說贏了。所以我感到很驚訝。”

AI可以在游戲中戰勝人類,這樣的技術真的可以用來解決現實問題嗎?佐治亞理工學院計算機系教授Mark Riedl認為,AI代理并沒有真正協作,它們只是對游戲中發生的事迅速回應,并不是AI代理之間傳遞了信息,人類玩家會傳遞信息。

雖然AI的表現看起來像是協作,但它們之所以做到是因為AI深刻理解到游戲中正在發生什么事。

DeepMind研究人員Max Jaderberg說:“你如何定義團隊合作,這不是我們想解決的問題。當一名代理坐在敵軍基地里,等著旗幟出現,這種行為只有依賴團隊成員才能實現。”

Riedl認為,游戲沒有現實世界復雜,游戲里的3D環境是精心設計的,導航更容易,在Quake游戲中執行戰略、追求協作更簡單一些。

增強學習適合這樣的游戲。在視頻游戲中,成功的標準就是拿到更多點數。在奪旗游戲葉,奪取的旗幟越多,點越多。但在真實世界,成功不是用點數來衡量的,它有多種多樣的衡量標準。

timg.jpg

不過做一些簡單任務還是可以的。OpenAI訓練一只機器人手臂,讓它操縱字母塊。你讓手臂展示字母A,它就會將A字母塊展示給你看。谷歌也向我們演示,機器可以學著挑選隨機物件,比如乒乓球、塑料香蕉,然后將它們扔到相隔一段距離的垃圾桶。類似的技術可以用在倉庫。

想解決更復雜的問題,需要更強的計算力。OpenAI系統花了幾個月時間學著玩Dota 2游戲,玩的時間累計超過45000年,它需要依賴幾萬顆計算機芯片才能完成。Brockman說,租賃這些芯片花了計算機幾百萬美元。

DeepMind和OpenAI能夠承擔高昂的成本,但是其它學術實驗室、小機構承受不起。有人擔心,少數財大氣粗的實驗室將會成為未來AI的統治者。

不過即使是大型實驗室,恐怕也沒有足夠強的計算力可以驅動用于現實世界的技術。雖然AI可以在虛擬世界奪旗,擊敗人類,但在夏令營空地上,它們沒有希望登場,至少短期之內看不到希望。

+加載更多