消息:玩躲貓貓游戲 AI學會攻防術
- 來源: 科技日報 2019-09-19 11:50:32
總部位于舊金山的OpenAI公司近日發表的一篇新論文提出,在兒童的“躲貓貓”游戲中訓練模型,并在數以千萬計的競賽中使它們相互對抗,可導致模型自動發展出類似人類的行為,從而提高智力并改善后續行動的性能。
為什么選擇躲貓貓?
該論文的第一作者、OpenAI研究員博文·貝克認為,躲貓貓被選為一個有趣的起點,主要是因為其規則很簡單。所有游戲中的代理(Agent,也稱智能體,指能自主活動的軟件或硬件實體)都被模擬為球形對象,可執行3種類型的操作:導航、抓住并移動物體、鎖定對象,且只能由該代理的隊友解鎖。
研究人員在模擬的、物理接地的環境中放置了1—3個“躲藏者”和1—3個“尋找者”,房間的邊界是靜態墻。環境中還包括不同尺寸的可移動箱子和可移動坡道。
研究人員使用強化學習來訓練游戲代理,并遵循簡單的躲貓貓規則:隱藏者成功躲過尋找者的追逐,或是尋找者成功找到躲藏者。
AI如何玩躲貓貓?
在經過數億次的游戲后,AI代理經歷了幾個階段的策略發展過程。
在初始階段,躲藏者(藍色)和尋找者(紅色)通過在空間中移動而不操縱任何物體,制定了非常粗糙的躲避和追逐策略。
在經歷2500萬個回合后,游戲變得更加復雜。躲藏者學會了移動和鎖定在環境中的箱子和路障,以在自己周圍建立堡壘,這樣尋找者就永遠看不到它們了。不僅如此,他們還制定了協調戰略,例如相互傳遞物體,以加快建造堡壘的進程。
然而,在游戲進行了7500萬回合之后,尋找者發現了一個反策略。他們學會了在躲藏者的要塞旁邊移動一個坡道,并用它來爬過墻壁。
作為回應,躲藏者學會了將坡道移入他們的房間,因此尋找者無法用它來越過墻壁。
隨著環境變得越來越復雜,躲藏者學會了使用細長箱子建造更強大的“堡壘”。雖然OpenAI認為這將是最終的策略,但在游戲進行到3.8億回合時,尋找者再次成功反擊,找出一種方法來跳到一個盒子上并利用動力在它上面“沖浪”,越過墻壁進入堡壘。
在最后階段,躲藏者學會在建造堡壘之前鎖定所有箱子,以防止“箱子沖浪”。
研究人員將這些不同策略的演變稱為“來自多智能體自動課程的緊急技能進展”。“自動課程”這一術語是今年由DeepMind創造的,適用于多個代理逐漸創造新任務以在特定環境中相互挑戰。OpenAI的研究人員認為,這個過程在自然選擇方面具有相似之處。
這項研究為啥很重要?
鑒于躲貓貓相對簡單的目標,通過競爭性自我游戲訓練的多個代理學會了使用工具,并采用人類相關技能來獲勝。OpenAI認為,這為未來的智能代理開發和部署提供了一個有前景的研究方向。OpenAI正在開源其代碼和環境,以鼓勵在該領域進一步研究。
OpenAI的最終目標是構建能夠在一個通用系統中執行多項任務的人工通用智能(AGI)。雖然可能會有不同的目標,但OpenAI正在大力投資由大規模計算能力實現的強化學習研究。OpenAI最近與微軟簽署了一份價值10億美元的為期10年的計算合同。
躲貓貓游戲研究也激發了OpenAI,因為隨著環境復雜性的增加,游戲中的代理不斷地通過新策略自我適應新的挑戰。貝克表示:“如果擴展像這樣的流程,并將其放入更復雜的環境中,那么你可能會得到足夠復雜的代理,以便為我們解決實際任務。”
挑戰在哪里?
游戲代理有時會表現出令人驚訝的行為。例如,躲藏者試圖完全逃離游戲區域,直到研究人員對此施加懲罰。
其他挑戰可能歸因于模擬環境設計中的物理缺陷。例如,躲藏者了解到,如果他們在拐角處向墻壁推動斜坡,斜坡將由于某種原因穿過墻壁然后消失。這種“作弊”說明了算法的安全性如何在機器學習中發揮關鍵作用。研究人員說:“在它發生之前,你永遠不會知道。這類系統總是存在缺陷。我們所做的基本上是觀察,以便我們可以看到這種奇怪的事情發生,然后試著修復物理缺陷。”(馮衛東)
【免責聲明】
1、凡本網注明出處非(巨潮財經網)的作品,均轉載于自其它媒體,并不代表本網贊同其觀點和對其真實性負責,目的在于信息的傳遞,本網不承擔稿件侵權行為的連帶責任,如對稿件有質疑請與本網客服聯系。
2、刊發此文目的在于傳遞更多信息,文章內容僅供參考,不構成投資建議,投資者據此操作,風險自擔。
3、如涉及作品內容、版權等其它問題,請在15日內聯系本網客服。
-
消息:玩躲貓貓游戲 AI學會攻防術
盡管機器學習在諸如圍棋和Dota 2等復雜游戲中取得了顯著進步,但在這些領域掌握的技能并不一定能推廣到真實場景中實際應用。...
2019-09-19 11:50:32
-
消息:中微子新質量上限“出爐” 不超過一點一電子伏特
中微子是自然界中迄今已知最輕盈的基本粒子,但其質量一直是個未解之謎。現在,德國科學家對中微子的質量提出了新的限定值:...
2019-09-19 11:46:51
-
消息:他20年只為機械“感知神經”更敏感
得知獲獎很高興,同時也感到多了一份責任。說話的是西安交通大學機械學院教授、精密儀器系主任趙立波。前不久,他剛剛捧得第1...
2019-09-19 11:43:44
-
快訊:彈幕教學讓學生成為課堂的主人
把青年學生喜聞樂見的彈幕、短視頻等流行網絡技術代入教學,把教室打造成一場網紅直播,你會不會覺得詫異?重慶市優秀教師張毅...
2019-09-19 11:40:21
-
消息:直播公益課 為鄉村孩子開啟科技之門
太空中有水源嗎?中國航天器飛行最遠距離有多遠?宇宙飛船在太空沒有燃料了怎么辦?……一個個千奇百怪而又充滿童心的問題,在直...
2019-09-19 11:37:18
- 優質內容成短視頻行業競爭關鍵 好看視頻10億獎金扶持原創作者 頒發年度大獎
- 運用計算型潛望原理 數碼相機就能“看見”隱藏物體 探測隱藏的物體和敵人
- 新型交通制式:動車與地鐵“混血” 國產首個市域動車組上線運營
- “回家地圖”:2019年春運護航服務啟動 騎行返鄉可定位免費維修點
- 打游戲也輸了!新款“阿爾法”擊敗人類玩家 取得壓倒性勝利
- 我國學者研究“多節點量子網絡”取得基礎性突破 拓展節點數目
- 160公里時速磁浮列車將在商業線進行提速測試
- 科技創新讓生活更精彩 營養美食可打印
- 人工智能將給“尋醫問診”帶來哪些改變 機器人為居家養老、個人護理服務
- 競爭者來了?英國電信“官宣”入華,移動、聯通、電信該緊張嗎 用戶選擇多樣化