AlphaZero接連擊敗三個(gè)世界冠軍級(jí)的程序

 人參與 | 時(shí)間:2025-12-10 02:23:59
  導(dǎo)讀:一直以來(lái),接級(jí)盡管眾多頂尖的連擊AI的程序都超過(guò)了人類世界冠軍的水平,但它們都只能在單一的世界領(lǐng)域執(zhí)行單一的任務(wù),并不能把這種擊敗人類的冠軍超能力泛化到其他任務(wù)中。

  昨天,程序DeepMind團(tuán)隊(duì)又在arXiv上扔了個(gè)重磅炸彈,接級(jí)新一代AlphaZero在用了強(qiáng)勁的連擊計(jì)算資源(5000個(gè)一代TPU和64個(gè)二代TPU)之后,用不到24小時(shí)的世界時(shí)間自我對(duì)弈(tabula rasa,也叫白板)強(qiáng)化學(xué)習(xí),冠軍接連擊敗了三個(gè)世界冠軍級(jí)的程序程序 (國(guó)際象棋、將棋、接級(jí)圍棋)。連擊

AlphaZero接連擊敗三個(gè)世界冠軍級(jí)的程序

  △ AlphaZero和國(guó)際象棋冠軍程序?qū)?br>
  其中包括上一代冠軍圍棋程序AlphaGo Zero,這個(gè)程序發(fā)布還不到兩個(gè)月,冠軍DeepMind就又把自己顛覆了(所以谷歌團(tuán)隊(duì)自我進(jìn)化速度的程序時(shí)間單位都是按天計(jì),可怕)。

  AlphaZero的百局戰(zhàn)績(jī)

AlphaZero接連擊敗三個(gè)世界冠軍級(jí)的程序

  對(duì)弈國(guó)際象棋程序Stockfish:28勝,72平;

  對(duì)弈將棋程序 Elmo:90勝,2平,8負(fù);

  對(duì)弈圍棋程序AlphaGo Zero:60勝,40負(fù)。

  AlphaZero自我對(duì)弈的訓(xùn)練時(shí)間

AlphaZero接連擊敗三個(gè)世界冠軍級(jí)的程序

  訓(xùn)練次數(shù) | 訓(xùn)練時(shí)間 | 對(duì)弈冠軍棋類程序

  30萬(wàn),2小時(shí),擊敗將棋Elmo

  11萬(wàn),4小時(shí),擊敗國(guó)際象棋Stockfish

  16.5萬(wàn),8小時(shí),擊敗圍棋AlphaGo

  把Go去掉,意味著AlphaZero ,已經(jīng)是比AlphaGo Zero更通用的程序。

  一直以來(lái),盡管眾多頂尖的AI的程序都超過(guò)了人類世界冠軍的水平,但它們都只能在單一的領(lǐng)域執(zhí)行單一的任務(wù),并不能把這種擊敗人類的超能力泛化到其他任務(wù)中。

  而DeepMind的野心可不僅僅是在棋類游戲上超越人類,這次他們研究出了這個(gè)更通用的程序AlphaZero,將會(huì)馬上投入到蛋白折疊的應(yīng)用上。

  官方稱,他們不久就會(huì)發(fā)表相關(guān)論文,通過(guò)檢測(cè)出蛋白錯(cuò)誤折疊來(lái)快速診斷神經(jīng)退行性疾病,比如阿爾茨海默癥,帕金森,囊狀纖維化。

  期待AlphaZero在醫(yī)療健康領(lǐng)域的表現(xiàn)。

頂: 296踩: 864