今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)

今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)

ID:8219828

大小:4.84 MB

页数:27页

时间:2018-03-10

今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)_第1页
今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)_第2页
今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)_第3页
今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)_第4页
今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)_第5页
资源描述:

《今日nature-人工智能从0到1,无师自通完爆阿尔法狗(报告原文)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、去年,有个小孩读遍人世所有的棋谱,辛勤打谱,苦思冥想,棋艺精进,4-1打败世界冠军李世石,从此人间无敌手。他的名字叫阿法狗。今年,他的弟弟只靠一副棋盘和黑白两子,没看过一个棋谱,也没有一个人指点,从零开始,自娱自乐,自己参悟,100-0打败哥哥阿法狗。他的名字叫阿法元。DeepMind这项伟大的突破,今天以MasteringthegameofGowithouthumanknowledge为题,发表于Nature,引起轰动。文末附报告全文:Nature今天上线的这篇重磅论文,详细介绍了谷歌DeepMind团队最新的研究成果。人工智能的一

2、项重要目标,是在没有任何先验知识的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。去年,阿法狗(AlphaGo)代表人工智能在围棋领域首次战胜了人类的世界冠军,但其棋艺的精进,是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上,进而自我训练,实现超越。阿法狗元棋力的增长与积分比较可是今天,我们发现,人类其实把阿法狗教坏了!新一代的阿法元(AlphaGoZero),完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcementlearning)和参悟,棋艺增

3、长远超阿法狗,百战百胜,击溃阿法狗100-0。达到这样一个水准,阿法元只需要在4个TPU上,花三天时间,自己左右互搏490万棋局。而它的哥哥阿法狗,需要在48个TPU上,花几个月的时间,学习三千万棋局,才打败人类。这篇论文的第一和通讯作者是DeepMind的DavidSilver博士,阿法狗项目负责人。他介绍说阿法元远比阿法狗强大,因为它不再被人类认知所局限,而能够发现新知识,发展新策略:ThistechniqueismorepowerfulthanpreviousversionsofAlphaGobecauseitisnolonge

4、rconstrainedbythelimitsofhumanknowledge.Instead,itisabletolearntabularasafromthestrongestplayerintheworld:AlphaGoitself.AlphaGoZeroalsodiscoverednewknowledge,developingunconventionalstrategiesandcreativenewmovesthatechoedandsurpassedthenoveltechniquesitplayedinthegamesa

5、gainstLeeSedolandKeJie.DeepMind联合创始人和CEO则说这一新技术能够用于解决诸如蛋白质折叠和新材料开发这样的重要问题:AlphaGoZeroisnowthestrongestversionofourprogramandshowshowmuchprogresswecanmakeevenwithlesscomputingpowerandzerouseofhumandata.Ultimatelywewanttoharnessalgorithmicbreakthroughslikethistohelpsolvea

6、llsortsofpressingrealworldproblemslikeproteinfoldingordesigningnewmaterials.美国的两位棋手在Nature对阿法元的棋局做了点评:它的开局和收官和专业棋手的下法并无区别,人类几千年的智慧结晶,看起来并非全错。但是中盘看起来则非常诡异:theAI’sopen¬ingchoicesandend-gamemethodshaveconvergedonours—seeingitarriveatoursequencesfromfirstprinciplessuggestst

7、hatwehaven’tbeenonentirelythewrongtrack.Bycontrast,someofitsmiddle-gamejudgementsaretrulymysterious.为更深入了解阿法元的技术细节,知社采访了美国杜克大学人工智能专家陈怡然教授。他向知社介绍说:DeepMind最新推出的AlphaGoZero降低了训练复杂度,摆脱了对人类标注样本(人类历史棋局)的依赖,让深度学习用于复杂决策更加方便可行。我个人觉得最有趣的是证明了人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),

8、而机器学习可以突破这个限制。之前大家隐隐约约觉得应该如此,而现在是铁的量化事实摆在面前!他进一步解释道:这篇论文数据显示学习人类选手的下法虽然能在训练之初获得较好的棋力,但在训练后期所能达到的棋力却只能与原版的Alpha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。