直播李世石VS谷歌AlphaGo人机大战

  • 主题发起人 主题发起人 xyd88
  • 开始时间 开始时间
很想知道两个配置完全一样的阿尔法狗对局,会是什么结果。
 
这也太遥远了,玩艺术,机器还不行,如果真到了这一天,人也快自己给自己挖坑准备墓碑了
倭人的机器人都快成精了。
 
而且,这12分钟,李9段制造劫财打劫,如果人类棋手,可能选择不理睬9段在别处打劫,直接灭了下面
可是,令人胆寒的是,阿发狗根本不在乎,9段去哪里,狗就陪9段走哪里玩,不怕九段打劫
那个意思就是,人类,认输吧,我陪你玩,不怕你那片黑棋打劫,我完全算清楚了,怎么玩都是死
这样又被狗蹂躏了12分钟,李9段低头投子在盘上。。。。
李可能想利用已经毕输的棋probe一下狗狗其它方面的能力,比如打劫。这总比用第四盘去试探好。
 
我认为可以扩大棋盘。由纵横19道改为49或59道。人类的棋感其实就是计算力有限时经过训练获得的short cut.让双方都算不完就凭棋感吧。
 
阿狗下棋的套路很直接,几乎没有被绞杀的棋,李二段忙于应付。下次应该试一下阿狗让4子,估计李二旦也够呛。
今天晚上还有下一局比赛。
 
最后编辑:
霍金一撮人等对于人工智能的慎重和保守,倒是和现在很多人(比如发布会现场的人)淡淡的不适和五味杂陈的心情有些遥相呼应。对于出乎意料的人,他们并没准备好怎样评价这个结果,甚至连接受这个结果的准备都没做好。而且,这感觉有点出乎意料的群体却又是人类的大多数甚至是绝大多数。AlphaGo的胜利,恐怕带来的并不都是愉悦的感受。甚至,很多人心中是被不知何来的茫然取代了本来以为的、预期之中的惊喜。

机器学习带来了也必将持续带来很多深远的变化。可惜,这里面非常刺眼的一个显著影响,可能是人类自诩的万物灵长那种食物链顶端的脑力、智慧的优越感和自信被蚕食和削弱,就像下棋的李棋圣和评棋的聂棋圣一样。与之匹配的尊严感,及寄生在尊严感上面的自尊自律自省,也会悄然被弱化并渐渐变得虚无。这是因为,虽然它被称作人工智能,虽然它是被人类创造的,但人们无法避免地会把它拟人化,进而纠结----是否它真的永远都还在人类掌控当中。

围棋,只是一个小小的电视真人秀而已,而人工智能在各行各业导致的人机对弈这个量级的冲击和变化,像电视综艺节目那样多。有的看呢。和李世石们一样,这些人面临的比人机竞争落败更大的痛苦,是他们十年磨一剑从受教育到脑力工作若干年的积累,瞬间在存储和运算占优的计算机面前化为乌有。一个残酷的现实是,因为这些从业者毕生所从事的事业和积累比不上机器学习短期training出来的结果,这使得他们必须为自己倾尽一生的学习研究换来被社会淘汰的结果寻找一个借口,并开始重新思考他们各自的人生意义,可惜思考5:0这个比分的结果却注定是'甚至开始怀疑人生'。

现在看到的是超一流棋手瞠目结舌,殊不知和他们同样处境的很多其他领域或行业的人还没意识到他们自己明天就会和现在的李世石一样,从天堂被打入地狱。与工厂使用的汽车装配线、还有你家用的扫地机器人之类的自动化工具的影响不一样,这一轮被淘汰的 loser,不再是低端的廉价劳动力,反而是原以为自己在金字塔顶端的最强大脑、人中龙凤的高端人群。相信有些聪明而敏感的人,体察到众多顶尖棋手们的愤懑沮丧困顿迷茫时,自己也隐隐约约的脊背发凉汗毛倒竖了。

伴随着这个过程,人类自己创造的智慧给自己带来的无力感将越发清晰。而从那个时候起,很多人会开始疑惑,超出人类智能的人工智能怎么会成立的?这种超出人类的智慧,果真是人类带来的吗?那种怀疑,会伴随着宇宙有无意志之类的终极问题,对哲学宗教等等人类智慧和信念的基础造成再次洗礼。
赞赏阁下精美的行文,更赞赏阁下认真的思考。
不过,人类不会为自己创造出的智慧感到恐惧和无力,相反,人类会受惠于自己的创作,这一点难道不是贯穿于人类的发展中吗?
 
李可能想利用已经毕输的棋probe一下狗狗其它方面的能力,比如打劫。这总比用第四盘去试探好。
狗狗打劫一点不怵
狗狗走的那手闲棋,在万众瞩目的职业棋手之间,会发生吗?而且是绝对的生死之战,我不记得有这样的。
如果职业棋手生死战走闲棋,对手会投子认输保持尊严的吧,不会被大家嘲笑算不清死活吧
 
他自己和自己下几千万盘时,对手是谁,是用完全相同算法的自己么?
自己和自己下不奇怪吧
围棋无法完全复制对方走法,先后手就是区别
另外,狗狗算法设计时,在计算(不仅仅是计算,training的概念用于狗狗算法上,计算不是传统意义的计算了)出利益相同的落子有多个选择时,会加入随机选择,这个随机选择也会产生不同。
 
每次一开始短兵相接,师师就落下风。而且狗狗也一样有大局观。它的大局观建立在全盘面计算上。柯洁来也没用。悲粪吧人类。
是的,每次短兵相接,李9占不到任何便宜,不管先手与后手。
而且狗狗的大局观,一样相互呼应各个地方。厉害的狗狗。
 
自己和自己下不奇怪吧
围棋无法完全复制对方走法,先后手就是区别
另外,狗狗算法设计时,在计算(不仅仅是计算,training的概念用于狗狗算法上,计算不是传统意义的计算了)出利益相同的落子有多个选择时,会加入随机选择,这个随机选择也会产生不同。
我的理解,所谓training在计算机上最后还是变成某种形式的data, 我的问题是如果两个接受同等训练拥有同等data的狗狗对局会是怎样的?
 
有先后手的问题,还有贴目。所以还是有输赢的。
我的理解,所谓training在计算机上最后还是变成某种形式的data, 我的问题是如果两个接受同等训练拥有同等data的狗狗对局会是怎样的?
 
NLP工程师:AlphaGo表现出了哪些计算和智能

  注:本文来自雷锋网硬创公开课 | AlphaGo专场的分享。分享嘉宾,出门问问NLP工程师,李理。

   一、到底什么是深度学习?

  我认为深度学习相对于传统的机器学习,最大的特点就是不需要(太多)的feature engineering。

  在机器学习流行之前,都是基于规则的系统,因此做语音的需要了解语音学,做自然语言处理(NLP)的需要很多语言学知识,做深蓝需要很多国际象 棋大师。而到后来统计方法成为主流之后,领域知识就不再那么重要,但是我们还是需要一些领域知识或者经验来提取合适的feature,feature的好 坏往往决定了机器学习算法的成败。

  对于NLP来说,feature还相对比较好提取,因为语言本身就是高度的抽象;而对于Speech或者Image来说,我们人类自己也很难描 述我们是怎么提取feature的。比如我们识别一只猫,我们隐隐约约觉得猫有两个眼睛一个鼻子有个长尾巴,而且它们之间有一定的空间约束关系,比如两种 眼睛到鼻子的距离可能差不多。但怎么用像素来定义”眼睛“呢?如果仔细想一下就会发现很难。当然我们有很多特征提取的方法,比如提取边缘轮廓等等。

  但是人类学习似乎不需要这么复杂,我们只要给几张猫的照片给人看,他就能学习到什么是猫。人似乎能自动“学习”出feature来,你给他看了 几张猫的照片,然后问题猫有什么特征,他可能会隐隐预约的告诉你猫有什么特征,甚至是猫特有的特征,这些特征豹子或者老虎没有。

  深度学习为什么最近这么火,其中一个重要的原因就是不需要(太多)提取feature。

  从机器学习的使用者来说,我们以前做的大部分事情是feature engineering,然后调一些参数,一般是为了防止过拟合。而有了深度学习之后,我们似乎什么也不用干!给它标注足够多的训练数据就行了。

  具体的应用比如语音识别,图像识别,自然语言处理,这是比较成熟的一些领域。在一些其它领域,比如杀毒,天气预测。只要需要用机器建模,特征比较难以描述,而且又有足够多标注数据的地方都可以试一试深度学习。

   二、同样是与人类对战,AlphaGo和深蓝的区别

  深蓝的主要技术有两个:alpha-beta搜索和估值模型。搜索,大家应该都明白,机器学习就是更加领域专家(国际象棋大师)提取的特征(比如棋子的价值,位置的作用,棋子的保护和威胁关系等等),然后建立一个复杂的模型来判断局面(不太清楚是否用了机器学习)。

  而AlphaGo的核心技术是:MCTS搜索和CNN神经网络。CNN使得机器可以学习人类的“棋感”,从而在开局和中局不落下风,然后残局凭借强大的计算能力战胜人类。

  因为深度神经网络非常火,大家可能觉得它是AlphaGo能赢的关键,其实我觉得不是这样。

  根据Tian yuandong(田渊栋)和AlphaGo的论文,如果不做任何搜索,只是根据“棋感”(其实就是估值函数),CNN最好能达到KGS 3d的水平,我估计也就业余1段的水平。而MCTS算法在没有Value Network的情况下在9 x 9的棋盘上能战胜人类高手,其实这也间接印证了AlphaGo在残局的实力是搜索(计算)起重要作用。原来基于搜索的软件在开局和中局就崩盘或者亏太多 了,所以就不能体现搜索的优势了。另外AlphaGo使用了Value Network,这保证即使搜索有一些小问题,从人类学来的棋感也能保证不至于偏差太大。

  AlphaGo的特点是:开局和中局依靠人类的棋盘学习棋感(可以理解为背棋盘,不过比死记硬背好一点,有一定的泛化能力),然后残局的计算能力碾压人类,就好像以前的李昌镐,前面看不出什么好来,但官子你就是下不过他,没办法,不服不行。

   三、在比赛前,很多人都判断AlphaGo会输,这种判断偏差在哪里?

  之前我们都太多关注AlphaGo的神经网络部分,其实它赢棋的关键可能在于残局的计算上。我们没有想到。

  四、整个比赛的输赢对人工智能研究意味着什么?

  作为对人工智能感兴趣的工程师,我既感到高兴又不免有些伤感。

  高兴是因为我们可以“创造”出比我们自己“聪明”的机器,伤感就像教拳击的师傅看到徒弟的水平已然超过自己,不免有“老了,不中用了”的感叹。但这是大势所趋,不可避免,人工智能会在很多领域超过人类。

   五、首场比赛,AlphaGo为什么在后半程越走越慢?

  这是计算机用时的策略问题,因为根据前面的分析,后面的残局才是AlphaGo赢棋的关键,所以它把更多的时间放在残局是合理的策略。

  六、如果计算性能够强大,AlphaGo能否直接得出最优解?

  从数学上来讲,围棋有个最优的走法,也就是用mini-max搜索到游戏结束时的一条最优路径(也许有多条,但至少有一条),然后就能知道最优的情况下黑棋胜白棋多少目。

  我认为AlphaGo离最优解其实还是差得老远的,尤其是开局和中局。其实这也间接的说明人类在开局上其实也离最优解差得太远。人类几千年也下 不了多少盘棋(而且水平越差的人的棋对整个人类围棋没有太大帮助)。我们认为一个开局是否好,只能根据水平相似的高手下这个布局的胜率来推测它的好坏。但 如果我们在最后50步的时候误差就很大,那么往前传播时积累的误差就更大了,我们可能经常忽略了一个看起来不好的走法,而这个走法可能就是“支持”这个开 局的关键。

  当然AlphaGo的残局比人厉害,那么就可以通过自己对弈来学习,然后往前传播误差。但是由于这个问题本质是NP的,即使它用了MCTS的方 法来避免“明显不好”的走法。但是由于围棋的复杂性,可能某个“看起来不好”的走法可能恰恰是一个关键的胜负手呢?另外根据之前的分析,即使每步都能 99%的准确,那么往前推100步准确的可能性也基本是0了。

  因此如果人类不能解决NP问题,不能提出计算能力超过图灵机的计算模型,那么人类制造的机器也是不太可能解决这个问题的(当然这只是我的直觉,不知道能不能数学上证明)。

  不过即使这样,能制造和人类一样,虽然在质上不能超越人类,但在量上能超越人类的机器也是很有意义的。

   七、AlphaGo在学习什么,是如何学习的?

  AlphaGo是通过人类高手的对局作为训练数据来训练的,也就是给定一个局面,用人类高手的下一步棋做完这个局面的最优走法。通过大量的这样 的数据,使用CNN自动学习出类似人类的”棋感“。当然虽然说CNN不需要太多的feature,其实AlphaGo也是用了一些围棋的知识的,比如征 子。我虽然比较业余,也知道征子能否成功要看那六线上是否有对手的接应,另外更棋的高低也有关系,即使有接应,如果棋太低,可能也能征子成功,这个就要计 算了。

  另外,AlphaGo也通过自己和自己对弈的强化学习来改进它”棋感“。我个人觉得为什么要强化学习的原因可能是:之前那些棋谱学习出来的是很多人的”棋感“,通过强化学习,AlphaGo能选择更适合自己的“棋感”。

  这样的”棋感“更能适应它的后阶段的计算能力。就好像如果我下棋计算能力不行,我就走一些比较稳的开局。我计算力超强,我就和你搏杀,走复杂的变化。

  AlphaGo一晚上的学习大概能达到什么样的效果?

  这个很难说,我个人觉得他们应该不会再训练新的模型,因为即使是深度神经网络,调参也是很tricky的事情。而且他们现在领先,应该不会冒险更新模型。

  八、除了围棋,AlphaGo还可以用在什么领域?

  AlphaGo本身的技术是MCTS和CNN,MCTS其实是属于强化学习这个领域的。

  深度学习可以用在很多领域,前面说过了,只要这个领域需要构建一个模型来预测,而且有大量标注的训练数据。

  强化学习是非常关键,我觉得强化学习才是人类社会学习的过程,通过行为改变世界,然后从反馈中学习。虽然人类也有一些监督学习,比如学校的教 育,把前人的结论作为训练数据。但大部分的创新(获取新知识或者修正旧知识)都是靠强化学习。之前学校学到的可以认为是先验知识,但还是要自己的行为和尝 试。纸上得来终觉浅,绝知此事要躬行。

  比如我们要让机器人在火星生存,火星的环境我们是不太清楚的,只能根据地球的数据训练一个基本的先验的模型。到了火星之后机器人就必须能通过强化学习来学习新的知识来适应新的环境。

  (雷锋网)
 
我的理解,所谓training在计算机上最后还是变成某种形式的data, 我的问题是如果两个接受同等训练拥有同等data的狗狗对局会是怎样的?
有先后手的问题,还有贴目。所以还是有输赢的。
还有随机选择,会产生差异。。。所以必有输赢。
随机选择例子,狗落点A,左右落点B和C同等价值,狗狗随机选择B或C。
 
后退
顶部