服务热线
当前位置: 首页 » 资讯 » 商业评论 » 正文

关于不完备性定理和不确定性原理的探讨(八)(6)

放大字体  缩小字体 发布日期:2015-07-31  来源:科学网  浏览次数:531530
商业评论讯:8.6 深度学习2012年6月,《纽约时报》披露了Google X实验室的“谷歌大脑”项目,研究人员从youtube视频中随机提取了1000万个静态

8.6 深度学习


   2012年6月,《纽约时报》披露了Google X实验室的“谷歌大脑”项目,研究人员从youtube视频中随机提取了1000万个静态图像,将其输入谷歌大脑——由1.6万台电脑的处理器构成的多达10亿个连接的网络系统。这台人工神经网络,像一个蹒跚学步的孩子一样吸收信息,自主使用数据和计算资源,尽管在输入中没有包含任何像猫的名字、猫的标题或者猫的类别等解释性信息,但这个机器通过3天无监督式学习模式后,自学成材完全凭自身判断准确识别了猫。

   项目负责人之一Andrew称:“我们没有像通常做的那样自己框定边界,而是直接把海量数据投放到算法中,让数据自己说话,系统会自动从数据中学习。”另外一名负责人Jeff则说:“我们在训练的时候从来不会告诉机器说:‘这是一只猫。’系统其实是自己发明或者领悟了“猫”的概念。”

   谷歌大脑是人工智能的一个里程碑,其背后支撑的关键技术叫做‘深度学习’(Deep learning)。深度学习的灵感大多来自于大脑中紧密连接的神经元,通过改变模拟神经连接的强度来模拟人脑学习。


   深度学习技术的关键点在于对逻辑概念分层次。





   以图像识别为例,不同层级的图像粒度,会体现不同的特征结构(feature)。图像粒度过小,比如一个像素看不出什么结构;而选取的基图像过大,又因为其结构过于复杂不适于作为基。【我们前面探讨过的有关亚马逊生态额例子,也面临同样的基选择的困难。如果基的粒度过小,比如选择氮磷钾元素作为生态系统的参照坐标(生物都是氮磷钾原子构成),分析会变成放之四海而皆准的泛泛而谈;如果基的粒度过大,比如选择熊群、树群整体作为坐标轴,则熊和树将体现独立性,无法分解到共同本征特征函数,也就无法度量熊和树的子要素的相关性。】

   所以,选择合适的特征粒度是第一步。1995 年前后,Bruno Olshausen和 David Field 两位学者任职 Cornell University,他们试图同时用生理学和计算机的手段,双管齐下,研究视觉问题。他们收集了很多黑白风景照片,从这些照片中,提取出400个小碎片,每个照片碎片的尺寸均为 16x16 像素,不妨把这400个碎片标记为 S[i], i = 0,.. 399。接下来,再从这些黑白风景照片中,随机提取另一个碎片,尺寸也是 16x16 像素,不妨把这个碎片标记为 T。他们提出的问题是,如何从这400个碎片中,选取一组碎片,S[k], 通过叠加的办法,合成出一个新的碎片,而这个新的碎片,应当与随机选择的目标碎片 T,尽可能相似,同时,S[k] 的数量尽可能少。用数学的语言来描述,就是:

    Sum_k (a[k] * S[k]) --> T,     其中 a[k] 是在叠加碎片 S[k] 时的权重系数。

    为解决这个问题,Bruno Olshausen和 David Field 发明了一个算法,稀疏编码(Sparse Coding)。稀疏编码是一个重复迭代的过程,每次迭代分两步:

     1)选择一组 S[k],然后调整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T。

     2)固定住 a[k],在 400 个碎片中,选择其它更合适的碎片S’[k],替代原先的 S[k],使得Sum_k (a[k] * S’[k]) 最接近 T。

    经过几次迭代后,最佳的 S[k] 组合,被遴选出来了。令人惊奇的是,被选中的 S[k],基本上都是照片上不同物体的边缘线,这些线段形状相似,区别在于方向。Bruno Olshausen和 David Field 的算法结果,与 David Hubel 和Torsten Wiesel 的生理发现,不谋而合!

    也就是说,复杂图形,往往由一些基本结构组成。如上面图所示:一个图可以通过用64种正交的edges(边缘线)来线性表示。比如样例的x可以用1-64个edges中的三个按照0.8,0.3,0.5的权重调和而成。而其他基本edge没有贡献,因此均为0 。



   小块的图形可以由基本edge构成,更结构化,更复杂的,具有更高概念性的图形如何表示呢?

   这就需要更高层次的特征表示,比如V2、V4。这是层次递进的,高层表达由底层表达的组合而成。V1取提出的基是边缘;然后V2层基是V1层这些基的组合,是高一层的基。即上一层的基是下一层基组合的结果,再上上层又是上一层的组合基……这就是我门熟知的归纳总结的方法。由具体到抽象、再更进一步的抽象。而我们之所以非常熟悉这种逻辑抽象的层次,是因为人类大脑就是如是进行思维的。

   1981 年的诺贝尔医学奖,颁发给了 David Hubel 和TorstenWiesel,以及 Roger Sperry。前两位的主要贡献,是因为他们发现可视皮层是分级的。1958 年,这两个人研究瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上,开了一个3 毫米的小洞,向洞里插入电极,测量神经元的活跃程度。 然后,他们在小猫的眼前,展现各种形状、各种亮度的物体。并且,在展现每一件物体时,还改变物体放置的位置和角度。他们期望通过这个办法,让小猫瞳孔感受不同类型、不同强弱的刺激。之所以做这个试验,目的是去证明一个猜测。位于后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。一旦瞳孔受到某一种刺激,后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验,同时牺牲了若干只可怜的小猫,David Hubel 和Torsten Wiesel 发现了一种被称为“方向选择性细胞”的神经元细胞。当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程。  这里的关键词有两个,一个是抽象,一个是迭代。从原始信号,做低级抽象,逐渐向高级抽象迭代。人类的逻辑思维,经常使用高度抽象的概念。例如,从原始信号摄入开始(瞳孔摄入像素),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。

   总的来说,人的视觉系统的信息处理是分级的。从低级的V1区提取边缘特征,再到V2区的形状或者目标的部分等,再到更高层,整个目标、目标的行为等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。而抽象层面越高,存在的可能猜测就越少,就越利于分类。例如,单词集合和句子的对应是多对一的,句子和语义的对应又是多对一的,语义和意图的对应还是多对一的,这个逻辑层级体系类似我们上一节介绍的。


 

   认知过程是尝试和反馈的循环训练,深度学习通过对原始图像去一层层逻辑分解,从而得到它的一层层的分析表达,最终通过边缘检测器、小波滤波器等在最低层次空间中建立反馈表达。然后通过组合低层特征一层层形成更抽象的高层表示属性。最终,领悟了“猫”的概念。



   当然,这仅仅是开始,很快‘深度学习’神经网络会从识别位移、缩放及其他形式扭曲不变性的二维图形,升级到识别立体的猫,继而识别跑动的猫。

   平面猫 --> 立体猫 --> 动态猫

   类似的,很快会识别行走的人。

   平面人脸 --> 立体个人 --> 行走中的人










   并且,‘深度学习’机器人很快会听懂人类讲话:

   上面可以看出,只要发现了逻辑基础层级的基本构件(比如基础图像的edges)就可以训练识别猫图像。那么,其它领域是不是也可以如法炮制呢?

   当然可以,研究人员发现不仅图像存在这基本构件规律,声音也存在。他们从未标注的声音中发现了20种基本的声音结构,其余的声音可以由这20种基本结构合成。



   并且,文章也符合基本构件规律。我们描述一件事情、写一篇文章、说一段话,用什么来表示?用一个一个字、一个一个词语、一句一句话、一段一段主题、一篇一篇的中心思想。我们在看一篇文章的时候,眼睛看到的是词语,由这些词语在大脑里自动切词形成逻辑轨迹,再按照概念组织的逻辑层次,然后再进行高层次的抽象,最后得到主题思想。


   显而易见,深度学习通过模拟人脑进行分析学习,很快会模仿人脑的机制来解释图像数据、声音数据和文本数据。


   2009年,研究人员报告称,通过典型数据集的练习,他们的深度学习神经网络已经打破了将口语转化为文本的精度纪录。

   2012年11月,微软在中国天津的一次活动演示了一个全自动的同声传译系统。演讲者用英文演讲,后台计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。其背后支撑的关键技术也是深度学习。

   随着深度学习技术在图像和语音识别方面取得胜利,人们越来越有兴趣将其应用于自然语言理解(例如,充分理解人类话语来改述或者回答问题)或者翻译语言。同样,这些工作目前可以通过使用手工编码规则和对已知文本的统计分析来实现,例如谷歌翻译。众包专家luis von ahn说:“深度学习技术将有机会比现在使用的技术做得更好。”他的公司duolingo位于宾夕法尼亚州匹兹堡市,依赖于人,而不是计算机进行文本翻译。

   当谷歌在其安卓系统的智能手机操作系统中采用基于深度学习的语音识别技术时,它的文字错误率下降了25%。“人们本来期待在10年后才能达到这种下降程度。”

   深度学习领域取得的这些激动人心的进步试图让电脑像人类一样思考,其大量数据和强大的处理能力帮助计算机破解那些人类几乎可以凭直觉就可解决的难题——从识别人脸到理解语言。




   这意味着不久的将来,遍布的摄像机不仅能很快发现通缉犯,而且机器通过监控人们谈话还能够迅速发现有威胁的人。






   这还不算,‘深度学习’机器人不仅能自主认知、还可以自主行动,比如它很擅长自学游戏。说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属。这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现。DeepMind工作人员合两者之精髓,在Stella模拟机上让机器自己玩了7个Atari 2600的游戏,结果是玩的冲出美洲,走向世界,超越了物种的局限。不仅战胜了其他机器人,甚至在其中3个游戏中超越了人类游戏专家。





   2013年11月,一篇名为《Playing Atari with Deep Reinforcement Learning》的文章被初创人工智能公司DeepMind的员工上传到了arXiv网站。两个月之后,谷歌花了500万欧元买下了DeepMind公司,而人们对这个公司的了解仅限于这篇文章。

   在arXiv发表的原始论文中,描述了一个单个的网络,它能够自我学习从而自动的玩一些老的电视游戏。它仅仅通过屏幕上面的图像和游戏中的分数是否上升下降,从而做出选择性的动作。在训练的一开始,这个程序对游戏一点都不了解。它并不知道这个游戏的目标,是保持生存、杀死谁或者是走出一个迷宫。它对这个游戏的影响也不清楚,并不知道它的动作会对这个游戏产生什么影响,甚至不知道这个游戏中会有哪些目标物品。通过在这个游戏中尝试并且一遍一遍失败,这个系统会逐渐学会如何表现来获得比较好的分数。同时需要注意的是,这个系统对所有不同的游戏使用了同样的系统结构,程序员没有对不同程序给予这个程序任何特殊的提示,比如上、下或者开火等等。

   最终结果显示,这个系统能够掌握一些游戏,并且比一些人类玩家还要玩得好。


   首先,这个系统获得了某个游戏屏幕的某幅图像。在简单的分析之后,它已经选择了如何做出下一步。这个动作已经被执行了,并且这个系统被告知了分数是否增加了、减少了或者没有变。基于这个信息,以及已经进行了的大量的游戏,这个系统会学习如何玩从而提高游戏的分数。

   机器学习的一个非常通常的任务是这样的:给出了一个目标的信息,从而能够知道它属于哪个种类。在深度学习的过程中,程序想要决定在目前游戏状态下如何进行下一步动作。机器学习算法从例子中进行学习:给出了许多的目标例子和它们的种类,学习算法从中找出了那些能够鉴定某个种类的目标特征。学习算法会产生一个模型,能够在训练集中最小化错误分类率。这个模型之后会被用来预测那个未知目标的种类。

   在学习过程结束之后,新的物体就能够送入这个网络,并且能够在输出层看到每个种类的分数。

   学习过程系统通过深度学习模式来计算最高期望分数。确切地说,在定义了网络的结构之后,剩下唯一会变化的就只有一件事:连接之间的强弱程度。学习过程就是调整这些方式地权重,从而使得通过这个网络的训练样例获得好的反馈。

   文章将这个问题当作一个优化问题,目标是获取最好的反馈。可以通过将梯度下降与激励学习方法结合起来解决。这个网络不仅仅需要最大化当前的反馈,还需要考虑到将来的动作。这一点可以通过预测估计下一步的屏幕并且分析解决。用另一种方式讲,可以使用(当前反馈减去预测反馈)作为梯度下降的误差,同时会考虑下一幅图像的预测反馈。

   整个流程如下:

   1.构建一个网络并且随机初始化所有连接的权重

   2.将大量的游戏情况输出到这个网络中

   3.网络处理这些动作并且进行学习

   4.如果这个动作是好的,奖励这个系统,否则惩罚这个系统

   5.系统通过如上过程调整权重

   6.在成千上万次的学习之后,超过人类的表现。

   这个结果可以看做是在AGI方向的从传统机器学习迈出的一小步。尽管这一步可能非常小,这个系统可能都不知道或者理解它做的事情,但是这个深度学习系统的学习能力远远超过之前的系统。并且,在没有程序员做任何提示的情况下,它的解决问题的能力也更加宽广。他们的代码可以在GitHub主页上找到。






   不知道自学玩游戏算不算自动控制的巨大飞跃。如果是,那么很快‘深度学习’机器人将不仅能通过摄像机发现通缉犯、通过监控谈话还发现有威胁的人,还能够自主行动对付有威胁的人。

   吓人咯,龟儿子,这听起来真像科幻。

   但这是正在发生的事实,请看下面视频:

http://open.163.com/movie/2015/3/Q/R/MAKN9A24M_MAKN9QAQR.html


   当然,尽管深度学习技术取得了不少成功,但它仍处于起步阶段。“它是未来的一部分。”、“我们才刚刚开始。”




   是科学预言,或是危言耸听。在它还没有长大之前,也许非常需要再深入认真分析其中的机理。

   如果我们知其然不知其所以然,盲目跟风山寨,它懂我们,我们不明白它,那么我们发明的机器也许有一天会突然攻击我们,而我们还满脸茫然不知所然。



   是朋友、或是敌人,总有它的道理。一切恩怨情仇,皆是缘,源于逻辑!


   ‘深度学习’机器人的逻辑机制,除了逻辑的层次性、基本结构构件,还有什么核心原理可供我们破解分析呢?


   前面说过卷积就是逻辑与的数量化,所以复杂系统的逻辑量化必须用到卷积。

   



  再有 ,为什么‘深度学习’原理会诞生“卷积神经网络”技术呢?

  一切的一切,因为神乎其神的“卷积”特性





 
转载请注明本文地址:http://www.cywsw.com/news/show-55307.html
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
推荐图文
推荐资讯
点击排行