AlphaGo战胜了世界围棋冠军,但无论是聂卫平还是设计AlphaGo的谷歌工程师都无法理解AlphaGo为什么这样走棋,这就是人工智能中令人困惑的“不可解释性”问题。作者从这个问题出发,发现了一类全新的知识——“暗知识”。
一直以来人类的知识可以分为两类:“明知识”和“默知识”。明知识就是那些可以用语言、文字或公式清晰表达和描述的知识;默知识则是个人在感觉上能把握但无法清晰描述的知识,也即我们常说的“只可意会,不可言传”的那类知识。今天,人工智能突然发掘出了人类既无法感受又无法表达和描述的暗知识—隐藏在海量数据中的万事万物间的关系。本书介绍了机器学习五大流派从数据中挖掘暗知识的方法以及各自适用的领域,尤其是神经网络的基本工作原理和目前在商业上应用*广泛的几种形态。同时着重讨论了暗知识对商业和社会的直接影响,比如哪些行业将面临机器认知的颠覆,在不同行业里有哪些投资机会和陷阱。本书*后介绍了目前还没有商业化的,但可能更深刻影响我们的一些神奇的人工智能应用,以及人工智能会在多大程度上取代人的工作,造成哪些社会问题,如何让下一代做好准备等。
既不可感受也不能表达的“暗知识”。
既然可以感受的是默知识,可以表达的是明知识,那么机器刚刚发现的,既无法感受也无法表达的知识就是暗知识。明知识又被分为两类:*类是那些既可以感受又可以表达的,例如浮力定律、作用力反作用力定律等。第二类是不可感受可以表达的,如大部分的数学以及完全从数学中推导出来但*后被实验验证了的物理定律,以及相对论和量子力学。
为了理解暗知识的本质,我们必须先搞清楚“知识”与我们今天常用的“信息”和“数据”有什么不同。稍加研究就能发现关于信息、数据和知识的定义有很多并且非常混乱。笔者在下面给出一组符合信息论和脑神经科学研究结果的简单而自洽的定义。
信息是事物可观察的表征,或者说信息是事物的外在表现,即那些可观察到的表现。在我们没有望远镜时,谈论肉眼以外星空里的信息毫无意义。
数据是已经描述出来的部分信息。任何一个物体的信息量都非常大,要想精确地完全描述一块石头,就要把这块石头里所有基本粒子的状态以及它们之间的关系都描述出来,还要把这块石头与周围环境和物体的关系都描述出来。而关于这块石头的数据通常则少得多,例如它的形状、重量、颜色和种类。
知识则是数据在时空中的关系。知识可以是数据与时间的关系,数据与空间的关系。如果把时间和空间看作数据的一部分属性,那么所有的知识就都是数据之间的关系。这些关系表现为某种模式(或者说模式就是一组关系)。对模式的识别就是认知,识别出来的模式就是知识,用模式去预测就是知识的应用。开普勒的行星运动定律就是那些观测到的数据中呈现的时空关系。牛顿定律的*大贡献可能不在于解释现有行星的运动,而在于发现了海王星。这些数据在时空中的关系只有在极少数的情况下才可以用简洁美妙的数学方程式表达出来。在绝大多数情形下,知识表现为数据间的相关性的集合。这些相关性中只有极少数可以被
感觉、被理解,绝大多数都在我们的感觉和理解能力之外。
人类的理解能力由感受能力和表达能力组成。人类的感受力有限,局限性来自两个方面。一是只能感受部分外界信息,例如人眼无法看到除可见光之外的大部分电磁波频谱,更无法感受大量的物理、化学、生物和环境信息。二是人类的感官经验只局限在三维的物理空间和一维空间。对高维的时空人类只能“降维”想象,用三维空间类比。对于数据间的关系,人类凭感觉只能把握一阶的或线性的关系,因为地球的自转是线性的,所以“时间”是线性的。例如当我们看到水管的水流进水桶里时,水面的上升和时间的关系是线性的,我们凭感觉可以预测大概多长时间水桶会满。人类感官对于二阶以上的非线性关系就很难把握。例如当水桶的直径增加 1 倍时,水桶能盛的水会增加 4 倍,这点就和“直觉”不相符。
人类的表达能力只限于那些清晰而简单的关系,例如少数几个变量之间的关系,或者是在数学上可以解析表达的关系(“解析表达”的意思就是变量之间的关系可以用一组方程式表达出来)。当数据中的变量增大时,或当数据间的关系是高阶非线性时,绝大多数情况下这些关系无法用一组方程式描述。所以当数据无法被感受,它们之间的关系又无法用方程解析表达时,这些数据间的关系就掉入了人类感官和数学理解能力之外的暗知识大海。
我们现在可以回答“一个人类无法理解的暗知识的表现形式是什么样的”,暗知识在今天的主要表现形式类似 AlphaGo Zero里面的“神经网络”的全部参数。在第三章详细介绍神经网络之前,我们暂时把这个神经网络看成一个有许多旋钮的黑盒子。这个黑盒子可以接收信息,可以输出结果。黑盒子可以表达为一个一般的数学函数:Y=fw(X)。这里 Y 是输出结果,fw(X) 是黑盒子本身,X 是输入信息,w 是参数集,就是那些旋钮,也就是暗 知识。
我们如何知道这个函数代表了知识,也即这个函数有用?这里的判别方法和现代科学实验的标准一样:实验结果可重复。对AlphaGo Zero来说就是每次都能赢;用严格的科学语言来说就是当每次实验条件相同时,实验结果永远可重复。读完第三章,读者就会从细节上清楚暗知识是如何被验证的。
注意,暗知识不是那些人类尚未发现但一经发现就可以理解的知识。比如牛顿虽然没有发现相对论,但如果爱因斯坦穿越时空回去给他讲,他是完全可以理解的。因为理解相对论用到的数学知识如微积分牛顿都有了。即使在微积分产生之前,如果爱因斯坦穿越2 000年给亚里士多德讲相对论,亚里士多德也能理解,至少能理解狭义相对论背后的物理直觉。但如果给亚里士多德讲量子力学他就不能理解,因为他的生活经验中既没有薛定谔的猫(用来比喻量子力学中的不确定性,一个封闭的盒子里的猫在盒子没打开时同时既是死的也是活的,一旦打开盒子看,猫就只能有一种状态,要么是死要么是活),他的数学水平也无法理解波动方程。那么我们可以说对亚里士多德来说,量子力学就是暗知识。量子力学因为没有经验基础,甚至和经验矛盾,在刚发现的初期,几乎所有的物理学家都大呼“不懂”,至今能够透彻理解的人也极少。甚至连爱因斯坦都不接受不确定性原理。
人类过去积累的明知识呈现出完美的结构,整个数学就建立在几个公理之上,整个物理就建立在几个定律之上,化学可以看成是物理的应用,生物是化学的应用,认知科学是生物学的应用,心理学、社会学、经济学都是这些基础科学的应用组合。这些知识模块之间有清晰的关系。但是机器挖掘出来的暗知识则像一大袋土豆,每个之间都没有什么关系,更准确地说是我们不知道它们之间有什么关系。
我们可以预见一幅未来世界的知识图谱:所有的知识分为两大类界限分明的知识——人类知识和机器知识。人类的知识如果不可陈述则不可记录和传播。但机器发掘出来的知识即使无法陈述和理解也可以记录并能在机器间传播。这些暗知识的表现方式就是一堆看似随机的数字,如一个神经网络的参数集。这些暗知识的传播方式就是通过网络以光速传给其他同类的机器。
暗知识给我们的震撼才刚刚开始。从 2012 年开始的短短几年之内,机器已经创造了下面这些“神迹”:对复杂病因的判断,准确性超过医生;可以惟妙惟肖地模仿大师作画、作曲,甚至进行全新的创作,让人类真假难辨;机器飞行员和人类飞行员模拟空战,百战百胜。
我们在第六章会看到更多这样的例子。人类将进入一个知识大航海时代,我们将每天发现新的大陆和无数金银财宝。我们今天面对的许多问题都像围棋一样有巨大的变量,解决这些问题和围棋一样是在组合爆炸中寻求*优方案,例如全球变暖的预测和预防、癌症的治愈、重要经济社会政策的实施效果、“沙漠风暴”这样的大型军事行动。系统越复杂,变量越多,人类越无法把握,机器学习就越得心应手。无数的机器将不知疲倦地昼夜工作,很
快我们就会发现机器新发掘出来的暗知识会迅速积累。和下围棋一样,暗知识的数量和质量都将快速超过我们在某个领域积累了几百年甚至几千年的知识。明知识就像今天的大陆,暗知识就像大海,海平面会迅速升高,明知识很快就会被海水包围成一个个孤岛,*后连珠穆朗玛峰也将被淹没在海水之下。
这场人类认知革命的意义也许会超过印刷术的发明,也许会超过文字的发明,甚至只有人类产生语言可与之相比。请系好安全带,欢迎来到一个你越来越不懂的世界!
导读
序言 “暗知识”和现代社会
寄语
*章 横空出世——暗知识的发现
骄傲的人类
天才的哽咽
机器发现了人类无法理解的知识
理性主义和经验主义之争
知识的生物学基础——神经元连接
可表达的“明知识”
只可意会的“默知识”
既不可感受也不能表达的“暗知识”
第二章 榨取数据——机器能学会的知识
机器学习明知识
类推学派——机器学习默知识
机器发现暗知识
第三章 神经网络——萃取隐蔽相关性
从感知器到多层神经网络
神经网络模型:满是旋钮的黑盒子
雾里下山:训练机器模型
AlphaGo 的“上帝视角”
局部*优:没到山底怎么办
深度学习——化繁为简
化整为零的卷积神经网络
处理序列信息的循环神经网络
AlphaGo 与强化学习
神经网络悖论
神经网络五大研究前沿
深度学习的局限性
第四章 逐鹿硅谷——AI产业争霸战
*新技术巨浪
AI 突破三要素
金字塔形的产业结构
产业的皇冠:算法
技术制高点:芯片
生态大战——编程框架的使用和选择
开源社区与 AI 生态
乱世枭雄
大卫和哥利亚
AI 的技术推动力
AI 与互联网的三个区别
第五章 飓风袭来——将被颠覆的行业
自动驾驶颠覆出行——10 万亿美元的产业
医疗与健康——世界上*有经验的医生
智能金融将导致一大批白领、金领失业
智能时代万物皆媒,人机协作时代已经来临
智慧城市——“上帝视角”的城市管理
重复体力劳动者将被机器人全面替代
打通巴别塔——黑天鹅杀手级应用
全方位冲击
第六章 暗知识神迹——机器能否超越人类
基于深度学习的 AI 本质
科研加速
唐诗高手
真假凡·高
下一场空战
群体学习和光速分享
人类哪里比机器强
人机融合
第七章 “神人”与“闲人”——AI 时代的社会与伦理
谁先失业
孩子该学什么
AI 时代的新工种
新分配制度:无条件收入还是无条件培训
贫富悬殊解决之道:民间公益
权力再分配
是否该信任机器的决定
数据如何共享
自尊的来源
机器会产生自我意识吗
结束语 人类该怎么办
致谢
附录 1:一个经典的5层神经网络LeNet-5
附录 2:循环神经网络RNN和长—短时记忆网络 LSTM
附录 3:CPU、 GPU 和 TPU
附录 4:机器学习的主要编程框架
参考文献
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录
我非常高兴推荐这本书。这本书对机器学习的发明带来的下一场工业革命进行了详尽的分析。我希望这个技术将被用来使人类的生活更美好、更和平,并不再有战争。
人工智能鼻祖之一、美国国家工程院院士、斯坦福大学教授 伯纳德·威德罗。
人们时常好奇,人工智能时代究竟会是什么样子?在我看来,人工智能带来的不仅是一次技术层面的革新,还将成为下一次商业与工业革命的核心驱动力,极有可能成为人类社会全新发现、变革、融合、发展的开端。那么人工智能技术的潜能几许,背后发展的来龙去脉如何,未来哪些产业将站在风口浪尖,哪些将被彻底颠覆,又会对我们每个人的工作与生活带来什么影响?关于这些问题,你都可以在这本书中找到答案。
创新工场董事长兼首席执行官、创新工场人工智能工程院院长 李开复。
现代社会的*大挑战一直都是:我们怎么和强大的陌生人竭诚合作?怎么利用我们无法理解的知识?王维嘉老师这本书提醒我们,这两个挑战正在变得愈加严峻。
得到App创始人 罗振宇。
王维嘉博士曾在斯坦福大学师从AI开山鼻祖之一,同时他也是AI领域的专业投资人,这样有AI研究背景的投资人在全世界都屈指可数。他在硅谷创业、投资几十年,对AI产业不仅有大局观,而且有切身感受。这本书干货满满,简明易懂,是近年来难得的一本好书,推荐每个对AI有兴趣的人都读一下这本书,特别是投资者和股民。
真格基金创始人 徐小平。
人类在实践中不断探索和提高自己的认知,但科技的发明颠覆了传统的认知结构,让机器实现了人不可能实现的功能。未来世界也许将从人类单一主导变成与机器共生的社会。维嘉的这本书将带你进入一个全新的境界,强烈推荐!
中国金融博物馆书院理事长 任志强。