本期分享两本书的精华,这两本书大部分是在飞机上看完的,读完之后收获非常大,至少是2025年上年度收获最大的。
这两本书都是与AI或者叫机器智能紧密相关的,但并不是谈人工智能,而是谈人脑,也就是人类智能的原理,汇聚了神经科学的前沿研究。内容既是分享,也是帮自己总结和回顾,算是输出型学习吧。
有点长(近7000字),如果认真看完,相信对智能认知的提升大有帮助。
1

引言:AI到底智不智能?
当下,AI发展的确是烈火烹油,以周为单位来迭代进度,每一周,我们都可以看到各种AI产品,它们在性能和能力方面都以肉眼可见的速度进化。
如果深入到产生AI的过程来做观察,其实算力、数据和算法三个要素似乎也发展到了天花板,算力可以说到了
摩尔定律的上限,训练的数据几乎已经穷尽人类已经显性化的知识,至于说算法,如果你有比较深入地了解和使用,其实也并不神秘,要么是基于统计的信息特征抽象和决策树整理,要么就是神经网络计算而形成的权重模型。
并没有让人特别惊艳,说到底,还是大力出奇迹。
从AI学习的结果来看,当前的机器学习模型基本是预训练模型,训练完成之后,就没有学习了,即使微调,那也只是一个学习事件,并不能实时学习。另外,AI学习的结果,很死板,缺乏灵活性,以视觉识别为例,图片角度一变,对AI来说就是一个新东西。
人脑相对AI来说,就要高效得多。人要理解一个概念,不需要那么多数据,也不需要那么多计算步骤,反应迅速,而且,人类每时每刻都在学习,时时都在刷新。
一比较,我们就有一个疑问,当前的AI到底有没有真正的智能?当前的AI发展路径到底是不是正确的?
2
千脑智能 - 人类智能的通用解释
杰夫·霍金斯是回答这个问题的合适人选。
他是美国工程院院士,是一名计算机科学家(Palm创始人),后来也成为了人脑研究科学家(Numenta创始人),所以,他很清楚计算机和AI的原理和能干什么,他在研究人类智能时有非常强烈的比较研究视角。
他写了两本书,一本叫《智能时代》(注:2022年换了出版社,改名为《新机器智能-边缘计算重塑AIoT产业生态》,这书名完全是标题党,因为它和边缘计算、AIoT没有关系,而且,我个人觉得《智能时代》翻译得更好),另一本叫《千脑智能》。前一本书是2005年出版的,后一本书是2022年出版的的。后一本书基本上涵盖了前一本书的内容,但前一本书包含了大脑研究的更多细节。这两本书都是面向非脑科学的专业人士,科普大脑的智能原理。
综合来说,这两本书在人脑智能方面,讲了如下的核心内容:
1、新皮层是人类智能实现的生物器官。
新皮层也叫新脑,是相对于旧脑而言的。
所谓旧脑,就是哺乳动物之前就形成的大脑,典型的就是爬行动物大脑,负责生存必须的功能,比如控制呼吸、心跳、肌肉行为、情绪、反射等功能。新脑负责高级认知功能,比如理解、创新、分析、预测、研究等。
新皮层可以控制旧脑,并通过旧脑完成行为,比如,新皮层组织语言,但需要通过旧脑控制肌肉发声。新皮层理智,比如,我们看到一条蛇,旧脑本能反射是远离并激发恐惧,但新皮层会分析判断,分析之后,认为并不危险,并且控制旧脑克服恐惧,绕开蛇。与其他哺乳动物相比,人类的新皮层非常发达,占整个大脑的70%。
2、所有的新皮层都具有一个相同的功能结构
这个发现是非常关键的,提出者是霍普金斯大学的神经科学家芒卡斯尔(Mountcastle),构成了霍金斯的理论基础。
核心意思是,尽管新皮层分为几十个功能区域,比如有听觉区、视觉区、语言区等等,但每一个功能区域的处理逻辑和生理结构都是一样的。
具体来说,新皮层由大约15万根皮质柱组成的,每一根皮质柱分层处理感觉信息和形成认知的,极简粗略地说,每一根皮质柱都是先处理多模态的感知,并调用模式记忆进行预测。
相同功能结构的意思是,皮质柱可以处理任何一种模态的感知输入,并没有一个专门为某一个感知服务的皮质柱。假如一个人因故致盲,我们可以将外部的摄像头和原本听觉区的新皮层神经纤维连接,从而恢复视力。
这个通用计算特征赋予大脑极强的灵活性。一个盲人,可以通过增强听觉和触觉,能获得不亚于拥有正常视觉的感知能力。
同时,也赋予人类极强的通用学习能力,一个人只要愿意,他可以后天学会几千种技能。
3、新皮层的记忆模式
新皮层存储的是感知模式,不是我们理解的知识(比如事实、规则等),这种模式是一种类似于地图一样的参考系。这是一种非常高效的存储模式。
比如我们看到一棵榕树,新皮层存储的是这棵树的三维空间结构以及附着其上的各种特征事实,同时还保留着这棵树的时序特征、环境地图等信息,存储的模式中既包含了细节,也包含了抽象概念。
这些信息存储在哪里呢?答案是突触上,一个神经元细胞上大约有5000~1000个突触,考虑到人类的神经元有800亿~1300亿的庞大数量,整个新皮层的突触量就异常庞大。

信息存储之后,如何检索取出呢?大脑的检索是通过一种联想记忆检索模式来完成的,这种检索模式可以完成模式识别。比如,一个熟练的医生,长期实践后保留了大量的病人的患病模式,这样,他在看到一个问诊的病人后,就会触发模式识别,形成直觉判断。
这种模式存储还具有不变表征的特点,比如识别某个人。即使人脸的角度、识别的情景多种多样,变化无穷,但我们都会识别出这个人。
除此之外,新皮层的记忆还具有很强的可塑性,遇到新的模式后,会改变存储,这让人具备了实时学习的能力。
4、大脑构建世界模型
所谓世界模型,主要指的是人类大脑对外部世界建立的表征模型。
拿一个生活中的例子来说明。
我们可以通过视觉观察天空中的云层变化,会形成云层变化的基本认知,如云层会移动,会逐渐消散,不同的颜色代表不同的天气。
与此同时,我们还通过多种感知方式获得云层变化的多维信息,比如,乌云密布的视觉情形下,有可能会闪电、雷暴,同时,有风,气温有变化等等,这些都和云层变化相关,构成了一个丰富感知的模式。
这就是世界模型。
人类的知识都源于世界模型的构建。这个建构的过程大体上分为三个环节:
- 感知。通过各种感觉器官获得感知信息
- 建模。也就是大脑在感知的基础上,建立起前面提到的类似于地图一样的参考系。
- 预测和行动。一旦建立了参考系之后,大脑就会对情景进行预测和行动,结果和预测一致,人并没有特别的感觉,如果不一致,就会引起注意,并修正模型。
举一个例子。
桌上有一个水杯,我们会通过各种感知来获得这个水杯的世界模型,如,我会端详,拿起来从各个角度看,感受到重量、气味、光泽、拿起和放下时与桌面的碰撞的质感和声音、装上水的状态等等,这些都构成了世界模型的一部分。
大脑中会建立三维的视觉地图、拿起放下时的时序模型等等,这就是关于水杯的世界模型。
如果,我拿起水杯,新皮层调用世界模型,进行预测,用多大力度,我应该有什么样的感觉,如果和平时建立的模型一致,我不会有任何感觉。
假如,我拿起水杯,失手没拿稳,水杯掉到大理石地板上了,我想“糟了,水杯要碎了”,但随着一声略沉闷的声音,水杯滚了两下,没碎。这就异常了,和预测不符,就吸引了我的注意,仔细一看,反复端详和掂量,发现这个水杯和平时的水杯不一样,查询之后,知道这是Tritan水杯。
我刷新了自己关于水杯的世界模型。
就对人类认知形成的解释来说,世界模型是一个很有说服力的模型,除了逻辑推理严密之外,在本书中,也有一些经验证证实的实验数据。
5、认知的结构 - 参考系
作者认为,参考系是大脑存储和组织知识的方式。
那么,什么是参考系呢?
对于非虚构的实体来说,参考系比较像地图或者时间序列的结构。星巴克的位置,可能是一个二维空间参考系,也可能是三维空间参考系。一段抖音神曲,存储的可能是一个时间序列的声音旋律参考系。
对于抽象的概念性知识来说,参考系更像是一个类比参考系+多维度高维空间。比如,DNA分子的双螺旋结构其实就是一个类比,物理上并不存在。
还比如,我们怎么理解一元二次方程这样的抽象数学概念。这个数学概念,有一个可以类比的空间结构,放置未知数和值,比如数轴,这样就容易理解。另外,这个数学概念还有一些维度,比如系数(abc)、变量、解,还有一些维度之间的关系,比如a=0时,方程就退变为一次方程等。
可以看出来,抽象概念认知的关键,是参考系构建的完善程度。
一个人要成为一个领域的专家,关键在于构建合适的参考系。参考系,特别是概念类参考系的构建,是人与人之间形成差异的重要原因。
6、只有在运动中才能获取信息和构建知识
这个关于大脑的认知非常有启发性。
人类大脑只有在感觉器官运动时才能获得信息,并构建世界模型,静止状态是无法获得知识的。这里的关键点是要建立一个随着时间变化而形成的动态感觉序列,只有在这个基础上,我们才能形成知识。
比如,把手伸到一个黑箱中,从里面拿出一块三角玩具。如果只是伸进去,不进行一段时间的触摸,这个任务是完成不了的,因为,大脑无法追踪变化规律,无法将分散的感官信号整合为连贯的世界模型。
从参考系的角度来看,静止状态是无法获得位置和特征信息的映射关系,位置的定义必须通过运动才能完成。比如,上面的例子中,人脑需要定位(比如玩具的边缘),持续感知识别三角的特征,才能识别玩具的特有模式。
这个过程贯穿了预测-修正的过程,运动过程中不断预测并修正判断,这样才能完成整个的认知识别过程。
这个结论,不仅适用于实体性认知,而且适用于概念性的认知。比如,一个人想要深入了解加速度这个概念,他就需要不断地与加速度有关的场景进行互动。
7、千脑认知过程 - 分布式的信息处理
你可能很好奇,作者的这个理论为什么叫“千脑”智能。这其实涉及到大脑信息处理和智能产生的过程。
新皮质由15万根皮质柱组成,这每一个皮质柱都具备感知输入、建模和预测的功能,相当于一个迷你大脑,它们在学习的过程中,负责学习一个实物或一个概念的不同方面,比如有的感知触觉、有的感知声音等等,这些感知和信息分布式存储在成千上万根皮质柱上,构成了我们的整体认知。
对一个事物的处理,涉及到那么多的、不同的皮质柱,它们是怎么形成一个整体,怎么形成一个概念层面的共识呢?主要是通过皮质柱的互联机制和‘投票’机制来形成整体共识。
比如,在一个昏暗的夜晚,你外出找走失的小狗,夜色朦胧之下,你看到一个小狗身影,它也不断走动,看起来像,你呼唤几声,小狗有回应,走近一看,果然是旺财。
这个过程就体现了多世界模型和分布式处理。大脑的信息处理和认知形成,就是这么完成的。
8、思考和意识
有了前面的认知基础,接下来,我们可以谈谈作者对于思考和意识的认知。
作者认为,思考就是意识在参考系中移动的过程。就如同用手指触摸物体时所感知的一系列感觉一样,或者在小镇上行走时所看到的一系列事物一样,思考就是在参考系中的 “移动” 过程。
比如,我们要设计一款智能手环产品,这里面的参考系极有可能是一个个的知识地图(比如产品定位、产品对标、创新模式...),思考的过程本质上是从一个参考系到另外一个参考系的跳跃或移动。
那么,意识是什么呢?
作者并不认同意识可以脱离肉体,也不认同意识是一种量子涌现现象,因为这都是没有证据支撑的玄学。
他认为,意识本质上是一个基于感知的连续记忆过程。比如,我们走在大街上,看到店铺、树木和行人,我们其实并不仅仅是感知当下的事物,而是大脑快速提取关于这些事物的记忆,并与当前的感知结合,形成一个基于感知的连续记忆。
这就是意识。
对错误信念的坚持,其实也是对这个认知的一个证据。比如,如果我们有一个“地球是平的”这个世界模型认知,当我们走在大街上、走在山地上,我们会调用这个认知模型的记忆,不断强化当前的感觉和记忆模式,甚至会忽视这个过程中与之相悖的信息。
3
对认知发展的启示
杰夫·霍金斯的《千脑智能》本质上是科普读物,读起来并不困难,加上他是两个领域的交叉科学家,始终站在比较的角度,瞄准问题而展开的,内容前沿,因此,有很好的指引作用。
对我来说,这本书给我带来这样一些启示。
1、大脑并不是一个黑箱,它有一个整合的理论
以前,我们认为大脑是一个黑箱。我们输入信息,看大脑的输出结果,从而推断它的功能。也就是通过行为来定义智能。
现在看来,这是错误的。诚如作者所说,即使我坐着、躺着,什么都不做,我仍然是智能的。
这就挑战了图灵测试。在图灵测试中,只要人与智能体对话互动,如果人类认为对话者是人,但这个智能体其实是机器,那么这个机器就有智能,这就是以输出行为来定义智能。
有了千脑智能理论,尽管大脑仍然非常复杂,但是,它现在变得可解释、可理解。
还有另外一个误区,就是机器学习中的神经网络,这是一个模拟早期人脑理论的算法,也是当前AI的基础算法和发展基石,它将输入(语言、图片、声音)进行多层的信息特征抽取,不断计算,最终形成知识和理解认知,从而实现翻译、人脸识别、图片内容识别、语音识别等丰富应用。
这是一个巨大的进步,但仍然不是人脑的处理模式,人脑的处理过程比它更高效,而且在‘千脑智能’看来,人脑的处理过程并非层次特征模型,人脑要聪明很多,当然也要复杂很多。
AI浪潮之下,我们完全有理由对人类智能保持长期信心。
2、实践是学习的原因,也是学习的过程,还是学习的结果
我们要认知世界,就需要在世界模型中多模态地感知,这就是实践和真实世界的情境,我们在这个情境中感知、建立高效的参考系,这是原因、过程和结果的三位一体。
太完美了。
静态的学习,不参与实践的学习、缺乏场景的学习,都不可能发生学习。
3、建立高效模型是成功的关键
世界模型是我们认知的基础,也是我们智能的基础。本质上,智能就是预测,而预测使用的是世界模型。
除了亲身感知和实践去建立模型之外,我们还可以从其他人那里获取认知。
人类和其他很多动物不一样,我们是高度社会化的,所以,社会化的大群体共享认知模型,是我们的一项优势。
这一点,我和作者看法不太一样,作者认为那些通过互联网、人际传播的认知隐藏着巨大的不可靠性。这种情况当然存在,但同时也是一个巨大的机会。
4、隐性经验传承的未来路径,应该是多模态的模式感知与复制
认知类的经验,是否可以通过语言总结的方式来提炼?
我一直持有强烈的怀疑态度,因为,真正的行业高手,处理情境问题、完成挑战任务,已经形成了一种直觉,这种直觉大多数情况下并不能用语言来表达和呈现。
深入看完《千脑智能》之后,我更确信这一点,人类高效的世界模型和参考系,是多模态的,大部分和语言无关。
那这种宝贵的隐性经验怎么保存和分享呢?
我想应该需要多模态的输入输出方式才能完成,在这种创新没有完成之前,这应该始终是一个难题。
4
对AI发展的启发
《千脑智能》理论对于人工智能(AI)的发展,也有很多启发,毕竟杰夫·霍金斯之所以研究神经科学,本身就是奔着机器智能去的。
在我看来,有几个基本的判断:
1、AI发展,目前处在“差分机”的阶段
目前,尽管AI处在大爆发的阶段,而且也取得了非常突破性的进展。但通过对比人脑智能,就会发现机器智能目前并没有实现动态感知,也没有形成世界模型,因此,繁华的背后,横向发展繁华依旧,但纵向发展应该是比较接近发展的上限了。
下一阶段,AI将前往何处?应该是类脑智能。因为人脑新皮层的可解释性,让它可以成为支撑AI的基础发展理论。当前的AI,大概可以类比于现代电子计算机出现前夜时的差分机。电子计算机出现100多年前,英国数学家巴贝奇发明了机械式的通用可编程计算机,就是差分机,大概是这个样子。

现代计算机是电子的,原理和差分机相差不大,但使用的方法和实现的技术路径差别很大。
我觉得现在的AI,相对于未来机器智能可能的高级发展形态,就好比是差分机。
2、未来的机器智能(MI)想象空间非常大
因为人脑的新皮层是一个通用模型,未来的类脑应该也是通用模型,这就意味着机器的感知可以非常丰富,有视觉(广谱的光谱感知)、听觉、触觉、嗅觉、回声反射、磁场感应等等,只要有传感器就行。
同样,人脑也具备这样可拓展性。
如果有合适的人机接口,人脑完全可以学会感知磁场、回声等等的能力。
与此同时,机器智能的能力也非常有想象空间,比如,人脑新皮层的皮质柱是15万根,机器完全没有这个上限,这就意味着机器有着非常强大的感知分析、建模和预测能力。
同时,基于硅基的计算速度大约是神经元的生物计算速度的100万倍,尽管,这个速度不代表整体能力的倍数,但这个处理能力也非常惊人。
3、机器智能可以为人类所用
主要的原因是,基于新皮层的类脑是理性分析机器,它并不提供意义和目标。
也就是说,如果人类只创造基于新皮层的机器智能,那么,MI就是在人类的控制之下,为人所用,至于说用来干什么,那就是不同的人事情了。但这个意义和目标是怎么确定的,作者并没有详细展开。
我猜想,由两个部分确定的,一是旧脑,它基于生存和繁衍的需求,提出各种欲望和诉求,二是无进化压力的技能发展诉求。无论如何,至少在较长时间内,机器智能还是可控的。
至于人类的结局和未来如何?没人知道,未来永远是晦暗不明的。作者当然谈了很多,比如防止灭绝的三条路径等。因为这一部分的内容和AI原理和学习有点距离,我就不深入了。如果你对这一部分感兴趣,你可以看看原著。
如果你看到了这里,说明你真是一位爱学习的专业选手,祝你阅读愉快。
(END)