智能

David QiDavid Qi
5 min read

目前,尚无一个被广泛接受的理论来解释智能是如何在人脑中发生的。

硅谷创业者 杰夫.霍金斯 团队在2017年发表的有关层级时序记忆 (HTM) 的 论文,提出了关于皮质柱与参照系的新理论。我赞同他的大部分看法,但是在信息整合、注意力发生等方面我有自己的看法。本节内容中关于皮质柱与参照系的内容是围绕杰夫.霍金斯的 千脑智能 论文来阐述的。我对其内容进行了高度概括,并使用了更易理解的名词。

目前,只有人类拥有智能。所以,我们只有经由对人脑的研究来理解智能。

首先,我们为 智能 下一个定义。

💡
智能是指,将知识以一种结构组织起来成为模型,模型则对事物的运行提供了预测。

比如,一个城镇的地图是这个城镇的模型,它为我们走近路去向某个目标点,提供了规划或者说预测。这样,绘制一张地图,或者使用这张地图指引道路,这两件事情都需要使用智能。

大脑通过 学习 获得结构性知识。那么,什么是学习呢?

我们如果将大脑理解为一个有感官信息输入,以预测与决策作为输出的函数的话,那么学习可以大致这么定义:

脑的输入输出模式被感知所改变,就是学习

前面在谈论质感的章节中,我们对感知基本有了一个认知。你和我每时每刻所感知到的,其实是内部模型,它是真实世界在大脑中的反映,但不等同于真实世界。大脑作为生存工具,其首要目的是通过感知,以质感为材料,构建内部模型,提供及时的预测,帮助我们应对变化。

学习的产出是大脑中的内部模型。

比如,城镇的地图就不会细致到标示出城市的植被,居民的分布,城市的交通拥堵情况甚至区域犯罪率等等。每一个模型都有其片面的适用范围。我们可以同样地理解智能,它是一个关注真实世界的某些方面的知识的结构化模型。它同样受到时间性、演化性、有限性这三者的强力制约,是生存工具,是发展中的事物。

为了深入探讨人脑中内部模型的实现方式,让我们从新皮质本身的结构以及其中传递的数据来着手。

新皮质的同质性

新皮质的特别之处在于,新皮质在物种之间、其自身各部分之间异乎寻常的 同质性。新皮质各处的神经元及其连接都如出一撤。哺乳动物之间,比如人、鼠、猿猴的新皮质也非常相似。它们之间的差异主要体现在新皮质的尺寸大小。很多证据表明,新皮质是通过不断复制自己来变大的。

新皮质中,有的区域处理视觉,有的区域处理听觉,还有些区域处理语言,但它们都是同一类问题的不同变体,都是被同样的算法所解决的。神经学家 Mountcastle 认为,新皮质的存在专门区域处理视觉,只是因为这块区域接收来自眼睛的视觉信息。如果这块区域转而接受来自耳朵的信号,它就会处理声音。该发现已经被多种迹象佐证。

在多数时候,大脑中演化出的新部件是很不相同的,比如脊髓、脑干和基底核。这些新部件具备各自的特殊能力。物种中演化出一个新部件的速度很慢。但在出现了哺乳动物之后,情况就不同了。新皮质在所有哺乳动物中广泛出现,大小差异而结构相同。

这说明,新皮质是一套通用结构和算法

有了这套普适结构与算法,从直立人到智人的短短几百万年中,人脑就能快速增大三倍以上。

新脑——也就是新皮质——插接在旧脑上。信息被感官收集后,沿脊柱上行,先进入旧脑进行初步处理,然后由旧脑转发到位于后脑勺的新皮质,在那里开始被新皮质不断分级加工处理,沿着头顶和头两侧前行,最终进入较为高级的额叶与颞叶——我们的额头和太阳穴。

我们可以将人脑想象成是爬行动物旧脑上插着哺乳动物新脑。旧脑保留感知环境和运动能力,新脑不能独立运行,它必须与旧脑交互,来间接影响决策、情绪和行为,以便完成新颖的改良行为。

新皮质有两个输入。

其一是从旧脑转发过来的感觉信息的副本。感觉信息先由视网膜、耳蜗以及皮肤和关节处的感知细胞收集,流向旧脑,那里会做进一步处理,处理中旧脑可能发出运动指令。在这条路径的某处,神经元的轴突分岔成两条,其中一条通向新皮质。

其二是旧脑发出的运动指令的副本。比如,行走是由脑干和脊髓的神经元控制的。这些神经元的轴突也分岔成两条,其中一条在旧脑产生行为指令,另一条则通知新皮质。眼球运动由旧脑中称作上丘的脑结构控制,上丘神经元的轴突把它们活动的信息副本传递到新皮质,让新皮质知道将会发生什么运动。

不论是何种感知信号,输入新皮质的信息是一种以时间排列的流式信息,像是电影而非图片。

稀疏编码——通用数据格式

HTM理论中有一个核心概念 SDR 也即 稀疏编码。在解释它之前,我们需要了解新皮质的基本结构。让我们首先观察新皮质中的神经元是如何组织起来的。

上图中一个小圆球表示一个神经元。可以看到,神经元上下排列成一个柱子 Column,我称之为微柱。大量微柱并列站在一起成为一个平面,称为层 Level。大约六层构成了一个皮质柱上下结构。下图中,我们可以看到皮质柱的截面,其中充满上下排列的点列组成的横向矩形,这是一个层的断面。下图左侧,上下叠在一起的6层构成了一个更大的矩形结构,这就是大约2.5毫米高的皮质柱,右侧是其中一层的断面。

大约15万个这样的皮质柱并列在一起构成了大脑中的新皮质,展开的总面积比一张报纸稍大。

总结一下,新皮质中的神经元结构是:

神经元上下排列 -> 微柱
微柱横向并列 -> 层
上下六层 -> 皮质柱
皮质柱横向并列 -> 新皮质

以上结构是我们理解 SDR 的背景知识。

已有很多研究表明感觉器官将接收到的信息转化成 稀疏数据,比如耳蜗上面的绒毛细胞:

耳朵里面的耳蜗部位是一片对音波非常敏感的皮肤,该处皮肤表面 随机 分布着很多不同的绒毛细胞。人能听到的声音的频率范围是从 20Hz 到 20kHz。每个绒毛细胞能够感知一定频率的音波。当音波的频率在某个绒毛细胞接受范围内时,该绒毛细胞及其关联的神经元被激活。比如,当500Hz音波传到耳蜗时,可接受此频率的神经元全部被激活,但这些绒毛神经元的数量只占绒毛神经元总量的非常小的一部分。

我们可以发现,外界信号在神经系统中的处理是存在很大 冗余 的。耳蜗表面上广泛分布的许多绒毛细胞都可以感知相同频率的音波。当某频率的音波输入时,这些绒毛细胞都会被激活,被激活的神经元所在的微柱,广泛分布在大脑内部对应的听觉皮质的平面上,形成下图中互相间隔的稀疏红点。

上图中,下方的灰色方块为一个 感受野,对应着耳蜗内一片很微小的皮肤表面。在大脑中,一个感受野由很多相邻的感知细胞组成,它们的感知信号由同一个微柱来处理。但是,不同感受野之间存在重叠,这就形成了冗余。某个感受野的感知信号被传递到同一个微柱,并决定该微柱是否激活。图中,激活的微柱是红色,这些红色微柱在皮质柱的层上所构成的点阵,就是稀疏编码,简称SDR。

这个点阵表示在声音在某个时刻的信号形态。比如,我们听到了一首歌曲,在这首歌的第10秒钟,它的声音信号中包含人声、乐器声、背景噪音等等,在我们大脑的某皮质柱某层的二维平面上,形成了一个由激活的神经元构成的点阵。具体是那些神经元被激活,由此刻声音的频率构成决定。某一时刻的歌声,往往是由多个频率复合叠加而成,所以会有很多离散的微柱被激活。如果将激活的微柱标识为黑色,未激活的为白色。那么,我们可以看到,在听觉皮质的层平面上,黑点之间相距较远,分布稀疏,这些黑点构成的点阵像是 图样 一样,这个图样也就是 稀疏编码

稀疏编码是平面上的稀疏点阵。它是新皮质中的通用数据结构。

它不光存在皮质柱层、微柱层这些级别上,同样存在于更下级的神经元一级。

一个神经元上的某个突触,也可以视作一个点。一个神经元有大约一万个突触,这相当于一万个点。这些点分布在三维空间中,不同的点距离该神经元的细胞核的距离不一样。在理解时,我们可以想象突触也分组为多个平面,这些平面由距离细胞核同等距离的突触来组成。这样,我们就会发现神经元处理突触信号的方式,与皮质处理皮质柱,或者皮质柱处理微柱的模式是一样的。

假设一首歌长三分钟,耳蜗的某感受野每秒钟采样一次,这样一共有180次采样。每一次采样构成了一个SDR,这些按照时间排列的 180个 SDR 前后组成的一个序列,该序列就是这首歌给听觉皮质之某微柱的输入信号。

在处理感觉信息时,冗余带来了很多好处,其一是滤波,其二是快速辨识信号的主要特征。

由于信息冗余的存在,相邻的微柱之间会通过侧向抑制来抑制噪音。侧向抑制 也被称为赢家通吃,在下图中用微柱层上的蓝色半透明圆形表示。在这个范围内,抢先激活的微柱会抑制邻近的其他微柱的激活。这避免了几个激活的微柱紧紧挨在一起,有利于稀疏点阵的形成。比如,视觉中快速辨识物体的轮廓,辨识色块的边缘,辨识运动物体与静止背景的区别,这都是侧向抑制在发挥作用。

[1034295-20180120170452943-1675752858.png|600]

一首歌曲的旋律不仅仅与某个时刻的采样相关,还和它前后几秒钟的采样也相关。如果某噪音在前后几秒钟就迅速消失了,那么它就不会影响歌曲的主旋律。大脑既可以在某个时刻的采样上,通过侧向抑制在二维平面上滤波,还可以在时间维度上,通过比对前后SDR来进行噪音滤波,更可以在这两个维度上都采用侧向抑制来快速采样主特征信号。

那么,学习 在上述过程中如何体现呢?我们再看一看这个皮质柱中的点阵结构。

[1034295-20180120170452943-1675752858.png|600]

前面提到,微柱组成了多层结构,在上下层的微柱的神经元之间,还存在已有的或者潜在的 突触连接。上图中实际链接和潜在连接分别用实线和虚线来表示。可以看到,实际连接和潜在连接的数量要远大于微柱数量。

潜在连接转变为实际连接——也就是上图中虚线变成实线——的条件在于突触连接的持久度大于某个阈值。此阈值对于每个突触可以不一样。更新阈值的过程遵从赫布规则:经常激活的连接被不断加强,许久未激活的连接则被逐渐削弱。因此,阈值在学习过程中不断调整,是大脑的学习过程的关键结果。在数学上,上下两层之间的连接是一个由突触连接阈值构成的二维矩阵来描述的。

如果我们站远了观察这整个图景的话,我们会发现,新皮质处理信息的模式是:

  • 感觉信息从感官输入之后,被切分成为很多小部分,每一部分都由很多前后递进的层来处理。

  • 每一层都有并列的很多微小处理单元。每个处理单元都对前面层的信号通过连接阈值矩阵进行采样,决定自己是否激活。

  • 这样,每一层激活的单元在一起构成了一个SDR作为输出。

  • SDR是层之间传递数据的通用格式,它的表现形式很简单——二维点阵。

  • 这里的层至少包括三级递进关系:神经元中突触构成的虚拟层、微柱层、皮质柱层。

  • 这样,感觉信号就被切分为很多互为冗余的微小部分被各自并行处理,处理发生在很多递进的层之间。

  • 每一次递进,就意味着信号的采样、降噪、特征抽取,SDR编码因而越来越具有实际含义。

注意,由于信号在神经元中是单向流动的,从树突进从轴突出。因此,我们应该将这些链接视作有向连接,它们可以分为三类:

  • 从下到上的 前馈连接,感觉信号沿脊柱上行,经过丘脑与初级皮质,最终达到新皮质。

  • 从上到下的 反馈连接,信号从新皮质的高级皮层下行,传递到丘脑和初级皮质。

  • 同层的 横向连接,信号在同层神经元之间传递,这是神经元的上下文环境。

连接的方向性对于我们理解神经元的预测机制,乃至人脑中意识的形成,都具有关键意义。

让我们回到SDR上来,它还有一些不可思议的特性。

不可思议的SDR

首先,SDR是编码和表征的统一,就是所见即所得。

电脑内存中某处的一个字节并没有固有的含义,在程序运行的某一时刻,这个字节表示一个意思,在另一时刻,它又表示别的意思。

但是,SDR不一样,它是生理意义上对表征的编码。一条SDR由数千个比特组成,在任何时刻,有一小部分的比特是1,其余的是0。置1的是激活的神经元,置0的是抑制的神经元。这里面 每个比特都有意义,因为,1意味着一个真实存在的激活的神经元,它代表了某个成立的选择。比如,某点的颜色、形状或者明暗。该SDR越是出现在信号处理过程的中后期,它的某个比特越是倾向于具备某个表征意义。

如果新皮质某处某层的两条SDR在相同位置上都有 1,那么它们就都表征了某个特征。两个相同的SDR必然指向同一个事物。完全不同的SDR,必然指向完全不同的事物。相似的SDR,它们的值越是相似,则表示它们所表征的事物本身也越是相似。

还记得我曾经假设的 可逆计算 吗?我相信,编码与表征的一致性是SDR可逆计算的实现机制。

其次,SDR是全息的。也就是说,一个SDR可以同时表征多个特征。

因为在神经元网络中不同空间位置上激活的神经元,表征了不同的特征。因此,它们的组合所形成的SDR,也表达了这些特征的组合。

然后,SDR是大脑使用的通用词汇

任何类型的信息都可以在新皮质中被编码为一条SDR,比如声音、图像或者抽象概念。通过处理SDR,新皮质成为了通用机器。新皮质的各个区域都操作SDR,并不用知道它们在现实世界代表什么。只要输入数据采用了适当的SDR格式,新皮质的通用算法就可以工作。比如,原先处理听觉的新皮质区域,在这个人失聪后,就可以转而处理触觉了。

此外,SDR具有健壮性,它可以被大幅度压缩而不丢失信息。SDR之间可以进行快速的逻辑运算,比如与、或、非运算,得到事物之间的相同表征、不同表征、主要表征以及相似性等等。SDR对于噪音的容忍度非常高,可以通过逻辑与操作来降噪,噪音即使到达三分之一左右也能被轻松排除。

最后,突触是SDR的存储方式

计算机内存被称作随机存储器,随机这个词的意思是,只要你知道信息的地址,你就可以直接检索它,无需从头开始。就像你知道某个警句在书中的页码之后,你用手直接翻开书本找到该页,而无需从第一页开始查找。

大脑中的存储器称作 联想存储器。一条SDR与另一条或者多条SDR相连,联系会一直持续下去。SDR通过与其他SDR的关系被检索出来。没有中心化的存储器,每个神经元都会参与形成SDR。在神经元内部,则是突触连接决定了存储方式。

假设有两个事物 A 和 B。事物A激活了20个神经元,模式B激活了另外20个神经元。

一个神经元最多有一万个突触,这些突触中,与事物A的神经元群有20个突触连接,与事物B的神经元群则有另外20个突触连接。这两组突触完全重叠的概率极低。所以,如果前面一组突触被激活,则可以认为该神经元与事物A产生了关联。我们就可以说,该神经元与事物A产生了关联,成为其数据记录的一部分。

小结一下:

  • 新皮质将信号处理为稀疏编码 SDR,也就是二维点阵。

  • SDR是新皮质处理信息的通用数据结构。

  • 任何感知信号,不论是声音、视觉、触摸、味道,当它们传递到大脑之后,都体现为SDR序列。

  • SDR具有数据与表征一致,全息性,健壮性等等优点。

  • SDR以突触连接的方式被神经元记忆。

下面我们沿着这个粗略的框架继续摸索,探讨神经元的预测机制。

预测机制的微观阐述

智能的核心能力是预测。

预测,比如天气预报,是对将来要发生事情的猜想。对于新皮质特别是其中某微柱而言,预测被定义为:

当获得输入之后,微柱能产生一个输出,这个输出信号与将要发生的后续输入在一定程度上吻合。

HTM理论认为:预测是通过对于记忆的回放来达成的

这很好理解,我们在每天早上醒来后,发现天空会逐渐明亮。这个经验成为我们的记忆,之后我们就会预测说,明天一大早醒来后,天空还是会亮起来。

HTM理论中,人的记忆在微柱中体现为时序记忆,它就是前面提到的SDR序列。

如果我们将预测当作一个数学函数的话,那么它所做的事情,就是获得一个SDR输入之后,能够解析它,然后返回另一个SDR输出。该输出与新的输入进行比较,如果吻合则预测成功,否则预测不成功。不成功的预测,就是意外

预测通过学习达成,学习则是通过改变突触连接而实现的,也就是说:

突触连接是大脑中的数据存储机制。学习是通过更新突触连接来记录环境的过程。

论题如此之大而观点如此简单,是不是跨度太大?好在我们在前后章节中还会一再从各个角度阐述,我希望能用最简单的语言将这个问题讲清楚。

下图是一个用SDR序列表达的学习过程。

在A图中展示了皮质柱的一层。在B图中,A、B、C、D为四个SDR,它们代表了某皮质柱中的SDR序列输入的一种情况。X、B、C、Y则是该皮质柱输入的另外一个序列,代表该皮质柱输入的另一种情况。我们看一看学习前后的差别。

B 图表示在学习前,皮质柱对SDR序列没有做任何预测。

C 图表示在学习后,当信号 A 输入后,皮质柱产生了 B',在该图案中,三个微柱中各自有一个神经元激活了,它预示着,这三个微柱在接下来的B信号中应该会被完全激活。 C' 和 D' 也是同样道理。

在另一种情况下,当 X 输入后,应该同样是B激活。但是,由于A可以引发B,X也可以引发B,所以皮质柱此时做了区分,分别由三个微柱中的不同神经元来区分,表示为 B'' 。 C'' 和 Y'' 也是同样道理。

这样,B'C'D' 是对BCD的预测, B''C''Y'' 是对BCY的预测。预测的本质是对于以前输入的SDR序列的回放。

下面的一张图可以更清楚地看出预测过程的发生。

上图中A输入后,皮质柱根据记忆,预测出 $B'$ 图中红点并提前激活了这些红点。因为这些点与B吻合,预测成功,所以该皮质柱接下来还会预测 $C'$ 。

下图可以帮助我们理解藏在SDR序列中的分叉逻辑。

在ABCD序列和XBCY序列中都会出现 B -> C 这个环节,所以在C输入后,皮质柱根据记忆,将C之后可能激活的 D 和 Y 所属的微柱都激活了(由该微柱的一个神经元来代表),然后根据实际输入来检验到底是发生了 D 还是 Y。

由此可见,神秘的预测能力,在具体到皮质柱这个级别后,不过是简单的SDR序列的记忆以及回放。但是,我们也不能因此小看了它。

上面只是简单阐述了同一皮质柱层级的 SDR 序列记忆能力。如果我们将这种能力扩展到皮质柱的不同层级上,那么,当上层级接受下层级的输入后,再向下层级返回其预测,这就完全不同了。我们可以将某层级的SDR序列回忆能力视作一个预测函数。此时,下层级向上级提供输入,是预测函数的使用者。上层级则实现了预测函数,输出预测结果。

在这种情况下,我们有必要修正前面使用的简单的神经元模型,改用更为精确的模型来描述预测机制。在前述章节探讨神经元网络时,我们对神经元建立的一个简单模型:

上图是在各种 人工神经网络深度学习 中被广泛使用的神经元模型,称作“点神经元”。这种神经元模型有相对很少的突触,而且没有树突。点神经元通过改变突触的权重学习。点神经元计算其突触输入信号的加权和,然后代入某个非线性函数来确定它是否激活。

新皮质中的神经元细胞也称为 锥体细胞,它是新皮质的基本单元,记忆是发生在锥体细胞内突触连接上的。因此,我们有必要阐述在锥体细胞中突触的模型。

上图左侧是一个锥体细胞,也就是新皮质中的神经元。

每个神经元都在三维空间中分布的上万个沿树突排列的突触。每个突触是大脑中最小的信息单元,相当于一个比特。神经元通过形成新突触和去除闲置突触来完成学习过程。一个神经元的所有突触构成它的SDR点阵,前后不同时间上的 SDR 则构成了 SDR 序列,这些 SDR 序列允许该神经元识别数百个不同模式。可以看到,发生在微柱层、皮质柱层上的SDR模型可以在神经元内部经由突触重演

点神经元模型是对突触很少的神经元的建模,并且没有考虑信号的不同流向。输入到神经元中的信号来自三个不同方向:

  • Feedforward :经前馈连接输入的上行感觉信号, 它被感受野决定,同一个微柱共享该输入。

  • Context :从横向连接的获得的同层其他神经元的输入。

  • Feedback :经反馈连接输入的下行的预测信号。

这三类信号经由突触及其不同权重加总后,汇聚到神经元细胞核,决定其是否激活并向轴突传递输出信号。这个模型中,预测的关键是从 Feedback 下来的反馈信号。

那么,能观察到这种反馈信号吗?

有时,神经元会在进入稳定的激活状态前,会先输出两到四个快速交替的微爆。这些微爆对其下级神经元产生持久的影响。一般而言,一个神经元会处于以下状态之一:

  • 激活:向下传递信号中。

  • 抑制:没有向下传递信号。

  • 预备:接受到了微爆,正式激活前做好了准备。

  • 预备后激活:微爆之后接受上级神经元传来的信号。

上级神经元会通过微爆启动后续神经元的预备状态

微爆会活化下级神经元的代谢性受体,这会引起下级神经元去极化,使之进入跃跃欲试的预备状态,就像短跑运动员听到了“预备”的号令一样。预备状态下的神经元如果再接受到上级神经元传来的相应SDR,则其激活速度更快,激活后对周围的其他神经元产生侧向抑制。这个过程可以在多个神经元层级之间反复发生,从而形成一个由多层级的激活的神经元组成的 神经链路,该链路像一棵大树一样,表征了当某事物发生时我们大脑中产生的与之相关的各种质感和记忆。

以上是HTM理论从微观层面解释的预测机制,其中最有价值的部分在于预备状态与预备后激活,这是HTM理论的全新创见。

类似与SDR在大脑皮质柱逐层传递与转化的机制,现代 Transformer 模型 通过多层 attention + FFN 的逐步提取机制,在工程上重现了这一 “层级抽象 → 预测 → 反馈” 的认知过程。每一层的输出可以被看作一个稀疏分布的向量集合,其活跃位置决定了模型当前层对语义、结构或预测的理解方向。这些向量既是编码也是表征,符合SDR所强调的 “编码即表征” 的一致性原则。

但是,这个理论过于微观,很难给我们实际的启发。让我们回到本系列一以贯之的内部模型体系中,来加深对预测的理解。

预测机制的宏观阐述

我将从整个大脑的宏观视角来重新推导预测的机制,相信这一次阐述能够加深我们对于预测的理解。

还是让我们观察自己,从表象开始,向内挖掘。

当我们身处熟悉的日常环境中时,对于一些固定不变的东西,我们会熟视无睹。但是,当反常的变化突然出现后,我们的注意力就会被马上吸引过去。

所以,沿用我们前述的内部模型的思路:大脑的基本运作是通过感官经验构建内部模型,然后经由内部模型对于事物的提供预期。例如,我们想到了一本书,就知道它由很多纸张压订而成,上面印有文字。我们看到一个皮球,就知道它内部充气,表面有弹性,可以拍打投掷。我们看到一个扇子,就知道它轻薄有柄,可以扇风。头脑对这些事物形成了概念,其中包含对事物的特征的预期,而且具有稳定性。因而,这些事物为我们所熟知,是我们的内部模型。

内部模型提供预测,服务于我们的生存。

因此,那些违背了内部模型之预期的事物,会得到大脑的格外关注,事出反常必有妖。

预测是大脑的核心能力,大脑会连续不断地预期。当预期得到验证时,这说明内部模型是准确的。错误的预期则会被我们意识到,并修正该模型。

当一个预测是正确的,大脑就不会太在意它,让它在后台运行,我们不会意识到它曾经发生过。当我们随手拿杯子喝水时,不会投入太多注意力。如果此时忽然觉得杯子太重,温度太烫,我们就会有注意。很多次出门时,我感觉到提包很轻,才发现手机没有带。如果下楼时,发现灯不亮,我们就知道要修理了。

实际上,当预期与实际情况差异大时,不管是因为预期改变了还是实际情况改变了,都会吸引大脑的注意。

这就是前述的尼奥看到了红衣女郎时所发生的情形,那时候他的脑中突然出现了一个新预期。

在聊自我意识的时候,我们同样知道,认知的关键在于 具身认知,需要通过自己的行为与环境产生互动,来获取多角度多方面的感知输入,更有效地建立内部模型。具身认知的过程,可以视作我们主动或者被动地营造变化,改变感知输入的过程。

具身认知,也就是大脑通过体验感觉信号在时空中变化来构建内部模型。这个过程中,既包括被动的输入,也包括大脑输出的指令及其反馈。这其中的关键词是变化,没错,大脑喜欢的是变化。变化意味着不同的观察角度,不同类型的感觉信号。新信息的输入,导致模型的更正。在固定角度盯着一成不变的东西,只会让大脑觉得无聊。

大脑在时空中通过运动感知来构建内部模型,在此过程中,时间与空间的变化是最基本的特征,被大脑天生的内置机制所表征,对应着海马体内的时间神经元与位置神经元。

当我们走进一套新房子,我们一般会自己在各个房间里兜兜转转,观察明暗、通风、面积、结构。我们从阳台张望,看一看环境与朝向。我们在卧室里倾听,体验安静程度,如此等等。这样,我们才有了这套房子的亲身体验,这些是只通过平面图纸永远无法掌握的。

基因决定了新皮质的哪些部分与眼睛相连,哪些部分与耳朵相连,不同部分之间如何相互连接。因此,新皮质与生俱来的结构就是为了实现看、听、说等功能。但是,新皮质并不知道它将看到什么、听到什么,以及说哪一种语言。我们可以认为,新皮质在出生时就已对世界有一些固有的设定——这就是我们常说的硬连接,但对于具体事物本身它一无所知。

下面,在解密大脑的通用算法之前,我们先要确立两个基本出发点,它们既是唯物的也是可检验的,是长期认知研究的基本成果:

其一,我们所有的意识,都是神经元的活动。
其二,我们所知道的一切都储存在神经元之间的突触连接中。

对于第一点,应该没有疑问。对于第二点,我们的知识是如何存储的呢?是不是像电脑一样,存储在单独的硬盘里或者单独的可读写的内存中?

不,大脑不是冯诺依曼架构,没有集中式的存储与计算。大脑遵循的始终是大自然的算法——分散计算

每个神经元都通过数以千计的突触与成千上万个其他神经元相连。如果一个神经元激活了下一个神经元,这个过程重复多次,则二者之间突触得到增强。反之,长期不激活的突触则被削弱。这就是 赫布理论。突触连接的强度,及其所构成的网络结构,就是大脑学习的产出。大脑的突触数量在大约100万亿到1000万亿( \(10^{14}\) 到 \(10^{15}\) )之间。可想而知,其学习潜力有多大。

在学习中不仅仅突触强弱可变,神经元之间连接也是可以重新搭建的。

人们曾经认为成人大脑中神经元之间的连接是固定的,学习只是增强或减少突触的强度。然而在新研究中,科学家发现,神经元上的旧突触会消失,新突触会取而代之。学习也可以通过在以前没有连接的神经元之间形成新的连接而发生。

所以,知识体现在神经元连接的空间网络结构及其接触的强弱上

支撑AI的大语言模型的内部结构也是这样的,它其实是神经元网络连接的仿制品。

下面,我们进一步谈一谈智能的本质——预测:

预测,是指在一个外界信号输入之后,大脑期望另外一些信号会接着出现。

比如,听一首熟悉的歌,我们很自然地知道旋律中的下一个音符,这是序列预测。

这只是最简单的例子,实时发生且不易察觉的预测,则是 无意识推论

不管是听到、看到或者在念头中闪过一个词语时,都会发生这种情况。词语本质上是一个概念,每个概念都包括唯一标识及其打包的多个表征。所以,当一个词语出现找我们头脑中时,我们会不自觉地将该词语的大部分连带属性一下子预测出来,这是最普遍的预测。

比如,不管是我们听到、看到或者想到“猫”这个词语时,我们都会不自觉地想到,它是一个体型不大的,毛茸茸的,有着三角脸和大眼睛的,喵喵叫的动物。后面这些属性都是大脑对于“猫”的预测。

还有基于上下文的预测。比如,比起单个字母,人们能够更快地辨识那些位于单词或者句子中的字母,因为,此时预测先行推断出了字母。

这些单词的第二个字母是模棱两可的。但是根据上下文,人们可以轻易消除歧义。图片来自维基百科。

在认知科学中,预测被称为 自上而下的概念知识

杰罗姆·布鲁纳 证实知觉是感觉刺激(自下而上)与概念知识(自上而下)之间的相互作用。

以感觉系统为例,通过来自皮层中相对较高层次的反向连接,对较低层次的感觉输入进行预测建模来实现。大脑会在不同时序和空间的尺度上,对自上而下的生成模型,从而预测和抑制从较低层次向上传送的感觉输入。预测(先验几率)和感觉输入(似然度)之间的比较会产生一个差异,如果这个差异足够大,超过了预期的统计噪声基准值,就会更新模型,以便未来能更好地预测感觉输入。

相反,如果模型准确地预测了感觉信号,那么,高级皮层的激活就会消除低级皮层的激活,模型的后验几率就会增加。因此,预测这个概率,颠覆了知觉主要是自下而上过程的传统观点,表明知觉在很大程度上受制于先前的预测,感觉信号只能在一定程度上塑造知觉,确保预测误差在一定范围内。

当感觉的时间太过短暂、不够清晰、过于模糊时,知觉就成为了一种自上而下的方法。

某些认知过程(例如快速反应或快速视觉识别)被视为自下而上历程,因为它们主要依赖于感觉信息,而运动控制和集中注意力等过程,因为是目标导向的,则被认为是自上而下的预测过程。

预测 颠覆了知觉主要是自下而上进行组装的传统观点。知觉在很大程度上受制于先前的预测,来自外部环境的信号能在某种程度上塑造知觉,使它们以预测误差的形式在皮层中传播。

总之,不应将知觉和运动视为分立的系统,而应将其视为单一的主动推理机器,它会设法预测所有领域的感觉输入:视觉、听觉、体觉、内感,以及在运动系统情况下的本体感觉。

—— 来自维基百科 预测编码

我们前面讲过,意识就是发生在预测或者欲求与现状之间差异过大的时候。在大部分时候,大脑是先预测再验证的,先入为主 就是这个意思。

知道了预测的本质性地位之后,我们了解一下预测的生理机制。

[Pasted image 20241225110802.png|600]

近端突触与远端突触,左侧为神经元构造,右侧为物理模型,图片来自 论文

在一个神经元上万个突触中,有的位于很长的树突末端,有的位于靠近细胞核的近端树突上。上图中,远端突触被称为 Feedback 反馈,就像信号接收器一样。近端突触被称为 Context 上下文,也就是本神经元近端的一些固有连接。

只有靠近细胞体的近端突触的激活才能促使整个神经元的激活,从而向轴突传递输出信号。奇怪的是,只有不到10%的神经元突触是在近端区,其他 90%的突触都比较远,无法触发激活。没有人知道这90%的远端突触起什么作用。我们将远端突触接受上级神经元输入后所发出的信号称为树突脉冲,这也就是前文所述的微爆。远端突触的数量很庞大,如果完全不考虑它们的作用,这是对其结构的极大漠视。

对此,杰夫.霍金斯提出:

树突脉冲就是预测本身。

当远端树突上一组相邻的突触同时接收信息输入时,就会产生树突脉冲,这就意味着该神经元已经识别出其他一些神经元的活动模式。当检测到这种活动模式时产生的一种树突脉冲,将提高神经元细胞体的电压,使神经元进入我们所说的 “预备状态”。这种状态类似于一个跑步者听到“预备——”时调整好姿势准备起跑。如果一个处于预备状态的神经元随后得到足够的近端信息输入,产生一个更强烈的脉冲,那么该细胞就会比没有处于预测状态下的神经元更早发射激活信号。

想象一下,有10个神经元就像在起跑线上的10个选手,都在等待着发令枪响。一位选手听到“预备”时——这就是远端突触传递来的树突脉冲导致神经元细胞体的基础电位升高,知道比赛即将开始,它蓄势待发。在听到信号时,它会比其他选手更早出发——因为它的细胞体电位已经提前升高了。当它遥遥领先时,其他选手可能就会放弃比赛,甚至压根就没有起跑,它们只好等待下一场比赛。

这种竞争也发生在整个新皮质中。

因此,当一个未预测到的输入到达时,多个神经元会同时被激发。但如果输入是有预测到的,那么将只有处于预备状态的神经元会被激活。这是科学家们观察到的一个常见现象:未预测到的输入通常会比预测到的输入引起更广泛的刺激。

——《千脑智能》

这样,我们就得再次核实了一个重要结论:意识产生的根本前提是反常信号的出现

这里,我们需要将图中的 Feedback 和 Context 做个区分。

  • Feedback 输入是指远端的树突传递来的信号,就像大部队派出去的探马一样,在营地十几公里外侦测信息。

  • Context 是神经元周围众多的近端突触,它就像大部队的营地。Context 如果传来蜂拥而至的大量信号,就像大部队与敌人正面相遇。此时,大部队是否处于预备状态正面迎敌,处决与事先是否获得探报。如果探马没有发现敌情,而大部队是与敌人突然相遇,就有可能措手不及,来不及排兵列阵。在生理上,Feedback 由远端突触达成,而 Context 则是神经元与所处的神经簇的众多近端突触连接所决定的,它决定了该神经元的响应模式。

当一个神经元识别出了某个模式,产生了树突脉冲,并因此比其他神经元更早地准备好被激活时,这就是预测。由于存在数以千计的远端突触,因而每个神经元可以识别出数以百计的模式,这些模式决定了神经元何时会被激活。籍由该神经元的远端与近端突触的空间结构,它的不同预测模式得以实现。

预测的过程是,输入的某刺激信号将一些神经元置于预备状态,等待下一个刺激的激活。如果这个新刺激真的发生了,则这些处于预备状态的神经元会抢先激活,同时抑制其他神经元。这样一步接一步,产生一个依次发生的神经元激活的序列,这些前后相连并逐次激活的神经元组成了一个 神经链路

具体到某个神经元上,一个神经元最多有一万个突触,经由它们的各自激活,该神经元可以有上百个状态。

其中,有些状态是有前后关系的,比如:一个远端突触群A被激活了,因此它使得该神经元处于预备状态。马上,一个近端突触群B又被激活了,在神经元的预备状态下,它立即使得整个神经元激活了,从而导致电信号沿着轴突下传。

当该神经元激活后,由于它是经由 "预备->激活" 的,它的动作比其他没有经过预备阶段的神经元快,其他邻近神经元就被 侧向抑制 了。

侧向抑制

在神经生物学中,侧向抑制是指兴奋神经元降低其邻居神经元活动的能力。侧向抑制阻止动作电位从兴奋神经元向横向相邻神经元扩散。这会产生刺激对比,从而增强感官知觉。它主要发生在视觉过程中,但也发生在触觉、听觉甚至嗅觉处理中。

利用侧向抑制的细胞主要出现在大脑皮层和丘脑中,并构成侧向抑制网络。人工侧向抑制已被纳入人工感官系统,例如视觉芯片、听觉系统、和光学鼠标。

一个经常被低估的观点是,尽管侧向抑制在空间意义上是可视化的,但它也被认为存在于所谓的“跨抽象维度的侧向抑制”中。这是指在空间上不相邻但在刺激方式上相邻的神经元之间的侧抑制。这种现象被认为有助于辨别颜色。

这样,经过的一群神经元的前后级联激活,一条神经链路得以呈现,这就是大脑中的预测回路。激活后的神经链路,就像黑漆漆夜晚里一条亮着街灯的大马路一样,从大脑的一个区域通向其他区域。

神经元预备机制,实际上是发生在神经元中的 筛选 机制。有预备设定的那些神经元,在激活中有优势,它们会抑制其他神经元,使得网络中的神经链路得以显现。

可以看到,一个现成的神经链路是 收敛 的,这是大脑运行的常态。在大部分时间中,大脑处于这种状态下。此时,只有大约 2% 的神经元处于激活状态中,大脑在节能运行中,处理日常事宜,一切如常。

但是,如果某输入的刺激信号没能使得任何神经元进入预备状态。这时,由于没有现成的神经链路可以用,信号在神经元网络中缓慢扩散开来,大量神经元无序地激活,这是 发散 的。当我们看到新事物,面临新情况时,整个头脑都很兴奋,充满新鲜感,就是这种状态,这也是学习的良机。此时,在 赫布法则 的支配下,当刺激重复发生之后,某些神经元之间则会逐步建立预备机制,由发散而逐渐收敛,由反常而步入常态,这就是学习的过程。

那么,为什么发散总是会逐步收敛的呢?这涉及到我们认知的根本前提。

在大脑中,任何新事物都将最终与记忆中的某些旧事物建立联系。这种联系可以一直追溯,其最终归宿只能是人脑中的那些天生的表征与质感及其组合而成的记忆碎片。超出这个范围的事物,是我们无法感知的。当新事物与老事物的联系建立之后,预备机制得以建立,发散也就收敛了。

一些貌似抽象的事物,比如数学规律或者道德准则,它们的最终归宿则是时空关系(其实也是表征)、相似性和概率相关性,以及人性深处的基本欲求,比如存续与自由、群体演化中形成的自发秩序等等。它们可以大致分为三类:原初表征、表征间时空关系、价值系统。我们后面在探讨世界的可理解性时再深入讨论它们。

由发散而收敛,表明一次学习的完成,大脑适应了新刺激。但是,下一次刺激又可能与前一次不一样,大脑又会重复经历新的发散与收敛,循环往复。大脑喜欢甚至享受这样的过程,新刺激激活皮层中许多休眠的神经元,它们散发出神经递质,比如多巴胺血清素之类的,给我们带来兴奋愉悦的感受,这就是好奇心。我则称之为 认知饥渴

预备是通过神经元的远端突触来实现的,那些有着伸得很远的树突的神经元,才有可能处于预备状态。通常,在神经簇中的这些伸出长长树突的神经元,处在随时待命的枢纽位置。

由于基因差异,人脑中的神经元树突长短、分布和连接密度不一样,其发散与收敛这两个倾向性在不同个体之间存在差异。如果过于收敛,则其人非常专注,循规蹈矩,见识短浅。如果过于发散,则其人不够专注,三心二意,喜新厌旧。在二者之间,随时切换而恰到好处,这才是一个懂得学习的人。

结合以上的见解以及前述的注意力机制,我提出意识的另一种解释:

💡
意识就是感知突触的生长。

新鲜刺激所激发的信号流需要不断重复地传递,才能促进新连接与新突触的生长,从而建立新的神经链路。

当信号处在循环之中,在新皮质的各模块之间以及新皮质与丘脑之间往返激荡时,我们是有意识的,因为我们能够感知自己头脑中新突触的生长,这种大脑内部的知觉就是意识。

突触的生长,发生在新皮质与丘脑之间的折返回路被神经递质打开,新皮质被广泛激活时。

与觉知自己的身体改变一样,头脑中神经元突触的改变也能够被我们感觉到,它们就像碎片或者闪念,尚不具备完整语义,只是一闪而过的心理图像,闪现在头部空腔内的某处,就像空无房间中的角落里突然亮出一点微光。从这个角度来看,意识也是一种质感——对神经元与突触的感知。

童年时的我们自己,几乎真的感觉到经验——也就是新的突触——在头脑中的生长,昨天学到的东西,今天已经根深蒂固,马上可以用于明天的新情况中。

回到预测这里来,如果某信号输入能够使得一些神经元处于预备状态,则它是可预测的。

预测,是神经元争相激活的竞争过程,那些更快被刺激信号激活的神经元得以获胜。

于是,我们可以定义神经元的三种状态:沉默激活预备

从沉默到激活中,可以经由预备,或者不经由预备。前一种速度快,后一种速度慢。预测就是神经元经由预备的激活。而不经由预备状态的激活,则通常发生在学习新知识的过程中。

因为侧向抑制的作用,当预测发生时,神经网络将收敛到某一条神经链路上来,因而整体活跃程度不高。原因也很简单,一切尽在掌握。而当学习发生时,神经网络中大量神经元都处于激活状态,比较发散,此时人们处于兴奋好奇的求知状态中,能耗较高。

那么,为什么一些感觉信号,能够使得某些神经元得以进入预备状态并被激活呢?这是智能中的另外一项关键设定,它与神经链路中传递的信号——也就是神经编码——有密切关系。

简单来说,我假设 神经编码 具备以下关键性质:

  • 同一性:相同特征的神经编码是一样的,不管该特征出现在什么场合。

  • 可逆性:相同的神经编码,总是能激活相同的神经链路。

  • 相似性:类似的事物,由于其特征类似,其神经编码也是类似的。

有了这三点,则可以在理论上保障,某些感觉信号总是使得某些神经元进入预备状态,并激活后续固定的神经链路。于是,身临其境的回忆、逼真的梦境与实际经历,都会让大脑获得相同的激活,带给我们相同的感受。因此,想象得以成立,移情得以发生。但是,这三项原则背后的生理机制目前还不清楚,我们只能从神经网络的稀疏结构、感觉细胞与感觉皮质在空间上一一对应中进行猜想。

总之,大脑是一台永不停歇的预测机器。

旧脑的低级皮质负责处理原始感官输入,新脑的高级皮质会发出“应该发生什么”的预测。有趣的是,新皮质并不会消极等待感官的输入,它会抢先预测我们将要体验到什么,然后检查实际的感官输入是否与预测相符,也就是评估预测的误差

当这些预测与实际感知一致时,一切如常,我们甚至不会感觉到预测的存在,这个过程是无缝平滑的,因而也是无意识的。但当大脑的猜测与实际感知的不符时,就会产生预测误差。

比如,走在公园里,我们突然看到天上有一片红色的云。或者像尼奥那样,在平常的街道上突然看到了一位靓丽的红衣女郎。此时,大脑会立即意识到反常,并作出即时反映。

一般而言,大脑会试图阐释这个反常现象,将之合理化,或者重新校准内部模型。

这样,大脑以持续的反馈循环来运作:预测->感知->比较->更新->预测,这都在瞬间完成。

其中,“更新” 体现为 “新皮质<->丘脑” 以及 “皮质<->皮质” 的 折返循环 中,神经元突触的反复激活与重组。

这样,大脑接受感官信号的输入,基于目前的内部模型,时刻进行着预测与验证。神经元网络中海量的突触以及其生化反应的混沌特性,每个人不同的过往经历及其内置不同的价值系统,以及神经元网络的巨大冗余,使得预测存在某些偶然性。相同的刺激,对于不同的人、在不同的时刻,其内部感受是不同的。因此,每个人的内部模型都是独一无二的。

这意味着,体验是主观的。我们常说的,情人眼中出西施,狗眼看人低,就是这个道理。

不仅如此,大脑优先关心内部模型的构建与维护,而非追求完整客观性。我们的体验不是大脑对环境的真实反映,而是大脑当下最有效的预测结果。这再次印证了,大脑是生存工具,不是仪器

为此,在算力、时间与能耗的限定下,大脑会简化这个复杂世界,将之表征为简明的模型,以感知来裁剪真实图景,构建内部模型。大脑的建构远非真实,存在种种偏差,我们在质感章节对此屡有讨论。

更进一步,群体中的人们还不可避免地受到群体的影响。

群体认知

在信息互通的社会群体中,我们的经验不仅是自己的建构,我们还与周围的人共享这种建构。它进而成为群体认知或是社会文化的一部分。我们生活在大家共同构建的心理现实中,我们依赖同类的回声来强化所谓的共识

共识给予了群体稳定的秩序,也限制了我们的感知。在共识下,我们假设个人的体验都是类似的,我们受困于对无限真实的有限理解中,不再质疑它的实在性。因而,从这个角度来看,社会群体可以视作一个更宏观的生物。文化共识和社会期许,则是这个宏观生物的预测模型。

这种共识是不是某种更大的幻觉呢?

从另一个角度来看,现实只是一种构建,我们因而对此构建负有更大的责任,拥有更大的权力。通过有意地调整它,我们可以构建一个更好的现实。“凡事都有好的一面” 就是这个意思。

改变消极的内部模型,做出积极转变,勇于承担代价,获得自由,许多 积极心理学 的出发点都在这里。人们主动变革,日拱一卒,不断进取,获得新知,在实践中反复锤炼内部模型,这本就是一条 知行合一 的光明道路。

下面我们要思考一个问题,内部模型里面到底是些什么东西?

参照系

前面我们详细论述过神经编码的机制。但是,预测不能仅仅基于输入的信号,还要考虑到当时的上下文环境。演化中,原始人类生活的上下文环境主要是指自身与环境中的时间与空间因素。时间意味着奔跑的速度、狩猎的步骤。空间意味着地形、道路、工具、武器等等三维物体信息。如果要判断最近的路线、标枪的落点,投石的准头,则需要同时考虑时间与空间。所以,时间与空间对人类生存有最直接的影响。

运动感知发生在时空中

比如,在听到一首熟悉的旋律时,我们听到了一个音节 “哆咪咪”,基于已知的旋律,我们知道它下一个音应该是“索发发”。过了一会儿,再次听到了“哆咪咪”,但是因为旋律已经进展到第三小节,我们则知道下一个音节应该是“拉西西”。在这次预测中,时间是唯一的变量,非常简单。

再看一个例子。如果我的一根手指在杯子的侧面,然后向顶部移动,大脑就会预测我将感觉到杯嘴的圆弧。大脑在我的手指接触杯口之前就做出了这个预测。它怎样才能做出这种预测?很明显,它需要知道两件事:所接触的是什么物体,以及手指在物体上的什么位置。

我的手指相对于我,以及它相对于杯子,这是两个参照系。一个是以我为轴心的三维坐标系,一个是以杯子为轴心的三维坐标系。它们都需要在运动感知中被觉知。具体而言,它们都在与指尖的触觉神经相连的皮质柱中被表征和记录,并作为当时的感觉记忆而短暂存在。经由它们,我们可以获得对手指相对我们自己的位置,以及手指相对杯子的位置。这两个表征位置的参照系分别是本体参照系物体参照系,都是大脑做出预测所必需的。

在哺乳动物的大脑中,位置神经元——也就是 网格细胞 ——位于旧脑的海马体和内嗅皮质中。它们在大脑的两侧各有一组,靠近大脑的中心,负责感知人在环境中的位置,也即在全局坐标系中定位。除此之外,皮质柱中有关肢体位置的信号,则从肌肉、关节等处的触觉、压力、体感神经末梢输入,结合视觉感知,经由丘脑加工后,传递给新皮质中对应区域的皮质柱,构成本体参照系。不仅如此,我们还知道,皮质柱中表征相邻位置的许多神经元也是相邻而居的,它们互相之间的空间排列可以起到矫正与对齐的作用。

2010年的一项通过核磁共振进行的研究也表明,除了旧脑中的海马体和内嗅皮质,哺乳动物的新皮质中也同样存在着感知位置变化的网格细胞。

新皮质中的网格细胞,图片来自论文

如果我们将与手指触觉神经相连的皮质柱视作一个对象,其中存储的本体与物体这两个参照系所表达的空间信息,再加上时间维度,构成了它的内部状态。因此:

💡
时间坐标系与空间坐标系,其中空间又分为 本体坐标系客体坐标系,再加上人感知自己在环境中位置的 全局坐标系。它们在一起构成了人脑中最初的参照系,成为神经元决策的上下文状态,我称之为 时空参照系

皮质柱以时空参照系来标定事物。

在时空参照系中标定事物,这是演化中人脑形成的本能。就像探险家出门时必须带上手表、指南针和地图一样,“何时何地”成为人们问的最多的问题。

让我们再以软件编程来类比,帮助大家理解皮质柱的时空状态。

在软件编程中特别是 面向对象编程 中,有一个核心概念,就是 对象。对象有两个关键的特性:其一,它能够维持自己的状态。其二,经由外界输入,它可以改变自己的状态。皮质柱具有时空状态,并因新的刺激而改变了自己的状态,这符合面向对象编程中有关对象的定义。

在时空改变中的感知输入,是为运动感知,它是皮质柱内部状态的主要维护方式。我们往往需要在事物的周围移动,通过观察与触摸等多种方式来认知一个事物,盲人摸象、信徒转山也间接描述了这一事实。

在手握水杯喝水时,我的手握着杯子,指尖在杯壁滑动,感受陶瓷的光滑与杯壁的温度。我将嘴凑近杯口,抿了一口热茶。身体的不同部位,指尖、手掌、嘴唇等等,都会接触水杯。每一个接触杯子的部位都会基于时空参照系对其感觉进行单独预测,这些预测由与身体不同部位的感觉神经元相连的皮质柱来同时地进行的。

皮肤上的每一个神经末梢,都负责着一小块皮肤区域的感知,这个小区域被称为感受野。而与感受野对应的新皮质上的信息处理单元,就是我们前面提到的皮质柱和微柱。

在感受野范围内,通过运动感知,皮质柱维护着由时空参照系标定的内部状态。

在我手握水杯喝茶的这个时刻,与我的手掌、手臂、嘴唇、口腔等处感觉神经相连的皮质柱,大概有几百个。因此,大脑不是在做一个预测,而是同时在做几十甚至几百个预测。

皮质柱的分散预测,图片来自论文

新皮质中大约有15万个皮质柱,每个皮质柱有十几万个神经元。大部分皮质柱直接与感觉神经相连。我们对事物的认知,来源于这些细小的皮质柱。每个皮质柱都有自己的内部模型和状态,可以同时追踪成千上万个位置。当我右手的5个手指抓握着一个杯子时,就像5个小人在同时摸索一条象腿。

视觉也是如此。每一小片视网膜只能看到整个物体的一小部分,这与每块皮肤只能接触到物体的一小部分一样。对于负责单个视觉感受野的皮质柱而言,观察,就好像用一个吸管来看周围一样,它每次看到的都是很小的一片区域。我们所见的完整图景,是无数这样的小区域拼接而成。这也说明了在运动感知的重要性,静止的单点感知无法反映事物的全貌,只有从不同角度观察,才能带来完整的印象。

通过在时空参照系中感知的位置变化,皮质柱建立了内部模型。 这样,即使在没有光线的黑暗房间里,我们仍然能够感知自己的身体姿态,知道自己的手握在杯子的何处。

那么,参照系中是如何标定位置的呢?

部件的组装

网格细胞是参照系标定位置的生理基础。

早在新皮层出现之前,动物就能够在复杂环境中导航。它们识别环境,构建复杂的空间地图并进行导航,这是寻找食物、追求配偶以及返回巢穴的基本生存能力,这一能力存在了数百万年。

网格细胞 是一种存在于旧脑中的神经元,它参与动物的寻路导航。它就像我们玩的游戏文明中的六边形地图格子,能够标记我们在世界中的位置。在过去几十年中,网格细胞得到了透彻的研究,它使老鼠能够找到回巢的路,使狗能够记住每天巡视的常规路线。

网格细胞,图片来自维基百科。

最近的实验证据表明,网格细胞也存在于新皮层中,后面我们将之称为“皮层网格细胞”,与旧脑的网格细胞区分开来。新皮层同样利用皮层网格细胞以认知物体的结构信息,也就是在物体坐标系中标定位置。皮层网格细胞是构建物体坐标系的生理基础。

就像老鼠将环境视为一组位置一样,任何物体都可以被视作一些组件及其相对位置。

旧脑网格细胞感知自身在环境中的位置,新脑网格细胞感知物体的不同部分以及它们的相对位置。

当旧脑的网格细胞跟踪我们在环境中的位置时,皮层网格细胞则同时跟踪物体相对于肢体的位置。想象自己在键盘上打字,某个时刻每根手指都在不同的键位上。大脑必须知道每根手指的位置,但这个信号不是手指相对于我们自己的,而是手指相对于键盘的。

视觉上也是如此。如果我们观察某人的脸,大脑并非将整个脸拍成一张照片。视觉皮质上不同神经元正在研究这个脸部的不同部分,一个在看睫毛,一个在看鼻尖,还有一个在看脸颊上的雀斑。每个部分都知道它所观察的局部在整张脸上的位置。

在演化中,皮层网格细胞延用了旧脑的网格细胞相似的功能,这完全合乎逻辑。因为,继续使用已有的机制,比重新演化出一种完全不同的机制要困难得多。但是,在人脑新皮质中,该机制的作用略有不同。新皮质延用了这套空间位置系统,然后将其重新用于学习复杂物体和事物上。

皮层网格细胞也解决另一个关键问题:如何组装对象

我们头脑中的概念几乎都是由我们习得的其他事物组合而成的,这使得大脑能够增量地学习新事物,而不必不断地从头开始,常言说得好,“你不必每次都重新造一个轮子”。

想一想,我们已经知道轿车里许多部件的功用,比如操作方向盘,转动点火钥匙,系好安全带等等。当看到一辆大卡车时,我们不必完全从零开始学习驾驶。只有那些轿车上没有的新东西需要学习,比如使用更多的反光镜,操作挂车等等。

看一看下图中的咖啡杯,它由一个杯体、一个把手和一个Logo组成。杯体和把手组合在一起,在圆柱体表面贴上了 Logo,这就构成了咖啡杯的大致样子。

一个带Logo的马克杯由 a,b,c三部分组成,相对位移表征了它们三者的相对位置。

物体作为一组物件的组合,物件之间的关系由参照系来标定,这优雅地解决了物体的组合问题。

由于参照系的存在,物体之间相对位置的表征能力必然同时存在,以使大脑能够记录杯子和Logo 的相对位置。上图中,由于Logo固定在马克杯上,因此当我们移动马克杯时,logo将和马克杯一起移动。但情况并非总是如此。有时物体的部件会独立移动。因此,我们还需要理解物体的运动行为。

物体总是表现出各种行为,无论是订书机、汽车、拉链还是智能手机。

订书机的开合状态。

以订书机为例,当我们打开订书机并插入书钉时,它的形状与关闭时不同。订书机两臂的相对位置发生了变化,上臂和下臂有了相对运动,它们以轴为核心发生了旋转。有了物体参照系后,旋转也可以被表征。

某事物的多个部件的运动,以时间前后的方式,发生在不同参照系中,导致它们之间相对位置的改变。这所有的整体构成了大脑对于该事物的预测。比如,当我们握持手机后,主屏幕会点亮。然后,我们用手指点击一个图标,应用程序会打开。当我们触碰文本框时,输入键盘会弹出。操作几次之后,大脑已经知道操作手机的基本模式了。

因此,认知某物体,就是能够预测该物体的几种状态,及其状态中各部件的位置。

整体认知

如果每个独立的皮质柱都在学习完整的模型,那么大脑并不是在构建一个对象的超级模型,而是在并行地构建成千上万个该对象的小模型,这个想法是新颖大胆的。

以前,神经科学中普遍接受的观点是,事物在一个层级系统中被逐步认知。

科学家认为,大脑各个区域是以层级连接的,并逐步加工感知信号。传感器,例如眼睛或皮肤,将输入信号传递到某区域,该区域初步处理了信号之后,将输出信号传递给其他区域,这些区域进一步处理后,将输出传递到另一个区域,直到层级的顶部。随着信号在层级结构中不断向上移动,大脑提取并组装了越来越复杂的特征。

比如,我们看到一只狗。在视觉皮质的最低层,大脑可能会识别简单的线条、颜色或纹理。在下一个层,它可能会识别更复杂的特征,例如耳朵的曲线。然后,再下一个层次可能会检测到狗的脸。最终,在视觉皮质的最高层,大脑会宣布结果:这是一只狗。

但是,这个有关智能的层级模型是不完善的。

观察发现,神经网络中有许多在层之间以及区域之间的水平连接,而不仅仅是垂直连接到它们的子区域或母区域。在一个纯粹的层级模型中,这些连接是不必要的。事实上,新皮层中超过95%的突触连接无法用纯粹的层级模型来解释。

此外,目前许多深度学习网络都基于层次模型来构建。它们通常需要数十个层级和规模达到数百万的数据集来学习某些东西。但是,人类却可以在仅仅几次接触中学习新事物。

显然,大脑在做一些不同的事情,层级模型解释了一部分故事,但还不是全部,一定有某些缺失环节。

这个缺失环节也许是:所有皮层柱都有一个信息表示位置。

这个位置信息是以被感知对象为核心来表示的,而非以我们自己为核心的位置表征。也就是说,它用的是客体参照系。每一皮质柱都将其感官输入与位置信息结合。皮质柱不仅知道正在感知什么特征,还知道该特征在物体上的位置。

视觉和触觉的皮质柱的学习模式都基本类似。当我们移动传感器时——也就是转动视线或者移动手指时,不同位置上的特征会随着时间的推移而不断输入到皮质柱,以便单个皮质柱可以学习和识别完整的物体。

想象一下用一根手指触摸咖啡杯。当你用手指在杯子上移动时,你会感知到它的不同部分,先感到杯口的圆弧,然后是把手的曲线,接着是底部的平坦。你手指所接收到的每一种感觉都与杯子坐标系中的某个位置配对。

有了位置信息,每个皮层柱现在能够学习物体的完整模型。

因此,对于这个杯子,大脑中并不存在唯一的物体模型,而是有成千上万的模型——某些基于视觉,某些基于触觉,它们被很多处理视觉、触觉信号的皮质柱所维护。

那么,这些不同皮质柱的模型之间,是如何解决歧义与争执的呢?

皮质柱通过我们前述的信息整合过程来解决歧义。激活的神经信号在神经链路及其网络中竞争,都为最终的认知做出了贡献。

假设你正在抚摸你家的宠物猫,一根手指放在它的项圈上,其他手指则放在它的背上。每根手指都会基于它在特定位置获得的感觉,试图理解它正在触摸的东西。同时,你的眼睛也同时在向视觉皮层提供信息。

尽管放在项圈上的手指的最初猜测可能是“皮带”,但它的第二个猜测可能是“猫”,因为,之前你在抚摸猫时曾经感受到过这个项圈。与此同时,你的视觉皮层也猜测这是“猫”。尽管某个皮质柱有一个不同的猜测——皮带,但通过竞争的预测过程,信号传播由分散而收敛,这些皮质柱迅速达成共识,这是一只带项圈的猫。新皮层中密集存在的水平连接是竞争的预测过程发生的合理场所,竞争在生理上体现为对抗性神经元网络。

这个过程可以近似地视作信号流的汇聚。那些在最初的皮质柱中激活的神经链路中的信号不断横向传播,吸纳其他皮质柱的信号,汇聚到一起,从涓涓细流发展为大江大河,终于冲向新皮质中的高阶区域,产生了对事物的整体认知,它们往往体现为对象与概念。

这些高阶区域在那里?它们往往与语言和理性直接相关,位于前额叶,也就是我们的额头和太阳穴上方的头颅内部。

所以,整体认知既包括皮质柱的分散计算,也包括皮质柱之间、脑区之间层级递进,二者缺一不可。

每一个皮质柱的独立感知,如同透过吸管看世界一样,只有非常局部的细节,是很不完整的。只有大规模整合很多个,也许上千个皮质柱的不同感知,才会获得一个完整事物的大致信息。正确结论不会出现在与感知信号相连的初级皮质柱中,而在它们后边的高层级的神经网络中。这个整合过程中,像是一个水流汇聚的过程,激活的神经元传播的信号就是溪流中的水,它们沿着激活的神经链路流动和汇聚。这样,简单表征复合为复杂表征,再复合为整体表征,最后成为对象与概念。

因此,运动感知对认知至关重要。在运动中,我们对事物的不同侧面,不同部分才会有感知,这有助于我们的皮质柱在位置变化中感受物体。当婴儿第一次遇到一个拨浪鼓时,她会怎么做?她触摸它,抓住它,摇晃它,把它放进嘴里咬,放下它,再次捡起它。通过运动,她用所有感官尽情地探索这个物体。

至此,我们有了一个阶段性的论断:

💡
事物被大脑以有状态的对象以及概念的形式所认知,它们处于很多级联的参照系中,互相之间产生关联,它们组装成为内部模型,内部模型用于预测。内部模型在运动感知中不断被校验和更新。

抽象概念的表征

现在,我们已经知道如何认知一些简单事物,例如马克杯或者订书机。简单来说,物品具有一系列状态,状态以其部件在参照系中的位置,以及部件达成位置的运动形式来表达的。

但是其他的复杂事物是如何表征的呢?大脑如何学习物理或数学?如何学习民主或公正这样的抽象概念?

正如前述,新皮质中所有的皮质柱都具有几乎相同的结构,它们必然在做相同的事情。如果处理感官输入的新皮层区域使用网格细胞和相对位置来学习事物,那么我们就可以比较肯定地说,学习语言或数学的新皮层区域也在使用网格细胞和相对位置。

这个观点是深刻的。

研究表明,人们在给鸟类分类时,会选择鸟类的最基本的两个表征,脖子长短和腿长短,二者相交而成的平面,构成了人脑给鸟类设定的参照系。按照它们的脖子长短和腿长短,人们会将不同品种的鸟置入这个平面中。这样,种类繁多的鸟类就在人脑中有了各自的位置。

我们也常常下意识地这样给同类定位,不过不是用脖子和腿,而是采用另外一些基本的属性:高矮、胖瘦、财富、地位之类的属性,以这些属性为坐标,也构成了一个参照系空间,每个人都在里面有自己的位置,“各安其位”。

这种理论的一个强力证据是一种增强记忆的方法—— 记忆宫殿 。常常有一些人在电视节目里面表演惊人的记忆能力,他们用的方法大多是记忆宫殿。其主要秘诀是将新事物放置到头脑中已有的空间坐标体系中去,并且尽可能让它们之间产生联系——也就是获得相对位移,还可以将它们置入一些有故事情节的场景中,进一步增强各自的联系,从而增强对事物的记忆。

记忆宫殿——位置法

位置法是一种记忆增强技术,它将视觉化与熟悉环境的空间记忆相结合,以便快速回忆信息。

假设你有一张想要记住的事项清单,它可以是任何东西:数字、单词、面孔等等。要使用位置记忆法,你需要想象一个熟悉的空间——一个你可以轻松地在脑海中勾勒出空间布局的地方。这也许是你家的房子,或者是你喜欢的街道。在这个例子中,我们将使用一所房子。

为了记住你的事项清单,你需要想象自己走过你的房子并在各个地方停留。在每一处停留,你都会在脑海中形成清单上的事项及其某个位置特征的图像,从而将清单上的事项分配到某个位置。然后,当你想要检索这份清单时,你会想象自己走过你的房子,当你从一个房间走到另一个房间时,你会回忆起清单上的事项。

位置法可以追溯到古希腊时代,如今许多记忆高手仍在使用。虽然这是酷炫的技巧,但其中有一个适用于所有人的基本概念。

即使对于一般人来说,通过记忆宫殿,我们也能不费力地记住大量信息。

如果让你想象你现在住的家,你可以立即想象出来。如果让你描述你的厨房,你可以马上说出厨房的布局,你把杯子放在哪里,哪个抽屉里放着餐具,冰箱放在哪里。但你可能没有意识到,你对这个空间的了解与一个位置有关,正是与位置的关联让你能够更轻松地记住大量信息。当你想象你的冰箱时,你不会回忆起冰箱的孤立图像,就像它出现在产品目录中一样。不,你会回忆起它在你的厨房里存在的位置和样子。

——维基百科

通过脑成像技术研究发现,这类记忆增强术将将要记住的事物分配到我们已熟悉空间中的具体位置上,比如自家厨房。当要回忆某些事物时,我们可以通过在自家的移动来检索它们。这种方法之所以有效,正是因为它与皮质柱中的最基本的认知结构——将事物与位置关联——息息相关,这是新皮质的基本能力。

类似的事情发生在我们所有的学习过程中。

公平或者自由这类概念的表征中,位置同样发挥关键作用。比如,我们常常说,左翼、右翼、极左、极右等等,这些政治学的概念,都有了空间内涵。

大脑总是赋予事物以时空内涵,抽象概念则建立在事物在时空中的运动上。

比如,对于公平,我们最幼稚的想象是,一群人手里都拿着同样大小的东西。或者,有一个人把东西按照同样大小分给其他人。不义,可以被想象成,我先给你了一个大东西,然后,然后你却给我一个小东西,甚至不给我任何东西。

大脑总是将感觉信息与位置信息配对,这是我们的认知方式,内部模型也是这样构造的,它也是高效记忆的关键。反之,那些零碎的信息往往难以回忆,反复处理琐碎事物对我们是一种折磨。

这也是为什么在总结意识现象时我指出的,意识与视觉——也就是物体的空间位置与位移——强烈相关

知识的扩展也是发生在以参照系标定的位置上,就像春天里树枝不断发芽生长,每一颗新芽都萌发于已有的树枝上,而整个树必然扎根在大地上。树干与树枝就是大脑中的前后嵌套的参照系,而大地就是我们大脑中天然内置的时空观念。

下面,我们继续探讨知识的结构。

知识的结构

到目前为止,参照系还只是一个概念,还没有落实到皮质柱、神经元及其网络的物理结构上。

神经元不依赖单个突触,它用几十个突触来识别一个模式,即使其中10个突触失效,它仍然能够识别该模式。神经网络也不依赖单个神经元,即使损失30%的神经元,神经网络通常也能正常运作。新皮质也并不依赖单根皮质柱。即使因为脑卒中损失了数千根皮质柱,大脑也能继续工作。

因为,物体的信息分布在数千个皮质柱中。这些皮质柱既非冗余,也非副本,它们是互补的,既有部分重复,又有部分不重复,它们在一起,能够覆盖整个物体。每一根皮质柱都是一个单独感觉运动对象,就像车间里的每个员工都能够各自维护车间里的部分设备,他们合在一起,就可以维护车间里的所有设备了。

参照系也是这样的,大脑中同时存在许多的既互补又级联的参照系,各自有各自的适用范围。

皮质柱本身分为六层,第四五两层有大量横向的跨皮质柱连接。这也表明,参照系不仅出现在皮质柱里,也发生在皮质柱之间,参照系之间存在着不断的递进关系。一个参照系可以衔接到另一个参照系。比如,我在街上走,我使用的大参照系是街道平面。此时,身后有人喊我,我回头,此时衔接了我身体的前后左右方位参照系。我发现是一个小孩子在叫我,于是我低头看他。此时,在前两个参照系之后,我又衔接了上下参照系。

参照系实际上也可以视作预测序列。比如星期一之后是星期二,星期二之后是星期三。街上,店A旁边是店B,店B再旁边是店C。但是,与序列不同之处在于,参照系是带分叉的预测网络。它可以沿着不同的方向延伸开去。本质上而言,任何已经存在的预测序列,都可以当参照系来用。

用一句话来概括:

知识本质上是预测序列,知识也可以作为参照系。

我们还是以树枝打比方。假设在大树A上有几个粗壮的树干,其中树干B上发出了一个树枝C,树枝C上又长出树叶D。这样,我们就可以说,如果要找到D,必须先找C。要找C,需要先找B,直到找到A。其中A,B,C既是参照系,也是已知的知识,D不过是它们中最末节点。

这样,人脑中知识的结构,在物理上体现为神经链路的结构。可以认为,存在于15万个皮质柱中的许许多多的参照系,它们所构成的级联与分支关系,就是我们的整体认知。

这些参照系最早用于我们的运动感知,用于标定某时刻我们的肢体在全局、本体和客体三个参照系的位置。在人脑的演化中,它们逐渐也可以标定任何已知的感知信号。

让我们从学习的动态过程中加深理解。

在感知时,大脑从感知信号中提取事物的特征,对特征进行编码并输入到神经网络中,然后激活对应的神经链路——如果该编码已经存在于与神经网络中的话。这样,经由神经链路,此前所有与之相关的事物,都可以顺藤摸瓜被一起扯出来。

但是,一个全新事物的对应编码无法激活任何已有的神经链路。此时,大脑就会处于整体活跃的状态下,大量神经元广泛地激活,大脑准备好了要学习这个新事物。

此时,该新事物的感知信号在神经元网络中不断向前传递,沿途不断地有神经元试图将之纳入已有的神经链路中。其中如果有一个神经元成功了,则可以认为,它找到了该新事物的某个熟悉的特征。于是,从这个神经元上就生长出新的突触,表征该新事物了。这个神经元的这些突触,成为了从已有经验衔接到该新事物的连接点。

这样,大脑将一个新的知识点纳入到了已有的知识体系中

在参照系中进行搜索时,神经元使用的是所谓的 联想记忆。其细节并不重要,我们可以认为它是大自然中的分散计算在神经元网络中的体现。在该模式下,大脑并发进行着许多个本地计算,在无数个参照系中同时查找位置,搜索效率极高。这就比如,当我问“纽约在那里?”后,有许多个助手会同时在不同地图中查找纽约的位置,这样不到片刻,我既知道纽约在美国的位置,又知道纽约在北美洲的位置,也同时知道纽约在地球上的位置。

与序列的不同之处在于,参照系是带分叉的网络,可以沿着不同的方向延伸开去。任何已知的预测序列,都可以作为未来的参照系之用。

参照系决定了知识的结构。

这之后,整体认知就顺理成章了。

初级表征大多是一些线条、角度、颜色、颗粒之类的碎片信息,本身不足以让我们意识到其内容,大脑无意识地获得这些表征。为了感知事物的整体,获得概念,需要更高阶的表征,也就是关于初级表征的表征。意识中的概念和词语多来自于这些高阶表征。

高阶表征的形成脑区在前额叶、顶叶、颞叶。不出意料,它们都位于新皮质中。

学习新事物时,大脑会激活 折返网络,导致震荡,即前馈信号引起反馈信号,反馈信号又引起新的前馈信号,造成循环往复。于是,整个大脑在信号的循环往复中成为一个整体,这就是认知理论中的 全局工作空间 。之后,感觉信号将在级联的参照系中找到了自己的归宿。这样,很多不同的感觉信号也就组装了起来,它们之间以自身在参照系中的位置,以及不同参照系的级联,而最终关联在一起了。

总结一下,目前我的主要观点是:

  • 在新皮质中,皮质柱是基本的智能单元,每个皮质柱都可以形成自己的内部模型。

  • 皮质柱会标定感知信号所发生的空间位置,空间位置同时体现在不同坐标系中,我们称之为参照系。

  • 借助参照系中的位置及其位移,物体的各个部分质感得以组装起来。位置和位移也是表征。

  • 物体之质感在时空参照系中的相对位置、位移以及位移的方式,构成了物体的状态。

  • 通过学习物体的状态及其转换,人脑得以认知该物体。

  • 通过将认知三维物体的方式推广到一般性事物中,人脑得以认知抽象概念。

  • 因此,知识是基于时空参照系来表征的。

一切都显得井井有条,合情合理,是时候揭晓智能的普遍性规律了。

智能的本质

之前,我们获得了有关意识的主要框架:

意识的产生

预测是大脑的首要功能。大脑通过内部模型进行预测。

内部模型是基于级联的参照系,使用质感为材料所构建,并通过运动感知进行更新,以提高其预测的准确性。运动感知由内部模型所做出的预测所指引,并对其提供反馈,这个过程是一个不断进行的往复循环——被称为折返,主要发生在新脑与旧脑之间。

预测与实际感知的差异,我称之为意外。出现意外后,特别是意外导致了价值系统——也就是人的各种欲求——的介入之后,上述反馈循环就会得到多巴胺等神经递质的介入与加强,从而引发了人脑的注意力。这种被注意到了的意外事件,在各个脑区内形成内部报告,被语言模块赋予语义,从而成为意识

我们对大脑功能、感知和行为做出了上述的大致描述。这一套过程在数学上可以使用 贝叶斯推理 加上 主动推理 来表述。这就是我们前面论述意识与智能的逻辑框架。

实际上,它也是最小自由能原理的阐述。

过去几十年以来,大家在迫切寻找有关智能的第一性原理。在这个领域,没有人像 卡尔.弗里斯顿 所提出的 自由能原理 那样有更大的影响。顺便说一下,弗里斯顿是当今被论文引用次数最多的神经科学家。

自由能原理是一个数学原理,它描述了一个简单的现象:

为什么在一个大系统中存在的子系统看起来好像在随着大系统的改变而改变。

子系统是与大系统耦合,但是二者之间存在边界的远离平衡态的自组织复杂系统。该原理认为,子系统在追随大系统的动态过程中不断地最小化它的跟踪差异。跟踪差异被称为惊奇。惊奇这个量在数学上被定义为自由能。子系统只有通过最小化自由能,才能克服熵增定理,维系其存在。

不难看出,我们一直探讨的大脑,就是一个子系统,而人们生活的环境,就是大系统。我前面讲述的意外,就是这里说的惊奇。

自由能是大脑内部模型与实际感官信息之间不一致性的度量

意外就是自由能,它本质上是子系统对大系统的跟踪误差。

最小自由能原理提出,大脑试图不断地减少意外的发生,从而提高预测的准确度。这主要通过两个途径来达成:

  • 通过对预测差异的计算,来不断校正子系统的内部模型。

  • 采取行动,索性改变大系统状态使之更符合子系统的预测。

弗里斯顿认为这是所有生物行为的普遍性原理。

我们对周围事物进行采样检验,以确保我们的预测成为一种自我实现的预言。

那么当我们的预言无法自我实现时,会发生什么? 如果你去思考大多数精神疾病,你会发现它们都源自错误的推断,也就是失效的内部模型.

自由能的概念起源于统计物理和热力学,后被引入信息领域,表示系统内部表征状态与环境真实状态之间的差异,它与最大熵原理最小作用量原理非常相似。它不仅可以解释智能现象,还可能成为复杂系统的大统一理论。

下面,我们借助 弗里斯顿的论文,一探究竟。

大脑与环境的交互,来自弗里斯顿的论文。

  • 观察:外部状态 ẋ 通过感官输入 s 传递给大脑,感官输入受外部状态和噪声 ẑ 影响。外部状态由方程 \(ẋ = f(x, a, θ) + ŵ\) 决定,其中 a 是行动,θ 是随机波动。

  • 预测:大脑通过内部状态 μ 编码对感官输入的概率表达,得到内部模型 q(ψ) 。内部状态 μ 通过最小化自由能量 F(s, μ) 来优化。

  • 行动:大脑通过行动影响环境,行动的目标也是最小化自由能 F(s, μ) 。

脑中的层级消息传递,来自弗里斯顿的论文,这被称为预测编码

  • 感官信息进入初级感觉皮质,这些区域生成对输入的初步预测。

  • 图中前向连接(深色箭头)一级级向上传递预测误差,后向连接(灰色箭头)从高层向下层传递预测。

  • 突触可塑性(η):在较低层突触可塑性由预测误差驱动。

  • 突触增益(π):在较高层,增益(误差信号的放大)依赖于预测的精度和来自下层的误差幅度。

  • 前向消息向上传递误差信号,后向消息向下传递预测。这种双向流动使大脑能够通过对抗性网络,迭代地优化内部模型。

实际上,该架构可以视作对自由能进行 梯度下降 来优化内部模型:

  • 将误差逐级向上传播,以更新更高层的模型。

  • 将预测逐级向下传递,以抑制较低层的误差。

在此过程中,进行着自下而上的误差与自上而下的预测所进行逐级抵消,直到所有层级上预测误差最小为止。

我们不难想到,大脑中初级脑区和高级脑区构成的层级结构,神经元链路本身的树状结构,新皮质中皮质柱的6层结构,它们都可以被视作层级结构。神经电信号在脑区之间,特别是在旧脑和新脑之间的循环,就是信号的分级处理过程。从丘脑到新皮质的前向流动是误差驱动的,从新皮质返回丘脑的反向流动则是预测驱动的。该过程中,神经元突触的强度甚至连接性都可以发生改变,体现为大脑内部模型的变更。

在前述章节中,我们提到的注意力机制就是上述过程中的误差放大环节。意外情况被大脑抓住了,投入关注,这是一个重要机制。

弗里斯顿认为,子系统主动抑制自己的预测误差的过程,可以视作主动推理的现象,它通过两个途径实现:

  • 依据贝叶斯定理,人的感知、学习以及采取行动都可以视为推理。感知和学习依赖于已观测数据,行为是获得新观测数据。

  • 生命作为处于非平衡稳态的自组织系统,要想能够维持自己的存在,就必须最小化其自由能。

图片来自 网络文章

上图中上半部分的关键概念是带有边界的自组织系统的自由能最小化,下半部分的关键概念是贝叶斯推理。

从探讨智能的角度出发,我们更关注的是下半部分,这部分过程是:

预测 -> 抓住意外 -> 放大意外 -> 用意外修改内部模型 -> 重新循环 -> 直到意外消失

让我们再次请出影片《黑客帝国》中的经典情节来帮助大家理解上述过程。

矩阵是架构师与先知搭建的一个虚拟世界,它的目的是模拟真实世界,让生活在其中的人类电池察觉不到异常。所以,矩阵相当于大脑中的内部模型。它需要时刻运行得和真实世界一样。

但是,作为一个子系统,矩阵免不了出现了大大小小的跟踪误差。有些人开始觉得不对劲,这些人代表着预测误差。其中,最大的预测误差就是在矩阵中发展出超能力的尼奥了。在尼奥面见架构师时,架构师告诉他 “你是不平衡方程的残差之和” 就表达了这个意思。

架构师以及先知其实对此早有安排,他们怎么做的呢?

  • 抓住意外:特工们会对付矩阵中的叛乱分子,但是只有尼奥才能面见先知。这意味着他获得了矩阵的注意力。

  • 放大意外:矩阵不断增加尼奥的超能力,放大误差,使用它来引发不同层级的连锁反应。

  • 修正模型:让尼奥与特工对抗,与法国人对抗,与其他残余的程序人对抗,收集各种误差值,并最终回归源代码。这是一个反馈过程,相当于用误差值调教矩阵参数。

  • 重新循环:最后尼奥和史密斯同归于尽,误差于是被抵消,方程式两边配平,升级版矩阵诞生,矩阵重启。

是不是有点意思?

使用了如此技术性的语言来解读我们的大脑与智能之后,我有点担心,人性与激情将缓慢褪色,觉知者逐渐步入冷冰冰的物理世界。也许,在隔着帷幕的远处观赏不失为一种美好?此时,我怅然若失。但是,另一种坚定信念却也逐渐升起:一座更加恢宏的新殿堂会不会渐渐显现?

这样,通过最小自由能原则的阐述,我们获得了 智能的本质

💡
生物必须跟踪所生存环境的改变来维系自身存在。神经系统之目的,在于使用有限的能量,在有限的时间里 拟合 无比复杂的外部世界,构建内部模型,提供预测,及时指导我们的行为。这一主动推理的过程,被称为智能。

这个长长的章节写到现在,我总算可以归纳智能实现的大致途径,总结目前所得:

  • 稀疏编码:稀疏编码(SDR)可以视作 “二维平面上的稀疏点阵”,它是人脑内部通用的数据格式,具有形式与内容一致的 “所见即所得” 特质。SDR是数据与表征的统一,是高效的健壮的信息。由于人脑中神经元结构的无尺度网络特质,SDR出现在信息处理的几乎所有层级上。人脑的本质能力是对不同SDR进行相似性比较。这些比较发生在记忆与当前、时间前后、层级之间、脑区之间。基于此,人脑提供了类比——模式匹配能力,它是人脑处理信号的首要手段。结合下面的分而治之策略,可以认为,人脑对任何事物的感知,都可以被拆解为无数个分布在大脑不同区域的SDR序列。在神经活动中,它们被分散并行地处理,逐渐压缩合并,最终可能成为出现在意识中的词语。

  • 参照系:神经元处理的事物信息,会被打上时间标记和位置标记,作为输出的SDR的一部分。除了在海马体中标记自身全局位置的网格细胞之外,新皮质中的类似神经元还可以标记以自己为中心的主体坐标系,以及以物体为中心的客体坐标系。全局、主体、客体坐标系加上时间坐标一起,构成了时空参照系。结合下面的分而治之策略,可以认为,每个感受野及其处理单元都有自己的主体坐标系。然后,籍由不同参照系之间的级联关系,它们得以将各自的感受体验不断组装为更大的整体。所有经验都被安置在时空参照系中。其中一些被提取为对象、概念及其关系,能够被语言表达,这就是内部模型——知识。

  • 分而治之:人脑采取了极其彻底的分而治之策略,通过将对事物的感知拆解为大约几十亿个感受野,每个感受野由一个皮质微柱来单独处理(并非严格的一对一),它由几十到几百个神经元组成。每一个感觉神经元都是一个简单的非线性选择器,它的任务是回答是与否。经由神经元,任何复杂事物在人脑内部都被拆解为无数个极其微小的特征。这些特征在时空参照系中被标定,被赋予质感。然后,它们在许多级联的层级中不断向上组装。最终,质感表征特征,特征合成部件,部件组成对象,对象泛化为概念,概念以语义表达。这些东西构成了人脑中的内部模型,大脑基于它进行预测。如此庞大彻底的分而治之,说明了为什么人脑拥有如此多的神经元。

  • 多模态:如果将每一种感觉方式,比如视觉、听觉、触觉、嗅觉、温度、压力等等,视作一种模态,则智能倾向于使用尽可能多的模态来认知环境。不仅如此,人脑还需要在时空中改变对事物的信息采集角度,来尽可能多地认知事物的不同面向,这被称为运动感知或者具身认知,是人脑构建内部模型的高效方式。人脑对于环境的认知,归根结底,受限于其输入。通过多模态,人脑运行得更加高效。由于SDR这个通用格式的存在,多模态的数据是可以互相替代的。盲人的视觉脑区可以处理处理听觉信号,人们可以通过舌头上的电极点阵 “看到” 图像,等等。

  • 常态与反常:智能为了预测,预测在于区分常态与反常。常态是逐渐适应的结果,反常是触发适应的契机。从发现反常到回归正常的适应过程,就是学习。常态提供了内部模型的基础预测,而反常提供了对于预测的修正。常态在神经网络中体现为一个被记录了的状态。由于分而治之的存在,人脑所处理的任何事物的信息,都被分散存储在几十亿个微柱中。这些微柱的某个状态,构成了人脑对于某事物的常态认知。对于某项事物,由于以上分解的存在,通过在某单独处理单元中——神经元、微柱、皮质柱、神经链路等级别——比较当前与记忆,人脑就可以在事物的几乎所有不同面向上发现反常,从而引发后续的神经活动。反常不仅出现在感知与预测之间存在差异时,还出现在人脑中价值系统产生新欲求之时。

  • 反向传播:从新皮质到丘脑的信息传递是为反向传播。新皮质基于内部模型产生预测信号。预测信号通过下行网络向丘脑传递。在此过程中,预测信号会与感觉信号进行逐级比较,其中的误差就是反常。某些反常会被价值系统抓住,形成注意力。价值系统产生的神经递质能够维持其在 “新皮质<->丘脑” 之间的反馈回路,引发反常信息在新脑和旧脑的循环与震荡。在此过程中,通过沿途逐级比对,预测信号得以修正,预测和感觉之间的误差得以逐渐弥合,内部模型被改进,减少了意外。

至此,我长舒一口气。这些认识仍然很粗浅,但大致走得通了。

只是片刻之间,一个真正的难题马上浮现出来:为什么人脑中的内部模型是有用的?

或者说:为什么这个世界是可理解的?

爱因斯坦也曾为这个问题而感慨。

但是,既然已经走了这么远,我不会止步。让我们再接再厉,迎击这个终极命题。

0
Subscribe to my newsletter

Read articles from David Qi directly inside your inbox. Subscribe to the newsletter, and don't miss out.

Written by

David Qi
David Qi

程序员与思考者,期待以朴素简单的方式认识这个世界。