听觉是人类和动物所具备的重要感觉功能,是感知和获取自然界环境信息的重要方式。随着时代的进步,人工智能技术不断发展,听觉同样称为机器人模型研究的重点。人类社会的进步离不开语言的发展,听觉是语言交流的基础,是人类语言交流的通道。人类在语言交流中发出的声音进入人耳被听觉系统接收、转化、传导、综合处理和加工,最终在大脑中被理解。听觉系统可以从声音中分辨出语音的含义及其发出声音的物体,并能提取声源的位置信息,从而辨别声音发出的方向,这种声音辨别能力优于所有现有的机器。
研究听觉神经网络处理声纹识别、语音识别、听觉情感识别、语音问答等任务时,需要对听觉系统的结构和功能尽心相近的了解,本文对人脑听觉系统的结构和功能进行详细叙述。
听觉信号是声压随时间的变化,听觉系统从耳朵所接收到的刺激出发,在声音信号的分解和合成两方面都取得了卓越的成就,构建起一个完整的多功能听觉世界。
听觉系统可以分为听觉外周和听觉中枢两个组成部分,这一节对听觉系统的基本结构和功能进行介绍。
听觉外周
听觉外周部分包括外耳、中耳和内耳(如图1所示),主要负责语音信号的接收和传导,是一个复杂的换能器,能够将机械形式的信号转换为传输到大脑的神经冲动,这一过程耳朵完成了声音振动的感受、声源位置信息的接收,并根据环境和自身状态意识的改变进行主动调节与反馈。
图1 人耳的解剖结构[2]
外耳主要包括耳廓和外耳道。耳廓的形状有助于声音的聚集,使收集反射的声音能够最有效地在外耳道聚集,同时耳廓褶皱有助于进行声音定位[3]。外耳道起始于耳廓中心,终止于鼓膜,长度大约为 25~35mm。成人的外耳道呈“S”形弯曲,外段向内前而微向上,中段向内向后向下,内段向内前微向下。外耳道主要是声波传导的通道,可以将声音信号传递到鼓膜,通过共振效应,对声音进行增益,从而将声音放大。鼓膜介于鼓室与外耳道之间,是一个类似锥形的、顶点朝向中耳内部的软膜,高约9mm、宽约8mm、厚约0。1mm。它可以随着声波的振动而振动并产生位移,即具有将声波信号转换为机械能的作用。
图2 耳廓结构
中耳由鼓室、咽鼓管、鼓窦和乳突等结构组成。鼓室又称为中耳腔,是由鼓膜和侧壁形成的密闭腔体,内部充满了空气,包含有听骨链。听骨链由三块听小骨组成,分别为锤骨、砧骨、镫骨,是人体最小的骨头;咽鼓管具有维持鼓室内气体压力平衡的能力。镫骨具有平面形的底板,与卵圆窗相接,可以将振动传到内耳中的耳蜗内。中耳一般被认为是传声装置,主要生理功能是实现声阻抗匹配。耳蜗的输入阻抗(定义为产生椭圆形窗口单位位移的压力)大约是自由空气输入阻抗的200倍[4]。如果声音振动直接遇到前庭窗,我们可以计算出大部分能量会被反射,只有2%的能量被传递。然而,外耳和中耳大大增加了这种声音能量传播效率。传播过程中的增益效果分两个阶段完成。
首先,外耳可以视为一个方向性灵敏的助听器,通过共振效应来收集耳廓较大区域内的声压,从而增加较小鼓膜处的声压。主共振的频率峰值是互补的,因此鼓膜的压力相对均匀地升高,在2-8 kHz的频率范围内升高15-20 dB,传输也同样升高。然后,中耳主要通过两种阻抗匹配机制增加振动压强:(1)面积比机制:最大的因素来自于前庭窗中鼓膜面积与镫骨底板面积之比,这两部分的面积分别是60平方毫米和3。2平方毫米,前庭窗的压力增加了18。75倍。(2)杠杆作用:锤骨臂(即鼓膜凸)比镫骨臂长2.1倍[5]。
内耳包括感受声音信息的耳蜗和感受位置信息的前庭器官。其中,内耳中的耳蜗,是听觉外周最重要的一个部分。作为人类听觉系统的感受器,耳蜗的重要作用在于它实现了声波与神经冲动的换能过程,将声音的振动信号转换为大脑可以感受和处理的神经脉冲信号。同时耳蜗还起机械性频率分析器的作用。
人的耳蜗形状类似于蜗牛,是一个充满液体的螺旋状管。该螺旋状管绕中间的蜗轴2。5~2。75圈盘旋而成,总宽度为1厘米,高5毫米。耳蜗管被软组织分成3个充满液体的部分:前庭阶、中阶和鼓阶(如图3)。3个部分在耳蜗内围绕着蜗轴一起旋转, 沿耳蜗卷曲方向平行排列,包括听神经和许多血管。耳蜗的基部有两个膜性窗口,分别为卵圆窗和圆窗。前庭阶和鼓阶分别终止于蜗底的卵圆窗和圆窗。前庭阶和鼓阶充满外淋巴液,在蜗顶有一开口(蜗孔)将二者彼此连通。中阶是一个盲管,将前庭阶和鼓阶分隔开,其内部充满内淋巴液,在蜗顶处关闭。中阶和鼓阶之间的隔膜状结构称为基底膜,其上有毛细胞、神经终末等组成的神经感受器。分隔前庭阶和中阶的膜状结构称为前庭膜。
图3 前庭阶、中阶和鼓阶解剖结构
含有听觉感受神经元的科蒂氏器官(如图4)位于基底膜上,盖膜悬于科蒂氏器官之上。耳蜗毛细胞是听觉感受器细胞,位于基底膜上的科蒂氏器官内。毛细胞是上皮细胞的变种,其顶端有毛(静纤毛)伸出,这些纤毛与覆盖其上的辅助结构相靠近或接触。毛细胞的基底部与听神经轴突远端形成轴突连接。受到声音振动的刺激时,听觉毛细胞的膜电位会发生变化,然后释放神经递质,进而使得支配毛细胞的听觉神经产生兴奋和冲动,将声音信息传到听觉中枢。耳蜗毛细胞分为外毛细胞和内毛细胞。毛细胞被支持细胞维持在一定位置。哺乳类动物的外毛细胞沿着蜗管方向排列成三排,而内毛细胞排列为一排。 人类的外毛细胞数约为12000个,内毛细胞数约为3500个。
图4 科尔蒂(Corti)器官的横截面,出现在基部转弯处,显示出网状薄层中的毛细胞,其束成束的纤毛延伸到保护膜。Deiters的细胞将延伸部分向上延伸至网状层,在外部毛细胞周围的空间中运行[9]。
图5 Corti的人体器官:从耳蜗中转(500 Hz 处)的断面扫描电子显微照片。在该标本中,内部柱状 细胞(箭头)已部分塌陷,并且盖膜从网状薄层缩小。 有四排外部毛细胞(OHC)[10].
到达内耳的声波使基底膜运动,从而也使Corti 器官运动(如图6),这就在盖膜和毛细胞顶端之间引起剪切运动,这一运动转而使静纤毛移位,感觉毛的弯曲诱发一串电活动,导致感受器细胞基底部化学神经递质的释放和听神经动作电位的发生。内毛细胞和外毛细胞形成突触连接到听神经纤维,将声音由听觉外周传入到听觉中枢。内毛细胞的数量虽少,但受95%的听觉传入神经纤维的支配,每个内毛细胞受16~20 根传入纤维的支配。而外毛细胞主要受起源于听觉脑子的上橄榄核的传出神经纤维的支配。因此,根据这类解剖学上的特征,可以得出结论:内毛细胞主要完成听觉信息向中枢的传递,而外毛细胞主要参与听觉信号转换中的离心调节和主动过程,决定听觉灵敏度和精细辨别能力。
在两种类型的细胞中,前向转导在内毛细胞和外毛细胞中的发生基本相同。每个毛细胞顶表面上的大量静纤毛(每个毛细胞60 – 120个)通过尖端连接的细纤维相互连接,这些细纤维 从束中较短的静纤毛的尖端中出来,向上延伸以连接相邻的较高的静纤毛。沿兴奋性方向的静纤毛偏转会拉伸末端连接,通过直接的机械作用将机械换能器通道拉开[6][7]。机械换能器通道被认为位于每个束中较短的静纤毛的末端,因此将与每个末端连接的底端相关联[8]。外毛细胞因其在反向转导中具有特殊的机械作用而具有专门化的特征,它具有相对较硬的静纤毛束和活动的细胞体。 内毛细胞具有更直接的功能,充当简单的感觉受体细胞。在这里,由机械换能器通道的打开和关闭引起的细胞内电位的变化改变了细胞基端神经递质的释放,从而激活了听神经的纤维。
图6 基底膜的向上运动造成的纤毛倾斜
基底膜的机械振动模式在很大程度上决定了听觉反应的特性。声音振动首先由中耳的听骨链通过卵圆窗传入耳蜗,在前庭阶和鼓阶之间形成机械压力差,使得整个基底膜上下振动(如图7)。
图7 基底膜振动机理
人类的基底膜在耳蜗的基部的宽度为0.08~0.16 mm,向耳蜗的顶部旋转盘旋过程中逐渐变宽,最终达到0. 423~0. 651 mm. 同时基底膜耳蜗基部较大的韧度,在顶部较小,进而基底膜和Corti 器官的质量在耳蜗的基部较小而在顶部较大。基底膜在耳蜗基部和顶部的这种差异,决定了耳蜗基部和顶部的最佳响应频率的不同。
通过研究表明,基底膜的运动可以用行波理论[9][10]来描述,即沿着基底膜分布着不同的特征频率,其值是由基底膜上各个位点之间的参数值决定的。有关基底膜振动形式的研究始于Békésy对动物和人尸体的观察,他在光镜下观察到,声音引起基底膜振动从耳蜗基部开始,逐渐向蜗顶传播,此即行波(如图7)。在行波的传播过程中,振幅逐渐增大,到达某一位置后便迅速衰减。行波在基底膜上传播的距离以及振幅最大点的位置均与刺激声的频率有关:刺激声频率越高,行波传播距离越短,振幅最大点位置越靠近蜗底。这种声音频率与基底膜部位之间的对应关系称为频率组织结构。后来一些先进的测量技术进一步证实了Békésy的上述观察(如图8)。
图8 (A)基底膜的行波,首先由贝凯西(Békésy)证明。低频刺激的行波在耳蜗中更尖锐。显示了连续时间(1、2、3)处的波;这些波在包络线(虚线)内顶峰移动,该包络线对于恒定频率的音调保持恒定。
(B)当前的实验表明,在最佳状态下,耳蜗的行波要比Békésy所示的大得多,并且波峰要尖得多。如果以与A部分中的波浪相同的比例绘制行进波,则该行波将比B部分中所示的波窄5倍,高30倍。摘自Pickles(2013)。
听觉中枢
来自耳蜗听觉感受器的信号经听神经纤维向听觉中枢传导。听觉中枢各个核团的结构及其相互间的连接极为复杂,主要核团如下:
耳蜗核:位于延髓,是哺乳动物第一级听觉中枢。在耳蜗核中,神经元通过连接的听神经形成对听觉环境的多种平行的表达方式。来自听神经的传入纤维全部终止于同侧的耳蜗核。耳蜗核主要包含三个亚区:前腹侧耳蜗核(AVCN)、后腹侧耳蜗核(PVCN)和背侧耳蜗核(OCN)。腹侧耳蜗核包括四种主要的神经元:球状丛细胞、球形丛细胞、屋状细胞和章鱼细胞。球状丛细胞主要分布在腹侧耳蜗核的前端,章鱼细胞分布在尾端,星状细胞和球形丛细胞集中在中央位置。腹侧耳蜗核中的球状丛细胞和球形丛细胞主要的投射到上橄榄核、外侧丘系核以及下丘。背侧耳蜗核的结构较腹侧耳蜗核复杂,并有显著的层状结构特征.背’因耳蜗核主要的投射细胞是在核团表面呈规则排列的梭状细胞和深部的巨细胞。
图9 猫的耳蜗核中细胞类型的分布
图10 听神经及耳蜗核细胞的锁相特征
上橄榄复合体:包括外侧上橄榄核、内侧上橄榄核和内侧斜方体核。
图11 集中哺乳动物的上橄榄复合体的主要核团在冠状切面上的分布
外侧丘系:包含大量的上行和下行听觉通路的神经纤维。其中上行的纤维由耳蜗核、上橄榄复合体以及外侧丘系内部核团中神经元的轴突组成。这些轴突绝大部分终止于下丘。但也有相当数量的从外侧丘系核发出的神经纤维经过下丘而终止子上丘或内侧膝状体。在外侧丘系的神经纤维当中,有一条细胞群带从外侧上橄榄核一直伸展到下丘腹侧,形成了三个明显的外侧丘系核团. 根据在外侧丘系的位置、细胞结构及神经连接的差异,这三个外侧丘系核团分别被称为外侧丘系腹侧核、外侧丘系中间核和外侧丘系背侧核。
下丘:包括中央核、中央旁核和外核。中央核是由碟形神经元和多极细胞所形成的层状结构。几乎所有脑子听觉核团对中央核的投射都具有音频拓扑结构。这表明来自于多个听觉脑子结构的神经上行传人按照特征频率汇集在中央核内并被高度整合。
图12 听觉中脑下丘中的按特征频率分布的层状结构
内侧膝状体:听觉丘脑的最主要的结构,它包含腹侧区、内侧区和背侧区。腹侧区是内侧膝状体主要的听觉信号中转部位,内侧区接受下丘的投射,还接受躯体感觉系统的传人, 与听觉、情绪、学习有密切的关系.背侧区则是显著的多感觉结构,它也接受躯体感觉、视觉的信息传入。
图13 猫内侧膝状体腹侧区的一个频率段
听觉大脑皮质:听觉神经系统中最高的一级信息处理中心,进一步分为初级区(AI)和若干高级区。在猴类中,文献将听皮质分为"核心区"、“带区"和"外带区”,其中"核心区"包括AI 、R和RT 三个区域;“带区”包括若干个环绕核心区的区域;“外带区”由数个在带区外侧的区城组成,如图13、14。
图14 猴类听皮质区域分布图
图15 猫听皮质区域分布图
连接性研究表明,听觉皮层的这些区域(核心区、带区和外带区)与其最近的邻域是连续相连的,但与被进一步移除的区域不相连。因此,虽然核心区与带区相互连接,带区与外带区相互连接,但核心区域与外带区带之间没有直接投影。从听觉皮层外侧的外带区到高阶皮层结构的投射定义了听觉背(空间)处理流和腹(非空间)处理流。
参考文献:
[1] Barr J Rich N M. The anatomist Andreas Vesalius at 500 years old[J]. Journal of Vascular Surgery 2015 ,61(5) 1370~1374.
[2] Bear M. Connors B . Paradiso M N Neuroscience: Exploring the Brain. 2nd ed. New York: üppincott Williams &. Wilkins lnc. 2001
[3] 王建军. 神经科学——探索脑(第2版). 高等教育出版社.
[4] Nakajima HH, Dong W, Olson ES, et al (2009). Differential intracochlear sound pressure measurements in normal human temporal
[5] Auditory Pathways: Anatomy and Physiology
[6] Corey DP, Hudspeth AJ (1983). Kinetics of the receptor current in bullfrog saccular hair cells. J Neurosci 3: 962-76.
[7] Ryan A , Dallos P. Physiology of the cochlea[M]. In : Hearing Disorders , Northern J ed , Boston : Little Brown , 1984.
[8] Oghalai J S. The cochlear amplifier : augmentation of the traveling wave within the inner ear[J]. Current Opinion in Otolaryngology & Head & Neck Surgery , 2004 , 12(5) : 431~438.
[9] Pickles JO (2012). An Introduction to the Physiology of Hearing, 4th edition. Brill, Leiden.
[10] Glueckert R, Pfaller K, Kinnefors A, et al (2005). High resolution scanning electron microscopy of the human organ of Corti. A study using freshly fixed surgical specimens. Hear Res 199: 40-56.