Method Article
该研究引入了一种训练测试范式,以研究事件相关电位在置信和可疑韵律场景中的旧/新影响。数据显示,在 Pz 和其他电极处,在 400-850 ms 之间,晚期阳性成分增强。此管道可以探索语音韵律以外的因素及其对线索绑定目标识别的影响。
从声带中识别熟悉的说话者是人类口头交流的一个基本方面。然而,目前尚不清楚听众如何在富有表现力的言语中辨别说话者的身份。本研究开发了一种基于记忆的个体说话人身份识别方法和随附的脑电图 (EEG) 数据分析管道,用于监测听众如何识别熟悉的说话人和区分不熟悉的说话者。脑电图数据在基于语音区分新旧说话人期间捕捉在线认知过程,提供大脑活动的实时测量,克服反应时间和准确性测量的限制。该范式包括三个步骤:听众在三个声音及其名称之间建立关联(训练);listeners 指示与三个候选者的声音对应的名称 (checking);听众在两个备选强制选择任务 (测试) 中区分三个旧的和三个新的说话人声音。测试中的语音韵律要么是自信的,要么是可疑的。使用 64 通道 EEG 系统收集 EEG 数据,然后进行预处理并导入 RStudio 进行 ERP 和统计分析,并导入 MATLAB 进行脑地形图。结果显示,与 New Talker 条件相比,在 Pz 和其他更宽范围的韵律中,在 Pz 和其他更宽范围的电极中,老说话者中引发了扩大的晚期正成分 (LPC)。然而,对于可疑的韵律感知,中央和后电极的旧/新效应是稳健的,而前、中央和后电极则用于可靠的韵律条件。本研究提出,该实验设计可作为研究各种场景(例如,隐喻表达)和声觉失认症等患者病理中的说话人特异性线索结合效应的参考。
人类的声流信息丰富,例如情绪 1,2、健康状况 3,4、生理性别5、年龄6,更重要的是,个人声音身份 7,8。研究表明,人类听众具有强大的能力,可以通过声音识别和区分同伴的身份,从而克服了声学空间中说话人身份基于平均值的表示的说话人内部差异9。这种变化是由声学操纵(基频和声带长度,即F0和VTL)引起的,它对应于没有明确的语用意图9(clear pragmatic intentions)9、情感韵律10(emotion prosodies)和传达说话者认知感的声音自信11。行为实验集中在影响听众识别说话者表现的许多因素上,包括与语言相关的操作 8,12,13,与参与者相关的特征,如音乐体验或阅读能力 14,15,以及与刺激相关的适应,如倒退语音或非单词16,17;更多信息可以在文献综述中找到18,19。最近的一些实验调查了说话人身份表征的个体差异如何破坏识别准确性,考虑了包括高与低情绪表达16 和中性与恐惧韵律5 等方面;正如 A Review20 所建议的那样,更多可能的情况可供进一步调查。
对于第一个研究空白,该研究提出,说话人识别的神经学基础尚未充分探索说话人内部差异如何挑战听众的大脑活动。例如,在 Zäske 等人基于 fMRI 的说话人识别任务中,参与者的右颞后上回 (pSTG)、右额下回/额中回 (IFG/MFG)、右内侧额回和左尾状核在正确识别为老说话者与新说话者时表现出激活减少,无论语言内容相同还是不同21.然而,Zäske 等人早期的脑电图 (EEG) 研究并没有观察到当说话人身份变异通过不同的文本引入时,这种旧/新效应22。具体来说,当听众遇到他们熟悉的训练有素的说话者表达相同的文本时(即,听到具有非变化语言内容的重播),在 Pz 电极上检测到一个更大的、较晚的正分量 (LPC),范围为 300 到 700 毫秒,当说话者提供新文本时,不存在。
为了支持 Zäske 等人 21 的断言,本研究怀疑,尽管在事件相关电位 (ERP) 分析中训练和测试会话之间的语言内容存在差异,但仍可以观察到旧/新效应。这一基本原理源于这样一种观念,即在使用不同文本的情况下,Zäske 等人22 中没有旧/新效应,这可能归因于在训练任务期间缺乏额外的检查会话,以确保彻底和有效的身份学习,正如 Lavan 等人所建议的23。因此,该研究的首要目标是检验和验证这一假设。本研究旨在通过在训练-测试范式22 中添加检查会话来测试这一点。
本研究旨在解决的另一个关键问题是在存在语音韵律的情况下说话人识别的稳健性。之前的行为研究表明,听众特别难以识别不同韵律的说话者,这表明韵律上下文的调节作用——听众在不同的训练测试韵律条件下表现不佳。本研究旨在通过让听众在自信或可疑的韵律中识别熟悉的说话者来测试这一点24。本研究预计观察到的 ERP 差异将有助于解释语音韵律如何影响身份识别。
本研究的核心目标是调查旧/新效应在说话人识别中的稳健性,特别是检查在自信和可疑的韵律中识别说话者是否存在差异。Xu 和 Armony10 使用训练-测试范式进行了一项行为研究,他们的发现表明,听众无法克服韵律差异(例如,受过训练以识别中性韵律的说话者,并在恐惧韵律上进行测试),并且只能达到低于机会水平10 的准确性。声学分析表明,表达不同情绪状态的说话人与 VTL/F0 调制有关;例如,置信韵律的特征是 VTL 延长和 F0 降低,而可疑韵律11,24 则相反。另一个证据来自 Lavan 等人的研究23,该研究证实了听众可以适应说话者的 VTL 和 F0 变化,并形成基于平均值的谈话者表示。本研究调和了,从行为数据的角度来看,听众可能仍然能够识别出跨韵律说话者的身份(例如,受过训练可以在自信的韵律中识别一个人,但在可疑的韵律中进行测试;在准备中的单独手稿中报告)。然而,说话人识别的神经相关性,特别是 Zäske 等人22观察到的旧/新效应的普遍性,仍然不清楚。因此,目前的研究致力于验证置信韵律与可疑韵律中旧/新效应的稳健性,作为测试的背景。
该研究引入了与以前旧/新效应研究研究范式的背离。虽然过去的研究侧重于旧/新说话者的识别如何影响感知,但本研究通过将两个置信水平(自信与怀疑)纳入范式(因此,一项 2+2 研究)来扩展这一点。这使我们能够在自信和可疑语音韵律的上下文中研究说话人识别。该范例可以探索旧/新效果的稳健性。在自信和可疑的语音环境中对记忆效应和感兴趣区域 (ROI) 的分析可作为这项调查的证据。
总而言之,该研究旨在更新对语音识别的脑电图相关性的理解,假设即使 1) 语言内容不同,以及 2) 存在自信与可疑的韵律,也可以观察到脑电图旧/新效应的扩大 LPC。本研究通过三步范式调查了这些假设。首先,在训练阶段,参与者在三种声音及其相应的名称之间建立了关联。随后,在检查阶段,他们的任务是从三名候选人中确定与声音相对应的名称。这种检查遵循 Lavan 等人 23 ,旨在克服对老说话人熟悉不足的问题,当训练和测试阶段的文本不同时,这会导致未观察到的旧/新效应6,并且说话者无法识别中性和恐惧韵律的说话者10。最后,在测试阶段,参与者在两个替代强制选择任务中区分了三个旧的和三个新的说话人声音,语音韵律表现为自信或可疑。使用 64 通道 EEG 系统收集 EEG 数据,并在分析前进行预处理。统计分析和事件相关电位 (ERP) 分析在 RStudio 中进行,而 MATLAB 用于脑地形图分析。
关于设计细节,本研究提出了一个说话者身份学习实验,该实验控制说话者的身高,这与 VTL 有关,并影响对谁在说话的印象23。这方面也影响社会印象,例如感知支配25 (perception dominance),这种更高层次的印象形成可能与解码说话人身份26 (Decoding speaker identity) 相互作用。
上海外国语大学语言学研究所伦理委员会已批准了下述实验设计。本研究的所有参与者均已获得知情同意。
1. 音频库的准备和验证
2. 脑电图数据收集编程
3. 收集脑电数据
4. 脑电数据处理
注意:以下描述涉及使用 MATLAB 和 RStudio 进行批处理的 EEG 数据预处理、统计分析和可视化。
经典的旧/新效应的特点是,当测试会话的语音内容与训练会话的语音内容相匹配时,听者在 Pz 电极上的大脑活动显着增加(在 300 到 700 毫秒之间),尤其是在旧说话者条件下与新说话者条件相比22。该协议揭示了这种效应的更新版本:首先,与 400 到 850 毫秒之间的新说话者条件相比,在 Pz 电极和整个大脑区域中观察到更大的正趋势。其次,测试环节中的语音内容将与培训课程中的语音内容不同。第三,预计置信和可疑的语音韵律条件都会表现出这些趋势。最后,在测试过程中,旧/新效应在可疑条件下更为明显(图 2)。
使用公式
lmer(电压 ~ 内存 * ROI + (1|主题) + (1|频道))
表明内存类型(旧与新)和 ROI 都有主要影响,内存和 ROI 之间存在交互作用(表 1)。进一步的事后分析显示,在所有大脑区域,旧病症表现出比可疑病症更大的正电压,包括前部、中央和后部区域(表 2)。比较 beta 值表明,旧/新效应在中央电极和后部电极比前电极更明显:对于组合数据集 - 前部 β = .40,中央 β = .63,后部 β = .60;对于置信数据集 - 前β = .61,中央 β = .63,后 β = .76,对于可疑数据集 - 前β = .44,中央 β = .87,后 β = .69。在可疑韵律情况下,中央电极和后电极的参与最为明显。
使用公式
lmer(电压 ~ 内存 + (1|主题))
我们确认了 Pz 电极中存在旧/新效应。在 Pz 电极上,观察到记忆(旧与新)的主效应 (F(1, 69341.99) = 120.46,p < .001,η ²p = .002,β = .425,SE = .039,z 比 = 10.98,p < .001)。在仅置信条件下,在 Pz 电极处观察到记忆(旧与新)的主效应 (F(1, 34318.32) = 5.04, p = .025, η²p = .0001, β = .125, SE = .056, z 比 = 2.25, p = .025)。在仅可疑的情况下,在 Pz 电极处观察到记忆(旧与新)的主效应 (F(1, 34993.20) = 317.02,p < .001,η ²p = .009,β = .914,SE = .051,z 比 = 17.81,p < .001)。
图 1:每个区块的数据收集工作流程。 在 (A) 训练中,听众听到一个声音,并将随后出现的名称与它相关联。需要记住三个老说话的人。程序中出现的语言最初是中文。A 和 C 表示 Xiao (Junior) ZHANG 等名称。在 (B) 检查中,听众听到声音后,通过按数字键盘上的 1、2 或 3 来识别说话者的姓名,将语音身份与小赵等名字进行关联。在 (C) 测试中,听众听到一个声音并将其分类为由旧说话人或新说话人说出。正如 (D) 韵律设计中所示,听众学会三个说话者只自信或怀疑地表达,但听到六个说话者既自信又怀疑。版本 A 或 B 的外观是互斥的。如果版本 A 与男性或女性说话者一起出现,则版本 B 将与相应的女性或男性说话者一起出现。 请单击此处查看此图的较大版本。
图 2:旧/新效应。 (A、B、C) 图分别显示了韵律组合、仅置信和仅可疑情况下 Pz 电极在 400 至 850 ms 范围内的灰色指示 ERP。(D、E、F)图说明了韵律组合、仅置信和仅可疑条件的所有电极(用黑点表示)的旧负新条件的地形。 请单击此处查看此图的较大版本。
上下文 | 脑区 | F 值 | Pr(>F) | Eta2_partial |
组合的 | 记忆 | 9938.98 | .00 | .00 |
投资回报率 | 4.13 | .02 | .13 | |
内存:ROI | 182.37 | .00 | .00 | |
自信 | 记忆 | 7291.22 | .00 | .00 |
投资回报率 | 3.60 | .03 | .12 | |
内存:ROI | 41.94 | .00 | .00 | |
怀疑 | 记忆 | 8333.38 | .00 | .00 |
投资回报率 | 4.65 | .01 | .15 | |
内存:ROI | 290.15 | .00 | .00 |
表 1: 跨大脑区域旧/新效应的 LMER 分析结果:组合、自信和可疑数据集。使用事后分析,* 在 p < .05 时显著,** 在 p < .01 时显著,*** 在 p < .001 时显著。
上下文 | 脑区 | 反差 | 估计 | 硒 | z | p |
组合的 | 前面的 | 旧-新 | .40 | .01 | 43.70 | .00*** |
中央 | 旧-新 | .63 | .01 | 61.74 | .00*** | |
后面的 | 旧-新 | .60 | .01 | 67.51 | .00*** | |
自信 | 前面的 | 旧-新 | .61 | .01 | 46.63 | .00*** |
中央 | 旧-新 | .63 | .01 | 43.22 | .00*** | |
后面的 | 旧-新 | .76 | .01 | 59.95 | .00*** | |
怀疑 | 前面的 | 旧-新 | .44 | .01 | 35.95 | .00*** |
中央 | 旧-新 | .87 | .01 | 64.05 | .00*** | |
后面的 | 旧-新 | .69 | .01 | 57.75 | .00*** |
表 2: 跨大脑区域旧/新影响的事后测试结果:组合、自信和可疑数据集。使用事后分析,p < .001 时显著 (***)。
该研究提出了一个用于 EEG 数据收集和分析的管道,重点是识别以前学习的说话人身份。本研究解决了学习和识别阶段之间的差异,包括语音内容22 和韵律10 的差异。该设计适用于一系列研究领域,包括心理语言学,例如代词和隐喻处理41。
训练测试范式是一种经典的实验设计,用于评估参与者在特定主题上的学习成果,例如语音学习42,43。该范式评估参与者学习特定信息的情况(反映在准确性上)10。它允许研究人员在受控的实验条件下逐步引入变量,例如在训练和测试阶段使用不同的韵律,以了解它们对语音识别准确性的影响,例如,VTL/F0 调制语音23,恐惧与中性10,或怀疑与自信在这项研究中。
但是,该范例有局限性。学习环境和测试环境之间的差异会影响实验结果的有效性,因为受控学习条件可能无法反映更多可变的测试条件。例如,训练课使用单个韵律而不是成比例的差异,例如 30% 与 70%44。为了解决这种不平衡问题,确保更多样化的学习环境可以更好地复制现实生活中的场景,即说话人在与听众互动时使用不同的韵律。此外,本研究承认,实验设计的复杂性,涉及多个阶段和复杂的编程(使用 R Studio、MATLAB 和 Python 等工具),对于新手来说可能具有挑战性。
主要见解强调了充分熟悉和检查阶段的重要性。Xu 和 Armony 的研究强调,如果没有足够的训练和超过10 的机会等级的检查,听众很难识别老的说话者身份。此外,Zaske 等人发现 LPC 旧/新效应仅在重复相同的文本时出现,而不是在不同的文本时出现22。在这项研究中,检查阶段的实施揭示了旧/新 ERP 效应的持久性,即使有不同的文本刺激,支持 fMRI 研究主张21。该研究表明,对于基于训练测试的范式,插入检查会话至关重要。它允许听众对说话者的声学身份形成强烈的印象,将说话者与特定符号(例如姓名23)相关联。如果对说话人的表征没有充分的了解,听众可能难以适应说话人内部的变化10。
这项研究还观察到韵律作为说话人识别的结合线索的作用45。与以前认为韵律可能会阻碍老说话者识别的观点相反,这项研究发现,在自信和可疑的韵律条件下存在旧/新效应。这种稳健的效果表明韵律在说话人识别中的调制作用。进一步的分析揭示了不同韵律条件下前区激活的差异。与可疑韵律相比,自信韵律在前部区域引起较低水平的旧/新效应。这一发现表明,由于声带长度延长和基频降低,自信的语音可能会使说话者识别更具挑战性,从而可能导致听众的注意力增加11,29。
本研究的设计可以为未来对患者群体识别障碍的调查提供信息,例如面容失认症或声觉失认症患者 46,47。此外,为适应注意力持续时间较短的参与者(例如患有自闭症谱系障碍的个体48)而进行的修改可以提高研究的可及性。
此外,该范式超越了说话人识别,研究了心理语言学研究中的代词加工和隐喻理解。Coopmans 和 Nieuwland41 展示了神经振荡同步模式如何在回喻理解中区分前因激活和整合,这与本研究对身份相关线索的探索一致。在本文中,提示包括交际风格(例如,字面或讽刺陈述)、词序(主语-宾语-动词 (SOV) 或宾语-主语-动词 (OSV) 句子结构 44,45,49,50)和声乐表达类型(自信与可疑韵律)。
没有需要披露的信息。
这项工作得到了中国自然科学基金(第 31971037 号资助)的支持;上海市教育发展基金会和上海市教育委员会支持的曙光计划(批准号:20SG31);上海市自然科学基金(22ZR1460200);上海外国语大学导师指导项目(2022113001);和国家社科基金重大计划(批准号 18ZDA293)。
Name | Company | Catalog Number | Comments |
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。