使用事件相关电位分析在表达性语音中实现稳健声音身份识别的基于记忆的训练和测试范式

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

Method Article

使用事件相关电位分析在表达性语音中实现稳健声音身份识别的基于记忆的训练和测试范式

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

摘要

该研究引入了一种训练测试范式，以研究事件相关电位在置信和可疑韵律场景中的旧/新影响。数据显示，在 Pz 和其他电极处，在 400-850 ms 之间，晚期阳性成分增强。此管道可以探索语音韵律以外的因素及其对线索绑定目标识别的影响。

摘要

从声带中识别熟悉的说话者是人类口头交流的一个基本方面。然而，目前尚不清楚听众如何在富有表现力的言语中辨别说话者的身份。本研究开发了一种基于记忆的个体说话人身份识别方法和随附的脑电图（EEG）数据分析管道，用于监测听众如何识别熟悉的说话人和区分不熟悉的说话者。脑电图数据在基于语音区分新旧说话人期间捕捉在线认知过程，提供大脑活动的实时测量，克服反应时间和准确性测量的限制。该范式包括三个步骤:听众在三个声音及其名称之间建立关联（训练）;listeners 指示与三个候选者的声音对应的名称（checking）;听众在两个备选强制选择任务（测试）中区分三个旧的和三个新的说话人声音。测试中的语音韵律要么是自信的，要么是可疑的。使用 64 通道 EEG 系统收集 EEG 数据，然后进行预处理并导入 RStudio 进行 ERP 和统计分析，并导入 MATLAB 进行脑地形图。结果显示，与 New Talker 条件相比，在 Pz 和其他更宽范围的韵律中，在 Pz 和其他更宽范围的电极中，老说话者中引发了扩大的晚期正成分（LPC）。然而，对于可疑的韵律感知，中央和后电极的旧/新效应是稳健的，而前、中央和后电极则用于可靠的韵律条件。本研究提出，该实验设计可作为研究各种场景（例如，隐喻表达）和声觉失认症等患者病理中的说话人特异性线索结合效应的参考。

引言

人类的声流信息丰富，例如情绪 ^1,2、健康状况 ^3,4、生理性别⁵、年龄⁶，更重要的是，个人声音身份 ^7,8。研究表明，人类听众具有强大的能力，可以通过声音识别和区分同伴的身份，从而克服了声学空间中说话人身份基于平均值的表示的说话人内部差异⁹。这种变化是由声学操纵（基频和声带长度，即F0和VTL）引起的，它对应于没有明确的语用意图9（clear pragmatic intentions）⁹、情感韵律¹⁰（emotion prosodies）和传达说话者认知感的声音自信¹¹。行为实验集中在影响听众识别说话者表现的许多因素上，包括与语言相关的操作 ^{8,12,13，与}参与者相关的特征，如音乐体验或阅读能力 ^14,15，以及与刺激相关的适应，如倒退语音或非单词^16,17;更多信息可以在文献综述中找到^18,19。最近的一些实验调查了说话人身份表征的个体差异如何破坏识别准确性，考虑了包括高与低情绪表达¹⁶ 和中性与恐惧韵律⁵ 等方面;正如 A Review²⁰ 所建议的那样，更多可能的情况可供进一步调查。

对于第一个研究空白，该研究提出，说话人识别的神经学基础尚未充分探索说话人内部差异如何挑战听众的大脑活动。例如，在 Zäske 等人基于 fMRI 的说话人识别任务中，参与者的右颞后上回（pSTG）、右额下回/额中回（IFG/MFG）、右内侧额回和左尾状核在正确识别为老说话者与新说话者时表现出激活减少，无论语言内容相同还是不同²¹.然而，Zäske 等人早期的脑电图（EEG）研究并没有观察到当说话人身份变异通过不同的文本引入时，这种旧/新效应²²。具体来说，当听众遇到他们熟悉的训练有素的说话者表达相同的文本时（即，听到具有非变化语言内容的重播），在 Pz 电极上检测到一个更大的、较晚的正分量（LPC），范围为 300 到 700 毫秒，当说话者提供新文本时，不存在。

为了支持 Zäske 等人 ²¹ 的断言，本研究怀疑，尽管在事件相关电位（ERP）分析中训练和测试会话之间的语言内容存在差异，但仍可以观察到旧/新效应。这一基本原理源于这样一种观念，即在使用不同文本的情况下，Zäske 等人²² 中没有旧/新效应，这可能归因于在训练任务期间缺乏额外的检查会话，以确保彻底和有效的身份学习，正如 Lavan 等人所建议的²³。因此，该研究的首要目标是检验和验证这一假设。本研究旨在通过在训练-测试范式²² 中添加检查会话来测试这一点。

本研究旨在解决的另一个关键问题是在存在语音韵律的情况下说话人识别的稳健性。之前的行为研究表明，听众特别难以识别不同韵律的说话者，这表明韵律上下文的调节作用——听众在不同的训练测试韵律条件下表现不佳。本研究旨在通过让听众在自信或可疑的韵律中识别熟悉的说话者来测试这一点²⁴。本研究预计观察到的 ERP 差异将有助于解释语音韵律如何影响身份识别。

本研究的核心目标是调查旧/新效应在说话人识别中的稳健性，特别是检查在自信和可疑的韵律中识别说话者是否存在差异。Xu 和 Armony¹⁰ 使用训练-测试范式进行了一项行为研究，他们的发现表明，听众无法克服韵律差异（例如，受过训练以识别中性韵律的说话者，并在恐惧韵律上进行测试），并且只能达到低于机会水平¹⁰ 的准确性。声学分析表明，表达不同情绪状态的说话人与 VTL/F0 调制有关;例如，置信韵律的特征是 VTL 延长和 F0 降低，而可疑韵律^11,24 则相反。另一个证据来自 Lavan 等人的研究²³，该研究证实了听众可以适应说话者的 VTL 和 F0 变化，并形成基于平均值的谈话者表示。本研究调和了，从行为数据的角度来看，听众可能仍然能够识别出跨韵律说话者的身份（例如，受过训练可以在自信的韵律中识别一个人，但在可疑的韵律中进行测试;在准备中的单独手稿中报告）。然而，说话人识别的神经相关性，特别是 Zäske 等人²²观察到的旧/新效应的普遍性，仍然不清楚。因此，目前的研究致力于验证置信韵律与可疑韵律中旧/新效应的稳健性，作为测试的背景。

该研究引入了与以前旧/新效应研究研究范式的背离。虽然过去的研究侧重于旧/新说话者的识别如何影响感知，但本研究通过将两个置信水平（自信与怀疑）纳入范式（因此，一项 2+2 研究）来扩展这一点。这使我们能够在自信和可疑语音韵律的上下文中研究说话人识别。该范例可以探索旧/新效果的稳健性。在自信和可疑的语音环境中对记忆效应和感兴趣区域（ROI）的分析可作为这项调查的证据。

总而言之，该研究旨在更新对语音识别的脑电图相关性的理解，假设即使 1）语言内容不同，以及 2）存在自信与可疑的韵律，也可以观察到脑电图旧/新效应的扩大 LPC。本研究通过三步范式调查了这些假设。首先，在训练阶段，参与者在三种声音及其相应的名称之间建立了关联。随后，在检查阶段，他们的任务是从三名候选人中确定与声音相对应的名称。这种检查遵循 Lavan 等人 ²³ ，旨在克服对老说话人熟悉不足的问题，当训练和测试阶段的文本不同时，这会导致未观察到的旧/新效应⁶，并且说话者无法识别中性和恐惧韵律的说话者¹⁰。最后，在测试阶段，参与者在两个替代强制选择任务中区分了三个旧的和三个新的说话人声音，语音韵律表现为自信或可疑。使用 64 通道 EEG 系统收集 EEG 数据，并在分析前进行预处理。统计分析和事件相关电位（ERP）分析在 RStudio 中进行，而 MATLAB 用于脑地形图分析。

关于设计细节，本研究提出了一个说话者身份学习实验，该实验控制说话者的身高，这与 VTL 有关，并影响对谁在说话的印象²³。这方面也影响社会印象，例如感知支配²⁵ （perception dominance），这种更高层次的印象形成可能与解码说话人身份²⁶ （Decoding speaker identity）相互作用。

研究方案

上海外国语大学语言学研究所伦理委员会已批准了下述实验设计。本研究的所有参与者均已获得知情同意。

1. 音频库的准备和验证

音频录制和编辑
1. 按照制作以前的英文版本的标准程序创建一个中文声乐数据库，同时根据需要进行调整以适应中国¹¹ 的背景。对于这里的实验，使用了 123 个句子，其中包含三种类型的语用意图，即判断、意图和事实。为此，请参阅现有的英文语句语料库¹¹ 并创建具有其他本地化场景的本地化中文版本。
2. 招募 24 名说话者（12 名女性）用中性、可疑和自信的韵律表达这些句子，同时引用和改编过去录音任务的特定指示^11,24。
  1. 对于这里的演讲者，从上海外国语大学招募了 24 名标准普通话使用者，其中 12 名女性和 12 名男性，他们在普通话水平测试中达到 87 至 91 分，表现出普通话水平。男性参与者平均年龄为 24.55 ± 2.09 岁，受教育年限为 18.55 ± 1.79 岁，平均身高为 174.02 ± 20.64 厘米。女性平均年龄为 22.30 ± 2.54 岁，受教育年限为 18.20 ± 2.59 岁，平均身高为 165.24 ± 11.42 厘米。没有人报告言语听力障碍或神经或精神疾病。
3. 让演讲者将每篇课文重复两遍。在软件 Praat 48,000 中将采样率设置为²⁷ Hz。确保没有超过 10 分钟的流，因为 Praat 可能会发生故障，从而导致录制丢失。
4. 使用 Praat 将长音频流编辑为每个句子的剪辑。由于同一文本有两个重复，因此请选择最能代表预期韵律的版本作为目标句子。
音频选择
1. 使用 Praat 脚本²⁸ 将音频库标准化为 70 dB，采样率为 41,000 Hz。为此，请打开 Praat，加载声音文件，然后在 Objects （对象）窗口中选择它们。转到 Modify 菜单，选择 Scale intensity...，在设置窗口中将 New average intensity （dB SPL）设置为 70，然后单击 OK 应用标准化。
2. 招募 48 名独立听众，根据一个关于置信度的 7 李克特量表对每个音频进行评分:1 表示完全没有，7 表示非常自信¹¹。确保每个句子都由 12 名评分者评分。
3. 选择适合指定阈值的音频，主要原则是:确保 confidence-intentionding 音频的平均评分高于 doubtful-intentionting。确保这些阈值在相同生理性别的 12 个说话者中保持一致。例如，如果这些说话者表达了两个句子，每个句子都有自信和可疑的韵律，则必须观察到评分的显着差异。
4. 对于当前的实验设计，使用四个音频块，总共 480 个音频剪辑，每个块包含 120 个音频。
  1. 将 24 个说话者分成四组，每组 6 个，两组男性和两组女性，每组由相同生理性别的说话者组成。
  2. 对于每个组，根据感知评级（在同一文本上）选择音频剪辑，确保每个句子的平均置信度评级高于可疑评级。这四个区块在以下方面有所不同:1）组合的 6 个 talker - 他们的身份不同;2）一半的块由雄性表达，另一半由雌性表达;3）每个块中表达的文本不同。
5. 在选择过程开始之前，请记录每个扬声器的身高数据。使用此信息根据性别和身高将说话人分为四个独立的组。
  1. 总共有 24 名演讲者，男女各占一半。在每个性别组中，按身高对 12 个人进行排序。
6. 以交替的方式将这 12 个人分成两组;例如，从从 1 到 12 的排序列表中，个体 1、3、5、7、9 和 11 将形成一个组，另一半将形成第二个组。在这些组中，根据音频剪辑的身高定期为音频剪辑选择扬声器。
  注意:将身高作为控制因素是基于以下发现:表明与说话者身高相关的声学测量（VTL 和 F0）会影响说话者和说话者身份识别²³。

2. 脑电图数据收集编程

设计实验矩阵
1. 该研究采用主体内设计。准备一个测试会话，在调整培训课程的同时，根据每个主题进行呈现。准备四个积木，男声和女声者各占两块的一半。如图 1 所示，分配两个模块进行置信韵律训练并同时进行置信和可疑测试，以及进行可疑韵律训练和置信和可疑测试。
2. 通过参考现有的关于说话人识别和声音置信度感知的脑电图研究来确定功能屏幕的持续时间^22,29。用参与者^30,31 之间的拉丁方阵组织四个块的顺序。建议使用自定义 Python 编码来准备此类列表。请参阅 OSF³² 上 PsychoPy 程序的拉丁方阵矩阵和试用列表的代码片段。
3. 在每个间隔上从相同生物性别的身高序列中选择说话者。对于每个块，从最初的 24 位发言者中选择 6 位发言者，他们根据发言者报告的身高分为四个列表。
4. 选择 China's Hundred Family Surnames 中的前 24 个名字。将姓氏随机分配给表达音频的 24 位发言者，称呼他们为 Xiao （Junior Chinese in Junior） ZHAO。
5. 将所有相关信息放在一个电子表格中，其中包含说话者（1 到 24）、生理性别（男性或女性）、人名（来自 24 个姓氏）、置信度（自信或怀疑）、项目（文本索引）、评级置信度（感知研究的平均分数）、声音（例如，声音/1_h_c_f_56.wav）、
6. 正确识别三分之一（1、2 或 3），并正确识别旧和新（旧或新）。此外，请确保已添加名为 training_a、training_b、training_c、check 和 test 的列。
7. 将 training_a_marker、training_b_marker、check_marker 和 testing_marker 列添加到电子表格中，以发送 EEG 标记。用三位数字格式化这些标记，这意味着即使是数字 1 也会写成 001。
建立三个会话
注意:建议使用 PsychoPy 来构建程序，主要是通过使用构建器模式。构建器中的代码组件还用于将程序与 EEG 数据收集系统连接，平衡 F 和 J 按钮并计算要在屏幕上报告的准确性。
1. 首先，单击 Edit Experiment Settings 图标并将 Experiment Info 单元格调整为两个字段，即 Participant 和 Block。将两者的默认值保留为 blank。在这项研究中，在 40 名参与者中，每人有 4 个块，4/40 参与者再次通过某些块（如果检查会话中的准确率低于 10/12），重做率为 19 次重做计数/4 个块 x 40 名参与者 = 11.875%。
2. 训练课:重复身份学习 3 次
  1. 定义一个名为 Training_A 的循环，其中包含三个屏幕:注视、演示和空白。勾选 是试用版 选项。保留 nReps 1，将 Selected rows （选定行）和 Random Seed （随机种子）留空。按如下方式编写 Condition:
    "$"trials/{:}_training_a.xlsx.format（expInfor["参与者"]）， expInfo["块"]）
    其中 trials/ 是文件夹的名称;participant 是参与者的索引;Block 是当前区块的区块序列。
  2. 在"注视"屏幕中，添加一个文本组件，将"开始时间"设置为 0，"持续时间"设置为 2 （秒），并在"文本输入"窗口中放置一个 + 号，该窗口选择 "设置每次重复"。同样，在 Blank 屏幕中包含一个类似的 Text 组件，而 Text 单元格中没有信息，该组件持续 0.5 秒。
  3. 在 Presentation （演示）屏幕中，执行以下操作:
    1. 添加一个声音组件，将开始时间设置为 0，将停止持续时间留空，将声音单元格输入设置为 $Sound 并选择 设置每次重复。勾选 同步开始于屏幕。
    2. 添加另一个文本组件，其中 Start Condition 单元格输入了 Cross_for_Training_A.status == FINISHED。将 Stop Duration 单元格留空。文本单元格显示 $Name。选择 Set every repeat（设置每个重复）。
    3. 添加一个 Key_Response_Training_A，其中 Start Condition 为 Training_A.status == FINISHED。将 Stop Duration 单元格留空。勾选 Force End of Routine。对于 Allowed keys cell （允许的键单元格），添加空格;对于设置，请选择 Constant （常量）。
    4. 添加Cross_for_Training_A。其 Start Time 设置为 0;Stop Condition 单元格设置为 Training_A.status == FINISHED。在 Text ininputing（文本输入）窗口中放置一个 + 号，然后选择 Set Every Repeat（设置每次重复）。
  4. 按照与 Training_A 类似的过程准备Training_B。
3. 检查会话:选择正在发言的 3 个参与者的姓名。
  1. 定义一个名为 Check 的循环，其 Fixation （注视点）和 Blank （空白）屏幕与培训课程相同。
  2. 通过添加一个函数来收集来自键盘的反应，使用与训练不同的演示文稿。在 Presentation （演示）屏幕中，执行以下操作。
    1. 添加 Sound 组件并将其命名为 Checking_audio，将 Start Time 设置为 0，并将 Stop Duration 单元格留空。将 Sound 单元格设置为 $Sound，并启用 Set Every Repeat。
    2. 添加一个名为 Show_names 的文本组件，其中 Start Condition 使用命令编写:
      Checking_audio.status == 完成
      ，然后将 Stop Duration （停止持续时间）留空。将文本单元格设置为 $ People_Name，并启用 Set Every Repeat。
    3. 添加一个 Keyboard 组件并将其命名为 Key_Response_Check，Start Condition 为 Checking_audio.status == FINISHED，并将 Stop Duration 留空。选择 强制结束例程 ，并使用允许的键 num_1、num_2 和 num_3 剩余的 Constant 键，以便参与者可以使用数字键盘为他们的选择编制索引。
    4. 添加一个名为 Cross_Check 的固定点，Start Time 为 0 且 Stop Condition 输入为 Checking_audio.status == FINISHED。向 Text 单元格添加 +，这将选择 Set Every Repeat。
  3. 插入代码组件。在 Begin Experiment （开始实验）部分中，将 total_trials、current_correct、current_incorrect 和 current_accuracy 初始化为 0。在 Begin 例程中，将 user_input 定义为 None。在 Each Frame 部分中，从键盘收集用户的输入，并检查电子表格文件中存储的正确响应，使用键代码 user_key = Key_Response_Check.keys 提取 1、2 或 3。然后，使用它来衡量名为 Correctly_recognize_one_out_of_three 列中存储的 1,2 或 3。
  4. 退出循环后，确保出现反馈屏幕，并显示以下消息:check_feedbacks.text = f" 第二步完成。\n您已经在总共 {total_trials} 个句子中识别出说话者，\n正确识别了 {current_correct} 个说话者，\n错误地判断了 {current_incorrect} 个说话者。\n您的总体准确率为 {current_accuracy}%。\n\n如果低于 83.33%，请向实验者发出信号，\n您将重新熟悉上述三个扬声器。\n\n如果您满足要求，请按空格键继续。
4. 测试会话:对新旧讲话者进行分类
  1. 定义一个名为 Testing 的循环。它包括 Fixation （注视点）和 Blank （空白）（与培训课程中相同）以及 Presentation （演示）屏幕。
  2. 准备演示部分，如下所示。
    1. 添加声音播放组件 Testing_sound，其设置与训练中的设置相同。添加一个 Key_response_old_new 组件，该组件的 Start Condition 为 Testing_sound.status == FINISHED，将 Stop Duration 留空，然后勾选 Force End of Routine。在 Allowed keys （允许的键）中，包括 f 和 j，然后选择 Constant （常量）。
  3. 添加一个名为 Testing_old_new 的文本组件，其中 Start Condition 为 Testing_sound.status == FINISHED，将 Stop Duration 留空，并将 Text 单元格留空，并显示 Set Every Repeat - 文本将由后面的代码组件定义。
  4. 添加一个Cross_Testing，开始时间为 0，停止条件为 Testing_sound.status == FINISHED，并在 Set Every Repeat 打开时在文本单元格中添加一个 +。
  5. 添加 Code 组件，如下所述。
    1. 在 Begin Experiment 部分中，初始化试验总数（total_trials_t）、正确试验数（correct_trials_t）和错误试验数（incorrect_trials_t）。
    2. 在 Begin Routine 部分中，从条件检查开始，以根据参与者的 ID 号（expInfo["Participant"]）确定演示格式。如果 ID 号为奇数，请确保识别新旧刺激的说明以一种格式显示，即（"Old（F） New（J）"）或（"New （F） 'Old （J）"）。
    3. 在此循环之外，有一个带有 code 组件的反馈屏幕。确保每个帧部分都显示为:testing_feedbacks.text = f"您已经在总共 {total_trials_t} 个句子中识别出说话人，\n正确识别了 {correct_trials_t} 个说话人，\n错误地判断了 {incorrect_trials_t} 个说话人。\n您的总体准确率为 {accuracy_t:.2f}%。\n请按空格键结束当前部分。
5. 如下所述，将程序与 Brain Products 系统连接。
  1. 通过将标记设置为每个音频的开始来同步标记。在循环Training_A开始之前，在代码组件 Begin Experiment 中定义一个 EEG 标记发送协议，如下所述。
    1. 导入基本的 PsychoPy 组件，包括 parallel 模块，并使用 0x3EFC 配置并行端口的地址。
    2. 建立 sendTrigger 函数来传输 EEG 标记。该函数在验证是否为 NumPy 整数后，通过 parallel.setData（triggerCode）通过并行端口发送指定的 triggerCode，并根据需要进行转换。
    3. 在使用 parallel.setData（0）将触发通道重置为 0 之前，添加 16 毫秒的短暂等待以确保捕获标记。
  2. 将标记发送到 EEG 记录器使用 sendTrigger（）。在括号中包含相应列的确切名称。在本研究中，有 training_a_marker、 training_b_marker、 check_marker 和 testing_marker - 请参阅电子表格中先前定义的列。

3. 收集脑电数据

场地准备
注意:至少有两台计算机可用于执行数据收集。一种是连接脑电系统，另一种是收集行为数据。建议构建另一个屏幕来镜像与行为数据相关的计算机。该系统由放大器和无源 EEG 帽组成。
1. 在这项研究中，招募没有任何报告言语听力障碍的参与者。确保参与者没有任何精神或神经系统疾病。共有 43 名参与者被选中，其中 3 名由于脑电图标志物的对齐问题而被排除在外。在其余 40 名参与者中，有 20 名女性和 20 名男性参与者。女性年龄为 20.70 ± 0.37 岁，而男性年龄为 22.20 ± 0.37 岁。他们的受教育年限为女性 17.55 ± 0.43，男性为 18.75 ± 0.38。
2. 分配参与者 ID 并邀请参与者在参与实验前一小时内洗头和擦干头发。
3. 将电解质凝胶和研磨性电解质凝胶以 1:3 的比例混合，加入少量水。用勺子在容器中均匀搅拌混合物。
4. 准备细棉签和干燥的脑电图帽。
5. 让参与者舒适地坐在椅子上，并告诉他们实验者将戴上脑电图帽。说明对人体无害并增强大脑信号接收的导电膏使用棉签涂抹在帽子的孔上。
6. 向参与者提供有关实验任务的说明和实验的知情同意书。获得参与者的签名后，继续进行准备阶段。
7. 将 EEG 帽连接到放大器，放大器又连接到 EEG 数据采集计算机。本研究使用无源帽，因此有必要使用额外的监视器来检查 64 个电极上的颜色指示器。
8. 打开 BrainVision Recorder³³ 并导入已定义录制参数的自定义工作区文件。单击 Monitor 以检查阻抗。颜色条（从红色到绿色）受设定的电阻水平影响，目标阻抗范围为 0 至 10 kΩ。
准备参与者
1. 让参与者在椅子上坐直。为参与者的头部选择合适尺寸（尺寸 54 或 56）的凝胶基无源电极系统，并确保电极系统根据 10-20 系统^28,34 正确安装。
2. 首先将一次性棉签浸入导电膏中，然后将其涂抹在帽子的孔中，确保摩擦参与者的头皮。电极的相应指示灯在 EEG 数据收集计算机上变为绿色表示它已成功收集最佳数据。
3. 在屏幕上所有电极的指示色（除了两个独立侧的电极）变为绿色后（在 Monitor 屏幕上），将导电膏涂抹在侧电极上。将左电极贴在参与者左眼附近，在下眼睑区域，将右电极贴在右太阳穴附近。
4. 一旦所有电极都呈绿色，将弹性网放在参与者的头部，以帮助 EEG 帽更牢固、更稳定地贴合参与者的头部。
5. 为参与者配备有线耳机（实验室中使用的特定气导耳机）。关闭电磁屏蔽门，并通过允许内部和外部通信的麦克风引导参与者的操作。此外，通过外部监视器监控参与者的动作，例如提醒他们不要大幅移动身体;还可以通过行为数据监视器监控参与者的行为任务进度。
6. 要求参与者佩戴通过音频接口连接到行为采集计算机的耳机。
独立逐块运行 Experiment
1. 在脑电图数据收集计算机上，打开 BrainVision Recorder 并单击监视器以仔细检查阻抗和 Stat/Resume Recording 并开始记录。创建一个新的 EEG 记录文件并相应地命名，例如 14_2，这意味着参与者编号 14 的第二个块。
2. 打开 PsychoPy 程序的 Run experiment（绿色按钮）进行行为实验，输入参与者的 ID（例如 14）和相应的区块号（例如 2），然后单击 OK 开始实验。
3. 在参与者在行为数据计算机上完成检查阶段后，密切监控屏幕上报告的数据的准确性。如果准确率低于 10 分（满分 12 分），请让参与者重做训练，直到达到所需的准确率，然后再进入测试阶段。
4. 密切关注参与者完成块的测试阶段后，屏幕上报告的旧识别与新识别的最终准确性。如果准确率非常低（例如，低于 50%），请向参与者询问可能的原因。
脑电图后实验
1. 参与者完成所有模块后，邀请他们洗头。用牙刷去除残留的导电膏，注意不要弄湿信号连接器，并将其包裹在塑料袋中，以清洁 EEG 帽。清洁后，将 EEG 帽挂在通风良好的地方晾干。
2. 将 EEG 和行为数据复制到便携式硬盘驱动器上，确保 EEG 数据和行为数据对应。例如，EEG 数据使用两个文件 14_2.eeg 和 14_2.vhdr 命名，行为数据以 14_2.xlsx 文件命名。

4. 脑电数据处理

注意:以下描述涉及使用 MATLAB 和 RStudio 进行批处理的 EEG 数据预处理、统计分析和可视化。

使用 MATLAB 预处理 EEG 数据
1. 合并 EEG 和行为数据
  1. 鉴于如果参与者没有达到所需的 10/12 或以上的准确性，他们可能需要重做任务，这会影响脑电图和行为数据的命名，例如，14_2.vhdr 可能会变成 14_2（1）.vhdr，通过删除 14_2 以外的字符来标准化文件名。在遍历每个参与者的数据时，将数据文件命名为 sub、stripped_filename、.set，从而自动保存 sub14_2.set（包含元数据和指向 EEG 数据集的链接）和 sub10_1.fdt（实际的 EEG 数据）等文件。这会将 14_2.vhdr 和 14_2.eeg 文件重命名为 sub14_2.fdt 和 sub14_2.set。
  2. 使用 EEG = pop_mergeset（）函数将每个参与者的数据合并到一个文件中，按时间顺序而不是块 1、2、3、4 的数字顺序组合不同的块数据。
  3. 根据时间顺序将多个行为数据文件合并到每个参与者的电子表格中，这对于以后的同步至关重要。
  4. 自定义代码以同步 EEG 信号中的试验与行为信号中的试验。例如，testing_list = [37:108， 145:216， 253:324， 361:432] 将对应于四个块的 EEG 标记点。
  5. 将行为数据电子表格转换为 .txt 文件，从而生成一个包含行和列数据的表格。列名称包括步骤 2.1 中提到的大部分列名。
  6. 通过使用类似于以下内容的代码将信息添加到 EEG 数据中来重新定义 EEG 数据的内容，例如 EEG = pop_importepoch（EEG， behav_txt_path， {'Epoch'， 'Sound'， 'Speaker'， 'Gender'， 'Confidence_level'， 'old_new_speaker'， 'same_different_prosody'， 'Response'}， 'timeunit'， 1， 'headerlines'， 1）。此过程通过批处理合并每个参与者的相应 EEG 和行为数据。
    注意:响应值 1 和 0 来自行为数据，其中 1 表示正确判断，0 表示判断错误。
2. 预处理 EEG 数据
  1. 对于参考和重新参考^29,35，调用 pop_reref 函数以将 EEG 数据重新参考 FCz 电极，确保每个信号都是相对于 FCz 电极计算的。使用 pop_reref 功能将 EEG 数据重新引用到通道 28 和 29，代表位于后头皮的双侧乳突电极，确保每个信号都是相对于双侧乳突计算的。
  2. 使用 EEG = pop_eegfiltnew（EEG， []， 0.1， 16500， 1， []， 0）设置高通滤波器（用于消除线性趋势），并使用 EEG = pop_rmbase（EEG， [-500 0]）在 -500 到 0 ms 之间执行基线校正。
  3. 手动检查不良试验:使用 EEGLAB 导入数据后，选择 Plot，然后单击 Channel Data （scroll），并将 Value 的最大值设置为 50。
  4. 删除带有可见肌肉和其他类型的伪影的试验，并标记不良电极:将鼠标悬停在通道波形上将显示其电极。记录所有坏电极，返回 EEGLAB 主页，在"工具"下选择 "插值电极 "，选择 "从数据通道中选择"，选择需要插值的电极，然后单击"确定"确认。将文件保存到新文件夹。
  5. 使用 EEG = pop_runica（EEG， 'extended'， 1， 'pca'， 30， 'interupt'， 'on'）进行主成分分析（PCA）。手动拒绝有问题的 ICA，去除眼睛、肌肉和通道噪声中的伪影，然后保存文件。
  6. 使用 pop_eegthresh 函数设置从 -75 到 +75Hz 的阈值，以删除极值 34,36,37。
  7. 应用pop_eegfiltnew并将参数（第三个输入参数）设置为 30 以保留 30Hz 和低于³⁸ 的频率。
  8. 自定义代码以列出所有感兴趣的条件，包括 old_new_speaker = {'old'， 'new'};same_different_prosody = {'相同'， '不同'};Confidence_level = {'c'， 'd'};和 Response = {'1'， '0'}。然后，组合这些条件以创建 sub1_new_different_c_0 等数据组合，并将它们保存为扩展名为 txt 的文件。
使用 RStudio 进行 ERP 分析
1. 要组织数据，请将其转换为长格式。将所有 .txt 文件导入 RStudio 并使用 rbind 函数将每个临时数据帧附加到 alldata，从而创建一个包含所有文件数据的大型数据帧。为了准确起见，请将 Row column in all data （所有数据中的行列）重命名为 Time （时间）。利用熔解函数将所有数据从宽格式转换为长格式（Data_Long），其中每个观测值占据一行，包括所有相关条件和通道信息。
2. 使用 dplyr 包中的 filter 函数选择符合特定条件的数据:判断为 1。Source 是 h。内存要么是旧的，要么是新的。韵律是 c 或 d。
3. 根据电极通道定义区域，如下所示:左前（F3、F7、FC5、F5、FT7、FC3、AF7、AF3）。左中（C3、T7、CP5、C5、TP7、CP3）。左后（P3， P7， P5， PO7， PO3）。内侧前部（Fz、AFz、FC1、FC2、F1、F2、FCz）。内侧中央（CP1、CP2、Cz、C1、C2、CPz）。内侧后（Pz， O1， Oz， O2， P1， POz， P2）。右前（FC6、F4、F8、FC4、F6、AF4、AF8、FT8）。右中央（CP6、C4、T8、CP4、C6、TP8）。右后（P4， P8， PO4， PO8， P6）。将这些区域分为前部、中央和后部区域。
4. 保存工作区以供后续数据加载。要保存，请使用 setwd（）;要加载，请使用 load（）。
统计分析
1. 对于所有电极的脑电图数据分析，过滤数据集以仅包含相关数据点，其中判断为 1，来源为 h，内存为旧或新，主题不为空，时间在 400 到 850 毫秒之间。
2. 根据预定义的映射更新感兴趣区域（ROI）的名称。例如，Left anterior、medial anterior 和 right anterior 代表 anterior。
3. 使用 lme4 包³⁹ 中的 lmer 对数据进行线性混合效应模型拟合，电压作为响应变量，内存和 ROI 作为固定效应，包括主题和通道的随机截距:fit_time_window <- lmer（电压 ~ 内存 * ROI + （1|主题）+（1|通道），data=DATA）。将 DATA 重复替换为 combined、confidencely only 和 doubtful-only 数据。请参阅 OSF³² 上的示例代码。
  1. 从拟合模型中获得分析结果:anova（fit_time_window）、eta_squared（fit_time_window）和 emmeans（fit_time_window， specs = pairwise ~ Memory * ROI， adjust = "Tukey"）。
4. 对于 Pz 中的 EEG 数据分析，在过滤数据集时，请按照与上述相同的步骤操作，但也要添加条件 Channel == 'ChPz'。重复上述过程，但使用 lmer（Voltage ~ Memory + （1|Subject））分析 400 到 850 毫秒的 Pz 数据。
5. 要在 Pz 中绘制 ERP（在组合、仅置信和仅可疑数据集上重复），请筛选数据集以仅包含相关数据点，其中判断为 1、源为 h、内存为旧或新且主题不为空。
  1. 定义一个包含多个电极点（包括 Pz）的向量，并在它们前面加上 Ch 以匹配数据中的通道命名约定。选择 Pz out。
  2. 指定 ERP 分析的时间窗口:time_window <- c（400， 850）。定义感兴趣的电极，在本例中为 Pz。循环遍历所选电极并创建绘图，如下所述。
    1. 使用滤波器（Channel == k）过滤 Pz 电极的数据，以隔离相关数据点。
    2. 使用 interaction（current_channel_data$Memory）根据 Memory 条件为线条类型和颜色创建交互因子，并将条件标记为 Old （旧）和 New （新）。
    3. 使用 summarySEwithin 函数计算电压测量值随时间变化的汇总统计数据和标准误差，将电压指定为测量变量，将时间指定为内部变量。
    4. 通过使用带有参数 xmin、xmax、ymin 和 ymax 的 geom_rect 为指定时间窗口添加背景，生成 Pz 电极的 ERP 图。包括带有 geom_ribbon 的标准误差带，用 geom_line 绘制平均电压。使用 scale_x_continuous、scale_y_reverse、scale_linetype_manual、scale_fill_manual 和 scale_color_manual 等功能自定义绘图外观和标签。
  3. 将 theme_minimal 用于基本主题，并使用主题进一步自定义文本大小和图例位置。
使用 MATLAB 进行地形绘图
1. 导入数据并设置条件，定义 1 到 40 的被测对象列表，subject_list = 1:40。定义两个空元胞数组来存储数据，以便正确分类新旧条件:"human_timelocked_old_correct = {};human_timelocked_new_correct = {}。遍历主题列表，导入每个主题的数据，并根据条件对其进行筛选。
2. 从原始 EEGLAB 数据中提取事件信息，仅选择 Response （响应）等于 1 的事件。选择 Source 等于 h 的试验，并相应地更新数据结构。将新旧条件的数据分开，仅限于使用 Source h 进行正确的试验，并执行时间锁定分析。
  1. 计算新旧条件的总平均值: cfg = [];grandavg_old_correct = ft_timelockgrandaverage（cfg， human_timelocked_old_correct{:}）;grandavg_new_correct = ft_timelockgrandaverage（cfg， human_timelocked_new_correct{:}）.
3. 执行如下所述的排列测试。
  1. 使用指定的布局文件定义邻居配置: cfg_neigh = [];cfg_neigh.method = '距离';cfg_neigh.layout = 'path_to_layout_file';邻居 = ft_prepare_neighbours（cfg_neigh）。
  2. 配置排列测试的参数，包括设计矩阵和统计方法:cfg = [];cfg.method = '蒙特卡洛';cfg.statistic = 'ft_statfun_indepsamplesT';cfg.correctm = '集群';cfg.clusteralpha = 0.05;cfg.clusterstatistic = '最大总和';cfg.minnbchan = 2;cfg.tail = 0;cfg.cluster尾巴 = 0;cfg.alpha = 0.05;cfg.num随机化 = 1000;cfg.neighbours = 邻居;cfg.design = [2*ones（1， length（human_timelocked_new_correct）） ones（1， length（human_timelocked_old_correct））];cfg.ivar = 1.此外，请参阅以下链接（https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/）有关使用 Fieldtrip⁴⁰ 的教程。
  3. 对新旧条件的平均数据执行统计测试:stat = ft_timelockstatistics（cfg， human_timelocked_old_correct{:}， human_timelocked_new_correct{:}）。
4. 执行自定义区间绘图，如下所述。
  1. 计算两个条件之间的差值: cfg = [];cfg.operation = '减';cfg.parameter = '平均值';grandavg_difference = ft_math（cfg， grandavg_old_correct， grandavg_new_correct）.
  2. 定义时间窗口:time_windows = { [0.500， 0.800] % LPC}。
  3. 创建一个图窗，并使用 ft_topoplotER（cfg_plot， grandavg_difference）绘制条件之间的差异。

结果

经典的旧/新效应的特点是，当测试会话的语音内容与训练会话的语音内容相匹配时，听者在 Pz 电极上的大脑活动显着增加（在 300 到 700 毫秒之间），尤其是在旧说话者条件下与新说话者条件相比²²。该协议揭示了这种效应的更新版本:首先，与 400 到 850 毫秒之间的新说话者条件相比，在 Pz 电极和整个大脑区域中观察到更大的正趋势。其次，测试环节中的语音内容将与培训课程中的语音内容不同。第三，预计置信和可疑的语音韵律条件都会表现出这些趋势。最后，在测试过程中，旧/新效应在可疑条件下更为明显（图 2）。

使用公式

lmer（电压 ~ 内存 * ROI + （1|主题） + （1|频道））

表明内存类型（旧与新）和 ROI 都有主要影响，内存和 ROI 之间存在交互作用（表 1）。进一步的事后分析显示，在所有大脑区域，旧病症表现出比可疑病症更大的正电压，包括前部、中央和后部区域（表 2）。比较 beta 值表明，旧/新效应在中央电极和后部电极比前电极更明显:对于组合数据集 - 前部 β = .40，中央 β = .63，后部 β = .60;对于置信数据集 - 前β = .61，中央 β = .63，后 β = .76，对于可疑数据集 - 前β = .44，中央 β = .87，后 β = .69。在可疑韵律情况下，中央电极和后电极的参与最为明显。

使用公式

lmer（电压 ~ 内存 + （1|主题））

我们确认了 Pz 电极中存在旧/新效应。在 Pz 电极上，观察到记忆（旧与新）的主效应（F（1， 69341.99） = 120.46，p < .001，η ²_p = .002，β = .425，SE = .039，z 比 = 10.98，p < .001）。在仅置信条件下，在 Pz 电极处观察到记忆（旧与新）的主效应（F（1， 34318.32） = 5.04， p = .025， η²_p = .0001， β = .125， SE = .056， z 比 = 2.25， p = .025）。在仅可疑的情况下，在 Pz 电极处观察到记忆（旧与新）的主效应（F（1， 34993.20） = 317.02，p < .001，η ²_p = .009，β = .914，SE = .051，z 比 = 17.81，p < .001）。

figure-results-1450
图 1:每个区块的数据收集工作流程。 在（A）训练中，听众听到一个声音，并将随后出现的名称与它相关联。需要记住三个老说话的人。程序中出现的语言最初是中文。A 和 C 表示 Xiao （Junior） ZHANG 等名称。在（B）检查中，听众听到声音后，通过按数字键盘上的 1、2 或 3 来识别说话者的姓名，将语音身份与小赵等名字进行关联。在（C）测试中，听众听到一个声音并将其分类为由旧说话人或新说话人说出。正如（D）韵律设计中所示，听众学会三个说话者只自信或怀疑地表达，但听到六个说话者既自信又怀疑。版本 A 或 B 的外观是互斥的。如果版本 A 与男性或女性说话者一起出现，则版本 B 将与相应的女性或男性说话者一起出现。请单击此处查看此图的较大版本。

figure-results-2154
图 2:旧/新效应。 （A、B、C）图分别显示了韵律组合、仅置信和仅可疑情况下 Pz 电极在 400 至 850 ms 范围内的灰色指示 ERP。（D、E、F）图说明了韵律组合、仅置信和仅可疑条件的所有电极（用黑点表示）的旧负新条件的地形。请单击此处查看此图的较大版本。

上下文	脑区	F 值	Pr（>F）	Eta2_partial
组合的	记忆	9938.98	.00	.00
	投资回报率	4.13	.02	.13
	内存:ROI	182.37	.00	.00
自信	记忆	7291.22	.00	.00
	投资回报率	3.60	.03	.12
	内存:ROI	41.94	.00	.00
怀疑	记忆	8333.38	.00	.00
	投资回报率	4.65	.01	.15
	内存:ROI	290.15	.00	.00

表 1: 跨大脑区域旧/新效应的 LMER 分析结果:组合、自信和可疑数据集。使用事后分析，* 在 p < .05 时显著，** 在 p < .01 时显著，*** 在 p < .001 时显著。

上下文	脑区	反差	估计	硒	z	p
组合的	前面的	旧-新	.40	.01	43.70	.00***
	中央	旧-新	.63	.01	61.74	.00***
	后面的	旧-新	.60	.01	67.51	.00***
自信	前面的	旧-新	.61	.01	46.63	.00***
	中央	旧-新	.63	.01	43.22	.00***
	后面的	旧-新	.76	.01	59.95	.00***
怀疑	前面的	旧-新	.44	.01	35.95	.00***
	中央	旧-新	.87	.01	64.05	.00***
	后面的	旧-新	.69	.01	57.75	.00***

表 2: 跨大脑区域旧/新影响的事后测试结果:组合、自信和可疑数据集。使用事后分析，p < .001 时显著（***）。

讨论

该研究提出了一个用于 EEG 数据收集和分析的管道，重点是识别以前学习的说话人身份。本研究解决了学习和识别阶段之间的差异，包括语音内容²² 和韵律¹⁰ 的差异。该设计适用于一系列研究领域，包括心理语言学，例如代词和隐喻处理⁴¹。

训练测试范式是一种经典的实验设计，用于评估参与者在特定主题上的学习成果，例如语音学习^42,43。该范式评估参与者学习特定信息的情况（反映在准确性上）¹⁰。它允许研究人员在受控的实验条件下逐步引入变量，例如在训练和测试阶段使用不同的韵律，以了解它们对语音识别准确性的影响，例如，VTL/F0 调制语音²³，恐惧与中性¹⁰，或怀疑与自信在这项研究中。

但是，该范例有局限性。学习环境和测试环境之间的差异会影响实验结果的有效性，因为受控学习条件可能无法反映更多可变的测试条件。例如，训练课使用单个韵律而不是成比例的差异，例如 30% 与 70%⁴⁴。为了解决这种不平衡问题，确保更多样化的学习环境可以更好地复制现实生活中的场景，即说话人在与听众互动时使用不同的韵律。此外，本研究承认，实验设计的复杂性，涉及多个阶段和复杂的编程（使用 R Studio、MATLAB 和 Python 等工具），对于新手来说可能具有挑战性。

主要见解强调了充分熟悉和检查阶段的重要性。Xu 和 Armony 的研究强调，如果没有足够的训练和超过¹⁰ 的机会等级的检查，听众很难识别老的说话者身份。此外，Zaske 等人发现 LPC 旧/新效应仅在重复相同的文本时出现，而不是在不同的文本时出现²²。在这项研究中，检查阶段的实施揭示了旧/新 ERP 效应的持久性，即使有不同的文本刺激，支持 fMRI 研究主张²¹。该研究表明，对于基于训练测试的范式，插入检查会话至关重要。它允许听众对说话者的声学身份形成强烈的印象，将说话者与特定符号（例如姓名²³）相关联。如果对说话人的表征没有充分的了解，听众可能难以适应说话人内部的变化¹⁰。

这项研究还观察到韵律作为说话人识别的结合线索的作用⁴⁵。与以前认为韵律可能会阻碍老说话者识别的观点相反，这项研究发现，在自信和可疑的韵律条件下存在旧/新效应。这种稳健的效果表明韵律在说话人识别中的调制作用。进一步的分析揭示了不同韵律条件下前区激活的差异。与可疑韵律相比，自信韵律在前部区域引起较低水平的旧/新效应。这一发现表明，由于声带长度延长和基频降低，自信的语音可能会使说话者识别更具挑战性，从而可能导致听众的注意力增加^11,29。

本研究的设计可以为未来对患者群体识别障碍的调查提供信息，例如面容失认症或声觉失认症^{患者 46,47}。此外，为适应注意力持续时间较短的参与者（例如患有自闭症谱系障碍的个体⁴⁸）而进行的修改可以提高研究的可及性。

此外，该范式超越了说话人识别，研究了心理语言学研究中的代词加工和隐喻理解。Coopmans 和 Nieuwland⁴¹ 展示了神经振荡同步模式如何在回喻理解中区分前因激活和整合，这与本研究对身份相关线索的探索一致。在本文中，提示包括交际风格（例如，字面或讽刺陈述）、词序（主语-宾语-动词（SOV）或宾语-主语-动词（OSV）句子结构 44,45,49,50）和声乐表达类型（自信与可疑韵律）。

披露声明

没有需要披露的信息。

致谢

这项工作得到了中国自然科学基金（第 31971037 号资助）的支持;上海市教育发展基金会和上海市教育委员会支持的曙光计划（批准号:20SG31）;上海市自然科学基金（22ZR1460200）;上海外国语大学导师指导项目（2022113001）;和国家社科基金重大计划（批准号 18ZDA293）。

材料

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

参考文献

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

This article has been published

Video Coming Soon

Keep me updated: