Method Article
可视化世界范式监视参与者在视觉工作区中的眼球运动, 因为他们正在听或说口语。此范式可用于调查各种心理语言学问题的在线处理, 包括语义复杂的语句, 如析取语句。
在使用视觉世界范式的典型眼动追踪研究中, 参与者在视觉工作区中的物体或图片的眼球运动通过眼动仪记录, 因为参与者产生或理解一种描述并发视觉的口语语言。世界。这种范式具有很高的通用性, 因为它可以在广泛的人群中使用, 包括那些无法阅读和/或不能公然给予他们行为反应的人, 如 preliterate 儿童、老年人和病人。更重要的是, 该范式对语音信号的细粒度操作非常敏感, 它可用于研究多层次语言理解中大多数主题的在线处理, 如细粒度声学语音特征、词的属性和语言结构。本文中描述的协议阐释了如何进行典型的视觉世界眼动跟踪研究, 并举例说明如何利用可视化世界范式来探索一些语义复杂语句的在线处理。
口语是一种快速、持续的信息流, 它马上就会消失。这是一个挑战, 实验研究这个时间, 快速改变语音信号。视觉世界范式中记录的眼球运动可以用来克服这一挑战。在使用视觉世界范式的典型眼动追踪研究中, 参与者对显示的图片或视觉工作区中的真实对象的眼球移动会在他们收听或生成描述视觉世界内容的口头语言时受到监控1 ,2,3,4。这一范式背后的基本逻辑或关联假说是, 理解或规划话语将 (公然或秘密地) 将参与者的视觉注意力转移到视觉世界中的某一特定对象上。这种注意力转移将有很高的可能性, 以启动一个眼跳眼球运动, 使参与的区域进入中心凹视觉。有了这个范式, 研究人员打算确定在什么时间点, 关于语音信号中的一些声学标志, 参与者的视觉注意力的转移发生, 由眼跳眼球运动到对象或视觉上的图片测量世界。然后, 在眼跳眼动与语音信号相关的时间和位置, 用于推断在线语言处理。视觉世界范式可以用来研究口语理解1,2和生产5,6。这篇方法论文章将侧重于理解研究。在使用视觉世界范式的理解研究中, 在视觉显示中, 参与者的眼球运动会受到监控, 因为他们听着关于视觉显示的说话话语。
在历史上设计了不同的眼动追踪系统。最简单、最便宜、最便携的系统只是普通的摄像机, 它记录了参与者眼睛的图像。然后通过视频录制的逐帧检查手动编码眼球运动。然而, 这种眼动仪的采样率相对较低, 编码过程耗时。因此, 现代商业眼动追踪系统通常使用光学传感器测量其轨道7、8、9的方向。要了解现代商业眼动追踪系统的工作原理, 应考虑以下几点。首先, 要正确测量中心凹视觉的方向, 红外照明器 (通常与波长约为 780-880 nm) 通常沿或关闭相机的光轴, 使瞳孔的图像成绩亮或暗比周围的虹膜。瞳孔和/或瞳孔角膜反射 (通常是第一个浦肯野图像) 的图像, 然后用于计算在其轨道的眼睛的方向。其次, 视觉世界中的凝视位置实际上不仅取决于头部的眼睛方向, 还取决于视觉世界的头部方向。为了准确推断眼睛方向的视线, 眼睛追踪器的光源和相机都固定在参与者头部 (头部安装的眼动仪) 上, 或固定在视觉世界 (表安装或远程眼动追踪器)。第三, 参与者的头部方向必须固定在视觉世界上, 或者如果参与者的头部可以自由移动, 则计算得到补偿。当远程眼动仪在无头移动模式下使用时, 通常会通过在参与者前额放置一个小贴纸来记录参与者的头部位置。然后从眼睛方向减去头部方向, 以检索视觉世界中的凝视位置。第四, 然后需要校准和验证过程, 以将眼睛的方向映射到视觉世界中的视线。在校准过程中, 记录了来自已知目标点的参与者的固定样本, 以将原始眼数据映射到视觉世界中的凝视位置。在验证过程中, 参与者的目标点与校准过程相同。在视觉世界中, 通过标定结果与固定目标的实际位置之间存在的差异来判断标定的准确性。为了进一步确认测绘过程的准确性, 通常在每次试验中应用漂移检查, 其中单个固定目标被提交给参与者, 以测量计算的固定位置与实际位置之间的差异。当前目标。
视觉世界研究的主要数据是在视觉世界中以眼动仪的采样率记录的凝视位置的流, 范围在整个或部分的试验持续时间内。在视觉世界研究中使用的从属变量通常是参与者在特定时间窗的视觉世界中特定空间区域中的样本比例。要分析数据, 首先选择时间窗口, 通常称为感兴趣的期间。时间窗口通常在听觉输入中显示某些语言事件时被时间锁定。此外, 还需要将视觉世界分成几个感兴趣的区域 (ROIs), 其中每一个都与一个或多个对象相关联。其中一个区域包含对应于正确理解口语的对象, 因此通常被称为目标区域。可视化数据的一种典型方法是固定比例图, 其中在时间窗口的每个素材箱中, 每个感兴趣区域的样本的比例平均在参与者和项目之间。
使用从视觉世界中获得的数据, 可以回答不同的研究问题: a) 在粗粒度上, 是受不同听觉语言输入影响的视觉世界中的参与者眼球运动吗?b) 如果有效果, 在审判过程中, 效果的轨迹是什么?它是线性效应还是高阶效应?和 c) 如果有效果, 那么在细粒度水平, 什么时候是最早的时间点, 这样的效果出现, 这一效果持续多久?
要对结果进行统计分析, 应考虑以下几点。首先, 响应变量,即固定的比例, 是低于和高于有界 (介于0和1之间), 这将遵循多项式分布而不是正态分布。此后, 传统的基于正态分布的统计方法, 如 t-检验、方差分析和线性 (混合效应) 模型10, 不能直接利用, 直到比例转换为无界变量, 如使用经验 logit 公式11或已替换为无界依赖变量, 如欧氏距离12。不需要假设正态分布的统计技术, 如广义线性 (混合效应) 模型13也可以使用。其次, 为了探索观察效果的变化轨迹, 需要将时间序列的变量添加到模型中。这个时间序列变量最初是眼睛跟踪器的采样点重新调整到语言输入的起始位置。由于变化的轨迹通常不是线性的, 所以时间序列的高阶多项式函数通常被添加到 (广义) 线性 (混合效应) 模型中,即增长曲线分析14。此外, 参与者在当前采样点的眼位置高度依赖于以前的采样点, 特别是当记录频率较高时, 导致自相关问题。为了减少相邻采样点之间的自相关, 原始数据通常是向下采样或装箱的。近年来, 广义加法混合效应模型 (大卫甘姆) 也被用于处理自相关误差12、15、16。不同的研究中, 箱的宽度各不相同, 从几毫秒到几毫秒不等。研究可以选择的最窄的 bin 受特定研究中使用的眼动仪采样率的限制。例如, 如果眼动仪的采样速率为 500 Hz, 则时间窗口的宽度不能小于 2 ms = 1000/500。第三, 当对每一个感兴趣的时间段重复应用统计分析时, 应处理这些多重比较引起的 familywise 误差。正如我们前面所描述的, 轨迹分析告诉研究员, 在粗粒度上观察到的效果是否与时间的变化有关, 但不显示观察到的效果何时开始显现以及观察到的时间效果持续。为了确定观察到的差异开始偏离时的时间位置, 并计算观察到的效果持续的时间周期, 必须对每个时间段重复应用统计分析。无论使用何种统计方法, 这些多项比较都会引入所谓的 familywise 错误。familywise 错误传统上是通过 Bonferroni 调整17修正的。最近, 一种称为非参数置换试验的方法, 最初用于神经影像18 , 已应用于视觉词范式19控制 familywise 错误。
使用视觉世界范式的研究人员打算从视觉世界中的参与者的眼球运动中推断出某些口语的理解。为了确保这一推论的有效性, 其他可能影响眼球运动的因素应该排除在外或被控制。以下两个因素是需要考虑的常见问题之一。第一个因素涉及参与者的解释性固定的一些系统模式独立于语言输入, 如倾向于注视左上样方的视觉世界, 和移动的眼睛在水平方向比在更容易垂直方向等12、20确保观察到的固定模式与对象相关, 而不是对象所在的空间位置, 应平衡对象的空间位置在不同的试验或不同的参与者之间。影响参与者眼球运动的第二个因素是视觉世界中对象的基本图像特征, 如亮度对比度、颜色和边缘方向等21。为了诊断这一潜在的混淆, 视觉显示通常在口语开始之前或在口头语言的关键声学标记开始之前呈现, 约1000毫秒. 在时间段内从起始测试图像到测试音频的起始, 语言输入或语言输入的消歧义点尚未听到。在不同条件之间观察到的任何差异都应推导为其他混杂因素, 如视觉显示本身, 而不是语言输入。从此预览期间观察到的眼球运动为确定语言输入的效果提供了一个基线。这一预览阶段还允许参与者熟悉视觉显示, 并在提出口语时减少解释性固定的系统偏差。
为了说明如何使用视觉世界范式进行典型的眼动追踪研究, 以下协议描述了从 l. 站17改编的实验, 探讨语义复杂语句的在线处理,即析取语句 (S1 或 S2)、合合语句 (S1 和 S2) 和但语句 (S1 但 not-S2)。在普通养护中, 某些话语表达的信息实际上比字面意义更强。如小明的盒子里有一只母牛或一只公鸡这样的言论。从逻辑上讲, 只要两个外加状语小明的盒子里有一头母牛,小明的盒子里装着一只公鸡, 这个分离语句是真的。因此, 当两个外加状语都为真时, 该分离语句是真的, 其中相应的连词语句小明的盒子里包含一头母牛和一只公鸡也是真的。然而, 在普通的谈话中, 听到 "分离语句" 往往表明相应的连词语句是假的 (标量含义);并表明, 这两个外加状语的真理值是由说话人 (无知推断) 所未知的。文献中的科目不同于两个推论是语法还是语用过程22、23、24、25、26。通过探索三个复杂语句的在线处理, 该实验演示了如何利用可视化世界范式来评判这些帐户之间的关系。
所有科目必须在实验规程的管理前给予知情的书面同意。所有程序、同意书和实验协议均由北京语言文化大学研究伦理委员会批准。
注意: 使用视觉世界范式的理解研究通常包括以下步骤: 介绍要探讨的理论问题;形成实验设计;准备视觉和听觉刺激;对实验设计的理论问题进行了框架分析;选择一个眼动仪跟踪参与者的眼球运动;选择软件并使用软件构建脚本来呈现刺激;对记录的眼球运动数据进行编码和分析。在任何描述的步骤中, 特定的实验可以不同。作为一个例子, 我们引入了一个协议来进行实验, 并讨论了研究人员在使用可视化世界范式构建和进行自己的实验时需要牢记的一些要点。
1. 准备测试刺激
2. 对实验设计进行理论预测。
3. 构建实验脚本
4. 招募参与者
5. 进行实验
注意: 当参与者是正常发育的成年人时, 一个实验者就足以进行实验的进行。但是, 如果参与者是特殊群体, 如儿童, 则需要两个或更多的实验者。
6. 数据编码和分析
图 4总结了参与者的行为反应。正如我们前面所述, 对合结语句 (S1 和 S2) 的正确响应是大打开框, 如图 1中的方框 a。对但语句 (S1 但不是 S2) 的正确响应是包含第一个提到的动物的小打开框, 如图 1中的方框 D。批判地说, 哪个框被选择到析取语句 (S1 或 S2) 取决于如何处理析取语句: 小的封闭框, 如图 1中的方框 B, 仅当标量含义和无知推断与析取语句有关的都是计算出来的。图 4说明了在理解一个析取语句 (S1 或 S2) 时, 参与者计算两个推断。
此外, 参与者的眼睛盯着小的封闭盒, 特别是当这些固定在该框的行为反应后, 也建议计算标量含义和无知推断。当参与者将视觉注意和固定放在小的封闭盒上时, 两个推论应该被处理得不晚于最早的时间点。图 5总结了参与者的眼球运动。正如我们在 B 小组中看到的, 参与者在小闭盒 (方框 B) 上的眼睛注视不会增加, 除非句子结缔组织是分离的结缔组织,或者。此外, 这种增加的开始不晚于分离连接的偏移量。这意味着标量含义和无知推断都是在句子连接的失调之前计算出来的, 即在遇到分离连接时立即。
图 1.实验中使用的测试图像的示例.灰色区域是实际呈现给参与者的测试图像。布鲁斯框、虚线和表示元素宽度的像素仅用于插图的目的, 对参与者来说是不可见的。(根据 l. 站17试验之一的许可)。请点击这里查看这个数字的更大版本.
图 2.实验中使用的测试句子的一个例子(通过许可, 从 l. 站17重印)。请点击这里查看这个数字的更大版本.
图 3.采用视觉世界范式的典型眼动追踪实验的层次结构.图像中所示的音频是在实验中使用的普通话的英文翻译。请点击这里查看这个数字的更大版本.
图 4.参与者在实验中记录的行为反应(根据 l. 站17实验之一的许可)。请点击这里查看这个数字的更大版本.
图 5.实验中观察到参与者的眼球运动.句子的起始和偏移由两条虚线垂直线所表示。在某些取样点的分离和基线条件之间存在显著的差异, 由灰色区域 (p <. 05, Bonferroni 调整) 表示 (根据 l......17 。请点击这里查看这个数字的更大版本.
要进行视觉世界研究, 需要遵循几个关键步骤。首先, 研究人员打算通过视觉世界中的参与者的眼球运动推断出触觉所呈现的语言的解释。今后, 在设计视觉刺激的布局时, 应控制可能影响参与者眼球运动的自然任务中眼球运动的性质。然后可以识别口语对参与者眼球运动的影响。第二, 口语中的声学提示是瞬态的, 没有与特定语言类别完全对应的声学特征。为了正确地锁定参与者在某些语言标记开始时的眼球运动, 研究人员应该找到一种客观、一致的方法来界定某些语言结构的边界。第三, 要正确地将参与者的眼球旋转与视觉世界中的目光结合在一起, 研究人员需要执行一个或多个校准、验证和漂移校正过程的运行。第四, 从视觉世界中获得的数据具有一些特殊性质, 如低、上界、自相关错误等。当选择方法统计分析数据时, 应考虑这些特殊属性。
一个视觉世界的研究包括三基本组成部分: 视觉显示, 口语, 实验任务。可以对任何组件进行修改, 以满足研究人员的特定目的。首先, 视觉显示通常是描述图片数组的筛选显示。但它也可以是一个筛选显示, 描绘了一个数组的印刷字32, 示意图场景30,31, 或真实世界场景包含真实的对象1,32。第二, 口语话语可以是一个词36, 一个简单的句子30,31, 一个语义复杂的语句17,34,35, 或对话39。第三, 在实验任务方面, 参与者要么只是被要求看视觉世界, 仔细聆听听觉话语30,31;或被要求作出一些行为反应, 如表演由听觉话语1描述的动作, 确定听觉话语是否适用于视觉显示38, 或选择正确的视觉显示中的图像说话的话语说的是17。
与其他心理语言学技术相比, 视觉世界范式具有几个独特的优势。首先, 视觉世界范式可以在广泛的人群中使用, 包括那些无法阅读和/或不能公然给予他们行为反应的人, 例如 preliterate 儿童37、38、39、40,41,42、老年成人46人, 患者 (失语)47例。这是因为语言刺激是在听觉而不是书面文本的形式呈现;从参与者的隐性自动眼球运动而不是从他们的显性行为反应推断语言理解。第二, 视觉世界范式对语音信号的细粒度操作非常敏感。该范式可用于研究多层次语言理解中大多数主题的在线处理, 如细粒度声学语音特征33、45、46、词语30,31, 语言结构1,47, 和语义复杂语句的逻辑结构, 如 concessives37, biconditionals37,条件38和析取17。
与其他心理语言学技术相比, 视觉世界范式也有一些潜在的局限性。首先, 参与者对口语的解释是从他们在视觉世界上的眼球运动推断出来的, 而不是从语言刺激本身的实际诠释中推导出来的. 从今以后, 可以用视觉世界研究的语言属性范式只限于那些可以被可视化的,我. e., 它们应该以某种方式与视觉世界中的实体或事件相关。第二, 使用的视觉世界范式通常比实际的视觉世界更受限制, 有一组有限的图引用者和一组有限的潜在动作。这种所谓的闭集问题48可能会创建特定于任务的策略, 观察到的语言处理不会超越实验中创建的特定情况。从今以后, 范式可能不敏感的语言知识和经验的特点, 在封闭集, 已经建立在一个特定的审判。
视觉世界范式从视觉领域和从听觉领域的信息的整合来探讨信息的集成。理论上, 任何可由两个耸人听闻的域处理的信息都可以使用此范式进行研究。例如, 可视化世界可以是虚拟现实或动态视频。听觉输入不一定是语言, 可以是任何其他格式, 如音乐和声音从自然世界,等等。此外, 还可以进一步扩展此范式, 以探索从其他域 (而不是视觉域和听觉域) 集成信息。例如, 研究人员可能会使用这种技术来了解参与者在视觉世界中的注视如何受到不同气味、不同接触等的影响。
撰文人宣称他没有竞争的经济利益。
这项研究是由北京语言文化大学科学基金会在中央大学基础研究基金 (批准编号 15YJ050003) 的支持下进行的。
Name | Company | Catalog Number | Comments |
Pixelmator | Pixelmator Team | http://www.pixelmator.com/pro/ | image editing app |
Praat | Open Sourse | http://www.fon.hum.uva.nl/praat/ | Sound analyses and editting software |
Eyelink 1000plus | SR-Research, Inc | https://www.sr-research.com/products/eyelink-1000-plus/ | remote infrared eye tracker |
Experimental Builder | SR-Research, Inc | https://www.sr-research.com/experiment-builder/ | eye tracker software |
Data Viewer | SR-Research, Inc | https://www.sr-research.com/data-viewer/ | eye tracker software |
R | Open Sourse | https://www.r-project.org | free software environment for statistical computing and graphics |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。