Method Article
El estudio introduce un paradigma de pruebas de entrenamiento para investigar los efectos antiguos/nuevos de los potenciales relacionados con eventos en escenarios prosódicos seguros y dudosos. Los datos revelan un componente positivo tardío mejorado entre 400-850 ms en Pz y otros electrodos. Esta canalización puede explorar factores más allá de la prosodia del habla y su influencia en la identificación de objetivos de enlace de señales.
Reconocer a los hablantes conocidos de las corrientes vocales es un aspecto fundamental de la comunicación verbal humana. Sin embargo, sigue sin estar claro cómo los oyentes pueden discernir la identidad del hablante en el habla expresiva. Este estudio desarrolla un enfoque de reconocimiento de identidad de hablante individual basado en la memorización y un canal de análisis de datos de electroencefalograma (EEG) que monitorea cómo los oyentes reconocen a los hablantes conocidos y distinguen a los desconocidos. Los datos de EEG capturan los procesos cognitivos en línea durante la distinción entre los nuevos y los antiguos hablantes en función de la voz, lo que ofrece una medida en tiempo real de la actividad cerebral, superando los límites de los tiempos de reacción y mediciones de precisión. El paradigma comprende tres pasos: los oyentes establecen asociaciones entre tres voces y sus nombres (entrenamiento); los oyentes indican el nombre correspondiente a una voz de tres candidatos (comprobación); Los oyentes distinguen entre tres voces antiguas y tres nuevas en una tarea de elección forzada de dos alternativas (prueba). La prosodia del habla en las pruebas fue confiada o dudosa. Los datos de EEG se recopilaron utilizando un sistema de EEG de 64 canales, seguido de preprocesamiento e importado a RStudio para ERP y análisis estadístico y MATLAB para topografía cerebral. Los resultados mostraron que se produjo un componente positivo tardío (LPC) agrandado en el hablante antiguo en comparación con la condición del hablante nuevo en la ventana de 400-850 ms en el Pz y otra gama más amplia de electrodos en ambas prosodias. Sin embargo, el efecto antiguo/nuevo fue robusto en los electrodos central y posterior para la percepción dudosa de la prosodia, mientras que los electrodos anterior, central y posterior son para la condición de prosodia segura. Este estudio propone que este diseño de experimento puede servir como referencia para investigar los efectos de unión de señales específicos del hablante en diversos escenarios (por ejemplo, expresión anafórica) y patologías en pacientes como la fonagnosia.
Los flujos vocales humanos son ricos en información, como la emoción 1,2, el estado de salud 3,4, el sexo biológico5, la edad6 y, lo que es más importante, la identidad vocal individual 7,8. Los estudios han sugerido que los oyentes humanos tienen una capacidad robusta para reconocer y diferenciar las identidades de sus pares a través de las voces, superando las variaciones dentro del hablante en torno a la representación basada en la identidad del hablante enel espacio acústico. Tales variaciones son provocadas por la manipulación acústica (frecuencia fundamental y longitud del tracto vocal, es decir, F0 y VTL) que corresponde a intenciones pragmáticas no claras9, prosodias emocionales10 y confianza vocal que transmite la sensación de conocimiento de los hablantes11. Los experimentos conductuales se han centrado en muchos factores que influyen en el rendimiento de los oyentes para reconocer a los hablantes, incluidas las manipulaciones relacionadas con el lenguaje 8,12,13, las características relacionadas con los participantes, como la experiencia musical o la capacidad de lectura14,15, y las adaptaciones relacionadas con estímulos, como el habla al revés o las no palabras16,17; Se puede encontrar más en Revisiones de la literatura18,19. Algunos experimentos recientes han investigado cómo la variación individual de la representación de la identidad del hablante podría socavar la precisión del reconocimiento, considerando aspectos que incluyen la expresividad emocional alta frente a la baja16 y las prosodias neutras frente a las temerosas5; Se abren más escenarios posibles para una investigación más profunda, como lo sugiere una revisión20.
Para la primera brecha de investigación, el estudio propone que los fundamentos neurológicos de la identificación del hablante aún no han explorado completamente cómo la variación dentro del hablante desafía las actividades cerebrales de los oyentes. Por ejemplo, en una tarea de reconocimiento de hablantes basada en fMRI realizada por Zäske et al., la circunvolución temporal superior posterior derecha (pSTG), la circunvolución frontal inferior/media derecha (IFG/MFG), la circunvolución frontal medial derecha y el caudado izquierdo mostraron una activación reducida cuando se identificaron correctamente como hablantes viejos frente a nuevos, independientemente de que el contenido lingüístico fuera el mismo o diferente21. Sin embargo, un estudio anterior de electroencefalografía (EEG) realizado por Zäske et al. no observó este efecto antiguo/nuevo cuando se introdujo la variación de la identidad del hablante a través de diferentes textos22. Específicamente, un componente positivo tardío (LPC) más grande que oscila entre 300 y 700 ms, detectado en el electrodo Pz cuando los oyentes se encontraron con su hablante entrenado familiar que expresaba el mismo texto (es decir, escuchando una repetición con contenido lingüístico no variado), estaba ausente cuando los hablantes entregaban nuevos textos.
En apoyo de la afirmación de Zäske et al.21, este estudio sospecha que aún se puede observar un efecto antiguo/nuevo a pesar de las diferencias en el contenido lingüístico entre las sesiones de entrenamiento y las de prueba en los análisis de potencial relacionado con eventos (ERP). Este razonamiento se deriva de la noción de que la ausencia del efecto viejo/nuevo en Zäske et al.22, en condiciones en las que se utilizaron textos diferentes, puede atribuirse a la falta de una sesión de verificación adicional durante la tarea de entrenamiento para garantizar un aprendizaje exhaustivo y efectivo de la identidad, como sugieren Lavan et al.23. En consecuencia, el primer objetivo del estudio es examinar y validar esta hipótesis. Este estudio tiene como objetivo probar esto mediante la adición de una sesión de verificación al paradigma de entrenamiento-prueba22.
Otra cuestión clave que este estudio pretende abordar es la robustez de la identificación del hablante en presencia de prosodia del habla. Estudios conductuales previos han sugerido que los oyentes tienen dificultades para reconocer a los hablantes a través de diferentes prosodias, lo que indica un papel modulador del contexto prosódico: los oyentes tuvieron un rendimiento inferior en las diferentes condiciones de prosodia de prueba de entrenamiento. Este estudio tiene como objetivo probar esto exponiendo a los oyentes a reconocer a los hablantes conocidos en prosodias seguras o dudosas24. Este estudio espera que las diferencias observadas en la ERP ayuden a explicar cómo la prosodia del habla influye en el reconocimiento de identidad.
El objetivo principal del presente estudio es investigar la robustez del efecto antiguo/nuevo en el reconocimiento del hablante, examinando específicamente si existen diferencias en el reconocimiento de los hablantes en las prosodias seguras frente a las dudosas. Xu y Armony10 realizaron un estudio conductual utilizando un paradigma de entrenamiento-prueba, y sus hallazgos sugieren que los oyentes no pueden superar las diferencias prosódicas (por ejemplo, entrenados para reconocer a un hablante en prosodia neutral y probados en prosodia temerosa) y solo pueden lograr una precisión inferior al nivel de probabilidad10. El análisis acústico indica que los altavoces que expresan estados emotivos variados se asocian con la modulación VTL/F0; por ejemplo, la prosodia segura se caracteriza por un VTL alargado y una F0 más baja, mientras que lo contrario ocurre con la prosodia dudosa11,24. Otra evidencia proviene del estudio de Lavan et al.23, que confirmó que los oyentes pueden adaptarse a los cambios VTL y F0 del hablante y formar representaciones basadas en el promedio de los hablantes. Este estudio concilia que, desde una perspectiva de datos conductuales, es probable que los oyentes aún reconozcan la identidad del hablante a través de las prosodias (por ejemplo, entrenados para reconocer a uno en una prosodia segura pero probados en una prosodia dudosa; informados en un manuscrito separado en preparación). Sin embargo, los correlatos neuronales de la identificación del hablante, específicamente la generalizabilidad del efecto viejo/nuevo observado por Zäske et al.22, siguen sin estar claros. Por lo tanto, el presente estudio se compromete a validar la robustez del efecto antiguo/nuevo en las prosodias seguras frente a las dudosas como contextos para las pruebas.
El estudio introduce una desviación de los paradigmas de investigación anteriores en los estudios de efectos antiguos/nuevos. Mientras que las investigaciones anteriores se centraron en cómo el reconocimiento de los hablantes viejos/nuevos influye en la percepción, este estudio amplía esto incorporando dos niveles de confianza (seguro versus dudoso) en el paradigma (por lo tanto, un estudio 2 + 2). Esto nos permite investigar el reconocimiento del hablante en los contextos de las prosodias del habla seguras y dudosas. El paradigma permite explorar la robustez de los efectos antiguos/nuevos. Los análisis de los efectos de la memoria y las regiones de interés (ROI) dentro de los contextos de habla segura y dudosa sirven como evidencia para esta investigación.
En conjunto, el estudio tiene como objetivo actualizar la comprensión de los correlatos del EEG del reconocimiento de voz, con las hipótesis de que el LPC ampliado del efecto antiguo/nuevo del EEG es observable incluso cuando 1) el contenido lingüístico no es el mismo, y 2) con la presencia de prosodia segura frente a dudosa. Este estudio investigó las hipótesis a través de un paradigma de tres pasos. En primer lugar, durante la fase de formación, los participantes establecieron asociaciones entre tres voces y sus correspondientes nombres. Posteriormente, en la fase de comprobación, se les encargó identificar el nombre correspondiente a una voz de una selección de tres candidatos. Esta comprobación, siguiendo a Lavan et al.23, tiene como objetivo superar la insuficiente familiarización con el hablante antiguo, que condujo al efecto antiguo/nuevo no observado cuando el texto en las fases de entrenamiento y prueba difería6, y los hablantes no podían reconocer a los hablantes a través de prosodias neutrales y temerosas10. Finalmente, en la fase de prueba, los participantes distinguieron entre tres voces de hablantes antiguos y tres nuevos en una tarea de elección forzada de dos alternativas, con la prosodia del habla presentada como segura o dudosa. Los datos de EEG se recopilaron utilizando un sistema de EEG de 64 canales y se sometieron a un preprocesamiento antes del análisis. El análisis estadístico y el análisis de potencial relacionado con eventos (ERP) se llevaron a cabo en RStudio, mientras que MATLAB se utilizó para el análisis de la topografía cerebral.
En cuanto a los detalles de diseño, este estudio propone un experimento de aprendizaje de la identidad del hablante que controla la altura del hablante, que se relaciona con la VTL e influye en las impresiones de quién está hablando23. Este aspecto también influye en las impresiones sociales, como la dominancia percibida25, y la formación de impresiones de nivel superior podría interactuar con la decodificación de la identidad del hablante26.
El Comité de Ética del Instituto de Lingüística de la Universidad de Estudios Internacionales de Shanghái ha aprobado el diseño del experimento que se describe a continuación. Se obtuvo el consentimiento informado de todos los participantes para este estudio.
1. Preparación y validación de la audioteca
2. Programación para la recopilación de datos de EEG
3. Recopilación de datos de EEG
4. Procesamiento de datos EEG
NOTA: Las siguientes descripciones implican el preprocesamiento de datos de EEG, el análisis estadístico y la visualización mediante MATLAB y RStudio para el procesamiento por lotes.
El clásico efecto viejo/nuevo se caracteriza por un aumento significativo en la actividad cerebral de los oyentes en el electrodo Pz (entre 300 y 700 ms) cuando el contenido del habla de la sesión de prueba coincide con el de la sesión de entrenamiento, particularmente en la condición de hablante antiguo en comparación con la condición de hablante nuevo22. El protocolo revela una versión actualizada de este efecto: en primer lugar, la observación de tendencias positivas más grandes en el electrodo Pz y en toda la región del cerebro para la condición antigua en comparación con la nueva condición del hablante entre 400 y 850 ms. En segundo lugar, el contenido del discurso en la sesión de prueba diferirá del de la sesión de formación. En tercer lugar, se espera que tanto las condiciones de prosodia del habla segura como las dudosas presenten estas tendencias. Por último, el efecto viejo/nuevo es más pronunciado en condiciones dudosas durante la sesión de prueba (Figura 2).
El análisis LMER con la fórmula
lmer(Voltaje ~ Memoria * ROI + (1|Sujeto) + (1|Canal))
sugiere que ambos tipos de memoria (antigua versus nueva) y el ROI tienen efectos principales, así como una interacción entre la memoria y el ROI (Tabla 1). Un análisis post-hoc posterior reveló que, en todas las regiones del cerebro, la condición antigua exhibe un voltaje positivo mayor que la condición dudosa, incluso en las regiones anterior, central y posterior (Tabla 2). La comparación de los valores beta sugiere que el efecto antiguo/nuevo fue más pronunciado en los electrodos central y posterior que en los electrodos anteriores: para el conjunto de datos combinado: β anterior = 0,40, β central = 0,63 y β posterior = 0,60; para el conjunto de datos seguro: β anterior = .61, β central = .63 y β posterior = .76, y para el conjunto de datos dudoso: β anterior = .44, β central = .87 y β posterior = .69. La afectación de los electrodos central y posterior fue más notable en la condición de prosodia dudosa.
Con la fórmula
lmer(Voltaje ~ Memoria + (1|Asunto))
confirmamos la existencia de efectos antiguos/nuevos en el electrodo Pz. En el electrodo Pz, se observó un efecto principal de la memoria (antigua versus nueva) (F(1, 69341.99) = 120.46, p < .001, η²p = .002, β = .425, SE = .039, relación z = 10.98, p < .001). En la condición de solo confianza, se observó un efecto principal de la memoria (antigua versus nueva) en el electrodo Pz (F(1, 34318.32) = 5.04, p = .025, η²p = .0001, β = .125, SE = .056, z-ratio = 2.25, p = .025). En la condición de solo duda, se observó un efecto principal de la memoria (antigua versus nueva) en el electrodo Pz (F(1, 34993.20) = 317.02, p < .001, η²p = .009, β = .914, SE = .051, relación z = 17.81, p < .001).
Figura 1: Flujo de trabajo de la recopilación de datos para cada bloque. En (A) Training, los oyentes escuchan una voz y asocian el nombre que se presenta posteriormente con ella. Se requiere que se recuerden tres viejos habladores. El idioma que apareció en el programa fue originalmente el chino. La A y la C representan nombres como Xiao (Junior) ZHANG. En (B) Checking, los oyentes identifican el nombre de la persona que habla al escuchar una voz presionando 1, 2 o 3 en el teclado numérico para asociar la identidad de voz con nombres como Xiao ZHAO. En (C) Testing, los oyentes escuchan una voz y la clasifican como hablada por el hablante antiguo o nuevo. Como se ilustra en (D) Prosody Design, los oyentes aprenden que tres hablantes se expresan solo con confianza o dudas, pero escuchan a seis hablantes hablar tanto con confianza como con dudas. La apariencia de la versión A o B es mutuamente excluyente. Si la versión A aparece con un altavoz masculino o femenino, la versión B aparecerá con el altavoz femenino o masculino correspondiente. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2: El efecto viejo/nuevo. (A, B, C) Las figuras muestran el ERP indicado en gris de los electrodos Pz de 400 a 850 ms para las condiciones combinadas de prosodia, solo confianza y solo duda, respectivamente. (D, E, F) Las figuras ilustran la topografía de la condición antigua menos nueva en todos los electrodos (representados como puntos negros) para las condiciones combinadas de prosodia, solo confianza y solo dudas. Haga clic aquí para ver una versión más grande de esta figura.
Contexto | Región del cerebro | Valor F | Pr(>F) | Eta2_partial |
Combinado | Memoria | 9938.98 | .00 | .00 |
Retorno de la inversión | 4.13 | .02 | .13 | |
Memoria:ROI | 182.37 | .00 | .00 | |
Confiado | Memoria | 7291.22 | .00 | .00 |
Retorno de la inversión | 3.60 | .03 | .12 | |
Memoria:ROI | 41.94 | .00 | .00 | |
Dudoso | Memoria | 8333.38 | .00 | .00 |
Retorno de la inversión | 4.65 | .01 | .15 | |
Memoria:ROI | 290.15 | .00 | .00 |
Tabla 1: Resultados del análisis LMER para el efecto antiguo/nuevo en todas las regiones del cerebro: conjuntos de datos combinados, seguros y dudosos. Utilizando el análisis post-hoc, * significativo a p < .05, ** significativo a p < .01, *** significativo a p < .001.
Contexto | Región del cerebro | Contraste | Estimar | SE | z | p |
Combinado | Anterior | viejo-nuevo | .40 | .01 | 43.70 | .00*** |
Central | viejo-nuevo | .63 | .01 | 61.74 | .00*** | |
Posterior | viejo-nuevo | .60 | .01 | 67.51 | .00*** | |
Confiado | Anterior | viejo-nuevo | .61 | .01 | 46.63 | .00*** |
Central | viejo-nuevo | .63 | .01 | 43.22 | .00*** | |
Posterior | viejo-nuevo | .76 | .01 | 59.95 | .00*** | |
Dudoso | Anterior | viejo-nuevo | .44 | .01 | 35.95 | .00*** |
Central | viejo-nuevo | .87 | .01 | 64.05 | .00*** | |
Posterior | viejo-nuevo | .69 | .01 | 57.75 | .00*** |
Tabla 2: Resultados de pruebas post-hoc para efectos antiguos/nuevos en todas las regiones del cerebro: conjuntos de datos combinados, seguros y dudosos. Mediante análisis post-hoc, significativo a p < .001 (***).
El estudio presenta una línea para la recopilación y el análisis de datos de EEG, centrándose en el reconocimiento de las identidades de los hablantes previamente aprendidas. Este estudio aborda las variaciones entre las fases de aprendizaje y reconocimiento, incluidas las diferencias en el contenido del habla22 y la prosodia10. El diseño es adaptable a una variedad de campos de investigación, incluida la psicolingüística, como el procesamiento de pronombres y anaforios41.
El paradigma de entrenamiento-evaluación es un diseño experimental clásico utilizado para evaluar los resultados de aprendizaje de los participantes en temas específicos como el aprendizaje por voz42,43. Este paradigma evalúa qué tan bien los participantes han aprendido información particular (como se refleja en la precisión)10. Permite a los investigadores introducir variables de forma incremental en condiciones experimentales controladas, como diferentes prosodias durante las fases de entrenamiento y prueba, para comprender su influencia en la precisión del reconocimiento de voz, por ejemplo, voces moduladas VTL/F023, temerosas frente a neutras10, o dudosas frente a seguras en este estudio.
Sin embargo, el paradigma tiene limitaciones. Las diferencias entre los entornos de aprendizaje y de evaluación pueden afectar la validez de los resultados experimentales, ya que las condiciones de aprendizaje controladas pueden no reflejar las condiciones de prueba más variables. Por ejemplo, la sesión de entrenamiento utiliza una sola prosodia en lugar de una diferencia proporcional, como el 30% frente al 70%44. Para abordar este desequilibrio, garantizar un entorno de aprendizaje más diverso podría replicar mejor los escenarios de la vida real en los que los hablantes utilizan prosodias variadas mientras interactúan con los oyentes. Además, este estudio reconoce que la complejidad del diseño experimental, que implica múltiples etapas y una programación sofisticada (utilizando herramientas como R Studio, MATLAB y Python), puede ser un desafío para los recién llegados.
La idea principal enfatiza la importancia de una familiarización adecuada y una fase de comprobación. El trabajo de Xu y Armony pone de manifiesto que los oyentes tienen dificultades para identificar las identidades de los viejos hablantes sin suficiente formación y comprobaciones por encima de los nivelesde probabilidad 10. Además, Zaske et al. encontraron que el efecto LPC viejo/nuevo solo estaba presente cuando se repetía el mismo texto, no con un texto diferente22. En este estudio, la implementación de una fase de verificación reveló la persistencia del efecto ERP antiguo/nuevo, incluso con diferentes estímulos de texto, lo que apoya las afirmaciones de los estudios de resonancia magnéticafuncional 21. El estudio sugiere que, para los paradigmas basados en pruebas de entrenamiento, es fundamental insertar una sesión de comprobación. Permite a los oyentes formarse una impresión sólida de la identidad acústica del hablante, asociando a un hablante con un símbolo específico, como un nombre23. Sin un aprendizaje suficiente de la representación del hablante, los oyentes pueden tener dificultades para adaptarse a las variaciones dentro del hablante10.
En este estudio también se observó el papel de la prosodia como señal vinculante para el reconocimiento del hablante45. Contrariamente a las opiniones previas de que la prosodia puede dificultar el reconocimiento de la persona que habla antiguamente, este estudio encontró el efecto viejo/nuevo presente en las condiciones de prosodia seguras y dudosas. Este efecto robusto sugiere un papel de modulación de la prosodia en el reconocimiento del hablante. Un análisis posterior reveló diferencias en la activación de la región anterior entre las afecciones de prosodia. La prosodia segura provocó niveles más bajos del efecto viejo/nuevo en las regiones anteriores en comparación con la prosodia dudosa. Este hallazgo sugiere que el habla segura puede hacer que la identificación del hablante sea más difícil debido a la extensión de la longitud del tracto vocal y la disminución de la frecuencia fundamental, lo que podría conducir a una mayor atención de los oyentes11,29.
El diseño de este estudio puede servir de base para futuras investigaciones sobre las alteraciones del reconocimiento en poblaciones de pacientes, como aquellos con prosopagnosia o fonagnosia46,47. Además, las modificaciones para acomodar a los participantes con períodos de atención más cortos, como las personas con trastornos del espectro autista48, podrían mejorar la accesibilidad al estudio.
Además, el paradigma se extiende más allá del reconocimiento del hablante para investigar el procesamiento de pronombres y la comprensión anafórica dentro de la investigación psicolingüística. Coopmans y Nieuwland41 demuestran cómo los patrones de sincronización oscilatoria neuronal distinguen entre la activación antecedente y la integración en la comprensión del anáforo, lo que se alinea con la exploración de este estudio de las señales relacionadas con la identidad. Las pistas incluyen estilos comunicativos (por ejemplo, declaraciones literales o irónicas), órdenes de palabras (estructura de oración Sujeto-Objeto-Verbo (SOV) u Objeto-Sujeto-Verbo (OSV) 44,45,49,50) y tipos de expresión vocal (prosodia segura vs. dudosa) en este artículo.
No hay información que deba ser revelada.
Este trabajo contó con el apoyo de la Fundación de Ciencias Naturales de China (Subvención Nº 31971037); el Programa Shuguang, apoyado por la Fundación para el Desarrollo de la Educación de Shanghái y el Comité Municipal de Educación de Shanghái (Subvención Nº 20SG31); la Fundación de Ciencias Naturales de Shanghái (22ZR1460200); el Programa de Orientación para Supervisores de la Universidad de Estudios Internacionales de Shanghái (2022113001); y el Programa Principal de la Fundación Nacional de Ciencias Sociales de China (Subvención Nº 18ZDA293).
Name | Company | Catalog Number | Comments |
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados