Paradigma de entrenamiento y prueba basado en la memorización para el reconocimiento robusto de la identidad vocal en el habla expresiva mediante el análisis de potenciales relacionados con eventos

El estudio introduce un paradigma de pruebas de entrenamiento para investigar los efectos antiguos/nuevos de los potenciales relacionados con eventos en escenarios prosódicos seguros y dudosos. Los datos revelan un componente positivo tardío mejorado entre 400-850 ms en Pz y otros electrodos. Esta canalización puede explorar factores más allá de la prosodia del habla y su influencia en la identificación de objetivos de enlace de señales.

Resumen

Reconocer a los hablantes conocidos de las corrientes vocales es un aspecto fundamental de la comunicación verbal humana. Sin embargo, sigue sin estar claro cómo los oyentes pueden discernir la identidad del hablante en el habla expresiva. Este estudio desarrolla un enfoque de reconocimiento de identidad de hablante individual basado en la memorización y un canal de análisis de datos de electroencefalograma (EEG) que monitorea cómo los oyentes reconocen a los hablantes conocidos y distinguen a los desconocidos. Los datos de EEG capturan los procesos cognitivos en línea durante la distinción entre los nuevos y los antiguos hablantes en función de la voz, lo que ofrece una medida en tiempo real de la actividad cerebral, superando los límites de los tiempos de reacción y mediciones de precisión. El paradigma comprende tres pasos: los oyentes establecen asociaciones entre tres voces y sus nombres (entrenamiento); los oyentes indican el nombre correspondiente a una voz de tres candidatos (comprobación); Los oyentes distinguen entre tres voces antiguas y tres nuevas en una tarea de elección forzada de dos alternativas (prueba). La prosodia del habla en las pruebas fue confiada o dudosa. Los datos de EEG se recopilaron utilizando un sistema de EEG de 64 canales, seguido de preprocesamiento e importado a RStudio para ERP y análisis estadístico y MATLAB para topografía cerebral. Los resultados mostraron que se produjo un componente positivo tardío (LPC) agrandado en el hablante antiguo en comparación con la condición del hablante nuevo en la ventana de 400-850 ms en el Pz y otra gama más amplia de electrodos en ambas prosodias. Sin embargo, el efecto antiguo/nuevo fue robusto en los electrodos central y posterior para la percepción dudosa de la prosodia, mientras que los electrodos anterior, central y posterior son para la condición de prosodia segura. Este estudio propone que este diseño de experimento puede servir como referencia para investigar los efectos de unión de señales específicos del hablante en diversos escenarios (por ejemplo, expresión anafórica) y patologías en pacientes como la fonagnosia.

Introducción

Los flujos vocales humanos son ricos en información, como la emoción ^1,2, el estado de salud ^3,4, el sexo biológico⁵, la edad⁶ y, lo que es más importante, la identidad vocal individual ^7,8. Los estudios han sugerido que los oyentes humanos tienen una capacidad robusta para reconocer y diferenciar las identidades de sus pares a través de las voces, superando las variaciones dentro del hablante en torno a la representación basada en la identidad del hablante en^{el espacio acústico}. Tales variaciones son provocadas por la manipulación acústica (frecuencia fundamental y longitud del tracto vocal, es decir, F0 y VTL) que corresponde a intenciones pragmáticas no claras⁹, prosodias emocionales¹⁰ y confianza vocal que transmite la sensación de conocimiento de los hablantes¹¹. Los experimentos conductuales se han centrado en muchos factores que influyen en el rendimiento de los oyentes para reconocer a los hablantes, incluidas las manipulaciones relacionadas con el lenguaje ^8,12,13, las características relacionadas con los participantes, como la experiencia musical o la capacidad de lectura^14,15, y las adaptaciones relacionadas con estímulos, como el habla al revés o las no palabras^16,17; Se puede encontrar más en Revisiones de la literatura^18,19. Algunos experimentos recientes han investigado cómo la variación individual de la representación de la identidad del hablante podría socavar la precisión del reconocimiento, considerando aspectos que incluyen la expresividad emocional alta frente a la baja¹⁶ y las prosodias neutras frente a las temerosas⁵; Se abren más escenarios posibles para una investigación más profunda, como lo sugiere una revisión²⁰.

Para la primera brecha de investigación, el estudio propone que los fundamentos neurológicos de la identificación del hablante aún no han explorado completamente cómo la variación dentro del hablante desafía las actividades cerebrales de los oyentes. Por ejemplo, en una tarea de reconocimiento de hablantes basada en fMRI realizada por Zäske et al., la circunvolución temporal superior posterior derecha (pSTG), la circunvolución frontal inferior/media derecha (IFG/MFG), la circunvolución frontal medial derecha y el caudado izquierdo mostraron una activación reducida cuando se identificaron correctamente como hablantes viejos frente a nuevos, independientemente de que el contenido lingüístico fuera el mismo o diferente²¹. Sin embargo, un estudio anterior de electroencefalografía (EEG) realizado por Zäske et al. no observó este efecto antiguo/nuevo cuando se introdujo la variación de la identidad del hablante a través de diferentes textos²². Específicamente, un componente positivo tardío (LPC) más grande que oscila entre 300 y 700 ms, detectado en el electrodo Pz cuando los oyentes se encontraron con su hablante entrenado familiar que expresaba el mismo texto (es decir, escuchando una repetición con contenido lingüístico no variado), estaba ausente cuando los hablantes entregaban nuevos textos.

En apoyo de la afirmación de Zäske et ^al.21, este estudio sospecha que aún se puede observar un efecto antiguo/nuevo a pesar de las diferencias en el contenido lingüístico entre las sesiones de entrenamiento y las de prueba en los análisis de potencial relacionado con eventos (ERP). Este razonamiento se deriva de la noción de que la ausencia del efecto viejo/nuevo en Zäske et ^al.22, en condiciones en las que se utilizaron textos diferentes, puede atribuirse a la falta de una sesión de verificación adicional durante la tarea de entrenamiento para garantizar un aprendizaje exhaustivo y efectivo de la identidad, como sugieren Lavan et ^al.23. En consecuencia, el primer objetivo del estudio es examinar y validar esta hipótesis. Este estudio tiene como objetivo probar esto mediante la adición de una sesión de verificación al paradigma de entrenamiento-prueba²².

Otra cuestión clave que este estudio pretende abordar es la robustez de la identificación del hablante en presencia de prosodia del habla. Estudios conductuales previos han sugerido que los oyentes tienen dificultades para reconocer a los hablantes a través de diferentes prosodias, lo que indica un papel modulador del contexto prosódico: los oyentes tuvieron un rendimiento inferior en las diferentes condiciones de prosodia de prueba de entrenamiento. Este estudio tiene como objetivo probar esto exponiendo a los oyentes a reconocer a los hablantes conocidos en prosodias seguras o dudosas²⁴. Este estudio espera que las diferencias observadas en la ERP ayuden a explicar cómo la prosodia del habla influye en el reconocimiento de identidad.

El objetivo principal del presente estudio es investigar la robustez del efecto antiguo/nuevo en el reconocimiento del hablante, examinando específicamente si existen diferencias en el reconocimiento de los hablantes en las prosodias seguras frente a las dudosas. Xu y Armony¹⁰ realizaron un estudio conductual utilizando un paradigma de entrenamiento-prueba, y sus hallazgos sugieren que los oyentes no pueden superar las diferencias prosódicas (por ejemplo, entrenados para reconocer a un hablante en prosodia neutral y probados en prosodia temerosa) y solo pueden lograr una precisión inferior al nivel de probabilidad¹⁰. El análisis acústico indica que los altavoces que expresan estados emotivos variados se asocian con la modulación VTL/F0; por ejemplo, la prosodia segura se caracteriza por un VTL alargado y una F0 más baja, mientras que lo contrario ocurre con la prosodia dudosa^11,24. Otra evidencia proviene del estudio de Lavan et ^al.23, que confirmó que los oyentes pueden adaptarse a los cambios VTL y F0 del hablante y formar representaciones basadas en el promedio de los hablantes. Este estudio concilia que, desde una perspectiva de datos conductuales, es probable que los oyentes aún reconozcan la identidad del hablante a través de las prosodias (por ejemplo, entrenados para reconocer a uno en una prosodia segura pero probados en una prosodia dudosa; informados en un manuscrito separado en preparación). Sin embargo, los correlatos neuronales de la identificación del hablante, específicamente la generalizabilidad del efecto viejo/nuevo observado por Zäske et ^al.22, siguen sin estar claros. Por lo tanto, el presente estudio se compromete a validar la robustez del efecto antiguo/nuevo en las prosodias seguras frente a las dudosas como contextos para las pruebas.

El estudio introduce una desviación de los paradigmas de investigación anteriores en los estudios de efectos antiguos/nuevos. Mientras que las investigaciones anteriores se centraron en cómo el reconocimiento de los hablantes viejos/nuevos influye en la percepción, este estudio amplía esto incorporando dos niveles de confianza (seguro versus dudoso) en el paradigma (por lo tanto, un estudio 2 + 2). Esto nos permite investigar el reconocimiento del hablante en los contextos de las prosodias del habla seguras y dudosas. El paradigma permite explorar la robustez de los efectos antiguos/nuevos. Los análisis de los efectos de la memoria y las regiones de interés (ROI) dentro de los contextos de habla segura y dudosa sirven como evidencia para esta investigación.

En conjunto, el estudio tiene como objetivo actualizar la comprensión de los correlatos del EEG del reconocimiento de voz, con las hipótesis de que el LPC ampliado del efecto antiguo/nuevo del EEG es observable incluso cuando 1) el contenido lingüístico no es el mismo, y 2) con la presencia de prosodia segura frente a dudosa. Este estudio investigó las hipótesis a través de un paradigma de tres pasos. En primer lugar, durante la fase de formación, los participantes establecieron asociaciones entre tres voces y sus correspondientes nombres. Posteriormente, en la fase de comprobación, se les encargó identificar el nombre correspondiente a una voz de una selección de tres candidatos. Esta comprobación, siguiendo a Lavan et ^al.23, tiene como objetivo superar la insuficiente familiarización con el hablante antiguo, que condujo al efecto antiguo/nuevo no observado cuando el texto en las fases de entrenamiento y prueba difería⁶, y los hablantes no podían reconocer a los hablantes a través de prosodias neutrales y temerosas¹⁰. Finalmente, en la fase de prueba, los participantes distinguieron entre tres voces de hablantes antiguos y tres nuevos en una tarea de elección forzada de dos alternativas, con la prosodia del habla presentada como segura o dudosa. Los datos de EEG se recopilaron utilizando un sistema de EEG de 64 canales y se sometieron a un preprocesamiento antes del análisis. El análisis estadístico y el análisis de potencial relacionado con eventos (ERP) se llevaron a cabo en RStudio, mientras que MATLAB se utilizó para el análisis de la topografía cerebral.

En cuanto a los detalles de diseño, este estudio propone un experimento de aprendizaje de la identidad del hablante que controla la altura del hablante, que se relaciona con la VTL e influye en las impresiones de quién está hablando²³. Este aspecto también influye en las impresiones sociales, como la dominancia percibida²⁵, y la formación de impresiones de nivel superior podría interactuar con la decodificación de la identidad del hablante²⁶.

Protocolo

El Comité de Ética del Instituto de Lingüística de la Universidad de Estudios Internacionales de Shanghái ha aprobado el diseño del experimento que se describe a continuación. Se obtuvo el consentimiento informado de todos los participantes para este estudio.

1. Preparación y validación de la audioteca

Grabación y edición de audio
1. Cree una base de datos de voces chinas siguiendo el procedimiento estándar de hacer una versión anterior en inglés mientras realiza adaptaciones cuando sea necesario para adaptarse al contexto de China¹¹. Para el experimento, se utilizaron 123 oraciones que contenían tres tipos de intenciones pragmáticas, a saber, juicio, intención y hecho. Para ello, consulte un corpus¹¹ de instrucciones en inglés existente y cree una versión en chino localizada con escenarios localizados adicionales.
2. Reclutar a 24 hablantes (12 mujeres) para que expresen estas oraciones en prosodias neutras, dudosas y seguras, mientras se refieren y adaptan las instrucciones especificadas de tareas de grabación anteriores^11,24.
  1. Para los oradores, recluta a 24 hablantes estándar de mandarín de la Universidad de Estudios Internacionales de Shanghái, 12 mujeres y 12 hombres, con un dominio demostrado del mandarín a través de puntajes de 87 a 91 en la Prueba de Competencia de Putonghua. Los participantes masculinos tenían un promedio de 24,55 ± 2,09 años de edad, con 18,55 ± 1,79 años de educación y una estatura promedio de 174,02 ± 20,64 cm. Las mujeres tenían un promedio de 22.30 ± 2.54 años, con 18.20 ± 2.59 años de escolaridad y una estatura promedio de 165.24 ± 11.42 cm. Ninguno reportó impedimentos del habla y la audición ni trastornos neurológicos o psiquiátricos.
3. Pida a los oradores que repitan cada texto dos veces. Ajuste la frecuencia de muestreo a 48.000 Hz en el software Praat²⁷. Asegúrese de que ninguna transmisión dure más de 10 minutos, ya que Praat puede romperse y provocar la pérdida de grabación.
4. Edita la larga transmisión de audio en clips por frase con Praat. Dado que hay dos repeticiones del mismo texto, seleccione la versión que mejor represente la prosodia pretendida como oración objetivo.
Selección de audio
1. Normalice la biblioteca de audio a 70 dB y la frecuencia de muestreo a 41.000 Hz con Praat script²⁸. Para ello, abra Praat, cargue los archivos de sonido y selecciónelos en la ventana Objetos. Vaya al menú Modificar, elija Escalar intensidad..., establezca la Nueva intensidad media (dB SPL) en 70 en la ventana de configuración y haga clic en Aceptar para aplicar la normalización.
2. Recluta a 48 oyentes independientes para que califiquen cada audio en una escala de 7 Likert sobre el nivel de confianza: 1 para nada y 7 para¹¹ para muy seguro. Asegúrese de que cada oración haya sido calificada por 12 evaluadores.
3. Seleccione el audio que se adapte a los umbrales designados con un principio principal: asegúrese de que la calificación promedio para el audio con intención segura sea más alta que para el audio con intención dudosa. Asegúrese de que estos umbrales sean consistentes en 12 hablantes del mismo sexo biológico. Por ejemplo, si estos hablantes expresaron dos oraciones, cada una con prosodias seguras y dudosas, se deben observar diferencias significativas en las calificaciones.
4. A los efectos del diseño experimental actual, utilice cuatro bloques de audio, con un total de 480 clips de audio, y cada bloque contiene 120 de audio.
  1. Divida a 24 hablantes en cuatro grupos de seis, con dos grupos de hombres y dos grupos de mujeres, cada grupo formado por hablantes del mismo sexo biológico.
  2. Para cada grupo, seleccione clips de audio en función de las calificaciones perceptuales (en el mismo texto), asegurándose de que las calificaciones de confianza promedio sean más altas que las calificaciones dudosas para cada oración. Estos cuatro bloques difieren en los siguientes aspectos: 1) los seis hablantes combinados: sus identidades son diferentes; 2) la mitad de los bloques son expresados por machos y la otra mitad por hembras; y 3) el texto expresado en cada bloque es diferente.
5. Antes de que comience el proceso de selección, documente los datos de altura de cada altavoz. Utilice esta información para dividir a los oradores en cuatro grupos independientes según el sexo y la altura.
  1. Hay 24 hablantes en total, divididos a partes iguales entre hombres y mujeres. Dentro de cada grupo de género, clasifique a los 12 individuos por altura.
6. Divida a estos 12 individuos en dos grupos de manera alterna; Por ejemplo, de una lista ordenada del 1 al 12, los individuos 1, 3, 5, 7, 9 y 11 formarían un grupo y la otra mitad formaría el segundo grupo. Dentro de estos grupos, realice la selección de altavoces para los clips de audio a intervalos regulares en función de su altura.
  NOTA: La inclusión de la altura como factor de control se basa en hallazgos que sugieren que las medidas acústicas relacionadas con la altura del altavoz (VTL y F0) influyen en el reconocimiento de la identidad del hablante y del hablante²³.

2. Programación para la recopilación de datos de EEG

Diseño de la matriz experimental
1. El estudio emplea un diseño intrasujeto. Prepare una sesión de prueba que se presente según cada tema mientras adapta la sesión de capacitación. Prepare cuatro bloques, con oradores masculinos y femeninos tomando cada mitad de dos bloques. Asigne dos bloques para ser entrenado en prosodia segura y evaluado tanto en confiado como dudoso, así como entrenado en prosodia dudosa y evaluado tanto en confiado como dudoso, como se sugiere en la Figura 1.
2. Decidir la duración de las pantallas de funcionamiento consultando los estudios de EEG existentes sobre la identificación del hablante y la percepción de la confianza vocal^22,29. Organizar la secuencia de los cuatro bloques con una matriz cuadrada latina entre los participantes ^30,31. Se recomienda la codificación personalizada de Python para preparar dicha lista. Consulte el fragmento de código para la matriz de cuadrados latinos y la lista de pruebas para el programa PsychoPy en OSF³².
3. Seleccione hablantes en cada intervalo de una secuencia de altura del mismo sexo biológico. Para cada bloque, seleccione seis oradores de los 24 hablantes originales, que se agrupan en cuatro listas de acuerdo con la altura informada de los hablantes.
4. Seleccione los primeros 24 nombres de los cien apellidos familiares de China. Asigne aleatoriamente los apellidos a los 24 hablantes que expresaron el audio dirigiéndose a ellos como Xiao (Junior en chino) ZHAO.
5. Reúna toda la información relevante en una hoja de cálculo con columnas para el hablante (del 1 al 24), el sexo biológico (masculino o femenino), el nombre de la persona (de los 24 apellidos), el nivel de confianza (seguro o dudoso), el elemento (índice de texto), el nivel de confianza calificado (puntuación promedio del estudio perceptivo), el sonido (por ejemplo, sonido/1_h_c_f_56.wav),
6. Reconocer correctamente uno de cada tres (1, 2 o 3) y reconocer correctamente lo antiguo y lo nuevo (viejo o nuevo). Además, asegúrese de que se hayan agregado las columnas denominadas training_a, training_b, training_c, check y test.
7. Agregue las columnas training_a_marker, training_b_marker, check_marker y testing_marker a las hojas de cálculo para enviar marcadores de EEG. Formatee estos marcadores con tres dígitos, lo que significa que incluso el número 1 se escribe como 001.
Construcción de las tres sesiones
NOTA: Se recomienda PsychoPy para construir el programa, principalmente utilizando el modo constructor. El componente de código en el constructor se utiliza adicionalmente para conectar el programa con el sistema de recopilación de datos de EEG, contrarrestando los botones F y J y calculando la precisión que se informará en la pantalla.
1. Antes de todo, haga clic en el icono Editar configuración del experimento y ajuste la celda Información del experimento en dos campos, a saber, Participante y Bloque. Deje el valor predeterminado para ambos en blanco. En este estudio, entre los 40 participantes, cada uno con cuatro bloques, 4/40 participantes volvieron a pasar por ciertos bloques (si la precisión en la sesión de verificación es inferior a 10/12), con una tasa de rehacer de 19 reteos/4 bloques x 40 participantes = 11,875%.
2. Sesión de entrenamiento: aprendizaje repetido de la identidad por tres veces
  1. Defina un bucle denominado Training_A, que contiene tres pantallas: Fijación, Presentación y un espacio en blanco. Marque la opción Es Ensayos . Mantenga el nReps 1, dejando en blanco las filas seleccionadas y la semilla aleatoria. Escriba la condición de la siguiente manera:
    "$"trials/{:}_training_a.xlsx".format(expInfor["Participante"]), expInfo["Bloquear"])
    Donde trials/ es el nombre de la carpeta; Participante es el índice del participante; Bloque es la secuencia de bloques del bloque actual.
  2. En la pantalla Fijación, agregue un componente de texto, con la Hora de inicio establecida como 0, el Tiempo de duración establecido como 2 (s) y un signo + en la ventana de entrada de texto que selecciona Establecer cada repetición. Del mismo modo, incluya un componente de texto similar en la pantalla en blanco sin información en la celda de texto, y dura 0,5 segundos.
  3. En la pantalla Presentación, realice las siguientes acciones:
    1. Agregue un componente de sonido, con la Hora de inicio establecida como 0, el Tiempo de duración de parada en blanco y la entrada de celda de sonido con $Sound y seleccione Establecer cada repetición. Marque la pantalla Sincronizar Iniciar con.
    2. Agregue otro componente de texto, con la celda Condición de inicio ingresada con Cross_for_Training_A.status == FINISHED. Deje en blanco la celda Duración de la parada. La celda de texto muestra $Name. Selecciona Establecer cada repetición.
    3. Agregue un Key_Response_Training_A, en el que la Condición de Inicio sea Training_A.status == FINALIZADO. Deje en blanco la celda Duración de la parada. Marque la casilla Forzar fin de rutina. En la celda Claves permitidas, agregue espacio; para configuración, seleccione Constante.
    4. Añade una Cross_for_Training_A. Su hora de inicio se establece en 0; la celda Condición de parada se establece como Training_A.status == FINALIZADO. Coloque un signo + en la ventana de entrada de texto y seleccione Establecer cada repetición.
  4. Prepare Training_B siguiendo un procedimiento similar al Training_A.
3. Sesión de comprobación: Seleccione los nombres de los tres participantes que están hablando.
  1. Defina un bucle llamado Check, con la misma pantalla de fijación y en blanco que la sesión de entrenamiento.
  2. Utilice una presentación diferente a la del entrenamiento agregando una función para recopilar la reacción del teclado. En la pantalla Presentación, realice la siguiente acción.
    1. Agregue un componente de sonido y asígnele el nombre Checking_audio, con Hora de inicio establecida como 0 y deje en blanco la celda Duración de parada. Establezca la celda de sonido como $Sound, con Establecer cada repetición activado.
    2. Agregue un componente de texto denominado Show_names, con Condición de inicio escrito con un comando:
      Checking_audio.status == FINALIZADO
      y deje en blanco Duración de la parada. Establezca la celda de texto en $ People_Name, con Establecer cada repetición activada.
    3. Agregue un componente de teclado y asígnele el título Key_Response_Check, con la condición de inicio Checking_audio.status == FINISHED y deje en blanco Duración de parada. Seleccione Forzar el final de la rutina con las teclas Permitidas num_1, num_2 y num_3 constante restante para que los participantes puedan usar el teclado numérico para indexar su elección.
    4. Agregue una fijación llamada Cross_Check, con Hora de inicio siendo 0 y entrada de condición de parada con Checking_audio.status == FINISHED. Agregue un + a la celda de texto, que seleccionará Establecer cada repetición.
  3. Inserte un componente de código. En la sección Iniciar experimento, inicialice total_trials, current_correct, current_incorrect y current_accuracy como 0. En la rutina Comenzar, defina user_input como Ninguno. En la sección Cada fotograma, recopile la entrada del usuario del teclado y compruébela con la respuesta correcta almacenada en el archivo de hoja de cálculo, con un código de tecla de user_key = Key_Response_Check.keys para extraer 1, 2 o 3. Luego, úselo para medir el 1, 2 o 3 almacenado en una columna llamada Correctly_recognize_one_out_of_three.
  4. Una vez fuera del circuito, asegúrese de que aparezca una pantalla de comentarios con el siguiente mensaje: check_feedbacks.text = f" El segundo paso está completo.\nHa identificado al hablante en un total de {total_trials} oraciones,\nHablantes {current_correct} reconocidos correctamente,\nHablantes {current_incorrect} juzgados incorrectamente.\nSu tasa de precisión general es {current_accuracy}%.\n\nSi está por debajo del 83,33%, Por favor, indíquele al experimentador,\nSe vuelve a familiarizar con los tres altavoces mencionados anteriormente.\n\nSi cumple con los requisitos, presione la barra espaciadora para continuar.
4. Sesión de prueba: clasificación del antiguo y del nuevo hablante
  1. Defina un bucle titulado Testing. Incluye Fijación y Blank (lo mismo que en la sesión de entrenamiento) y una pantalla de Presentación.
  2. Prepare la sección de Presentación como se muestra a continuación.
    1. Agregue un componente de reproducción de sonido, Testing_sound, con configuraciones idénticas a las de la sesión de entrenamiento. Agregue un componente Key_response_old_new, que tenga una condición de inicio de Testing_sound.status == FINISHED, deje Duración de parada en blanco y marque Forzar fin de rutina. En las teclas permitidas, incluya f y j y seleccione Constante.
  3. Agregue un componente de texto llamado Testing_old_new, con la condición de inicio Testing_sound.status == FINISHED, deje la duración de la parada en blanco y deje la celda de texto en blanco con establecer cada repetición - el texto será definido por un componente de código posterior.
  4. Agregue un Cross_Testing, con la Hora de inicio siendo 0, la Condición de parada siendo Testing_sound.status == FINALIZADO, y un + en la celda de Texto mientras Establecer cada repetición está activado.
  5. Agregue un componente Code como se describe a continuación.
    1. En la sección Iniciar experimento, inicialice el número total de ensayos (total_trials_t), el número de ensayos correctos (correct_trials_t) y el número de ensayos incorrectos (incorrect_trials_t).
    2. En la sección Comenzar rutina, comience con una verificación condicional para determinar el formato de presentación en función del número de identificación del participante (expInfo["Participante"]). Si el número de identificación es impar, asegúrese de que las instrucciones para identificar los estímulos antiguos frente a los nuevos se presenten en un formato, ya sea ("Viejo(F) Nuevo(J)") o ("Nuevo (F) 'Viejo (J)").
    3. Fuera de este bucle, hay una pantalla de retroalimentación con un componente de código. Asegúrese de que en cada sección del marco se lea: testing_feedbacks.text = f"Ha identificado al hablante en un total de {total_trials_t} oraciones,\nHablantes {correct_trials_t} reconocidos correctamente,\nHablantes {incorrect_trials_t} juzgados incorrectamente.\nSu tasa de precisión general es {accuracy_t:.2f}%.\nPresione la barra espaciadora para finalizar esta parte actual.
5. Conecte el programa con el sistema de productos para el cerebro como se describe a continuación.
  1. Sincronice el marcador estableciendo un marcador al inicio de cada audio. Antes del comienzo del Training_A de bucle, defina un protocolo de envío de marcadores de EEG en el componente de código Begin Experiment, como se describe a continuación.
    1. Importe los componentes esenciales de PsychoPy, incluido el módulo paralelo, y configure la dirección del puerto paralelo mediante 0x3EFC.
    2. Establezca una función sendTrigger para transmitir marcadores de EEG. Esta función envía un triggerCode especificado a través del puerto paralelo con parallel.setData(triggerCode) después de verificar si es un entero NumPy y convertirlo según sea necesario.
    3. Agregue una breve espera de 16 ms para garantizar la captura del marcador antes de restablecer el canal de activación a 0 con parallel.setData(0).
  2. Al enviar el marcador a la grabadora de EEG, se utiliza sendTrigger(). Incluya el nombre exacto de la columna correspondiente entre paréntesis. En este estudio, hay training_a_marker, training_b_marker, check_marker y testing_marker - consulte la columna definida anteriormente en la hoja de cálculo.

3. Recopilación de datos de EEG

Preparando el lugar
NOTA: Hay al menos dos computadoras disponibles para realizar la recopilación de datos. Una es conectarse al sistema de EEG y la otra es recopilar datos de comportamiento. Se recomienda que se construya otra pantalla para reflejar la computadora relacionada con los datos de comportamiento. El sistema consta de un amplificador y gorros de EEG pasivos.
1. Para este estudio, reclute participantes sin ninguna discapacidad auditiva del habla reportada. Asegúrese de que los participantes no tengan ningún trastorno psiquiátrico o neurológico. Se seleccionaron un total de 43 participantes, de los cuales tres fueron excluidos debido a problemas de alineación con los marcadores EEG. De los 40 restantes, hubo 20 mujeres y 20 hombres. Las mujeres tenían entre 20,70 ± 0,37 años, mientras que los hombres tenían 22,20 ± 0,37 años. Los años de escolaridad fueron de 17,55 ± 0,43 para las mujeres y de 18,75 ± 0,38 para los hombres.
2. Asigne identificaciones de participantes e invite a los participantes a lavarse y secarse el cabello dentro de una hora antes de participar en el experimento.
3. Mezcle el gel de electrolito y el gel de electrolito abrasivo en una proporción de 1:3, agregando una pequeña cantidad de agua. Revuelva la mezcla uniformemente en un recipiente con una cuchara.
4. Prepare hisopos de algodón de punta fina y un gorro de electroencefalograma seco.
5. Pida al participante que se siente cómodamente en una silla e infórmele que el experimentador aplicará el gorro de EEG. Explique que la pasta conductora, que es inofensiva para los seres humanos y mejora la recepción de señales cerebrales, se aplica a los orificios de la gorra con hisopos de algodón.
6. Proporcionar al participante instrucciones sobre las tareas experimentales y un formulario de consentimiento informado para el experimento. Continúe con la fase de preparación después de obtener la firma del participante.
7. Conecte el gorro de EEG al amplificador, que a su vez se conecta a la computadora de adquisición de datos de EEG. Este estudio utiliza un tapón pasivo, por lo que es necesario utilizar un monitor adicional para comprobar los indicadores de color de los 64 electrodos.
8. Abra BrainVision Recorder³³ e importe un archivo de espacio de trabajo personalizado que haya definido los parámetros de grabación. Haga clic en Monitor para comprobar la impedancia. La barra de color, de rojo a verde, está influenciada por los niveles de resistencia establecidos, con impedancias objetivo que van de 0 a 10 kΩ.
Preparación de los participantes
1. Pida al participante que se siente derecho en una silla. Seleccione un sistema de electrodos pasivos a base de gel del tamaño adecuado (tamaño 54 o 56) para la cabeza del participante y asegúrese de que el sistema de electrodos esté correctamente ajustado de acuerdo con el sistema 10-20^28,34.
2. Comience sumergiendo un hisopo de algodón desechable en la pasta conductora y aplicándolo en los agujeros de la gorra, asegurándose de frotar contra el cuero cabelludo del participante. El indicador correspondiente de un electrodo que se vuelve verde en la computadora de recolección de datos de EEG significa que está recopilando datos óptimos con éxito.
3. Después de que el color indicativo de todos los electrodos en la pantalla, excepto los dos electrodos de lados independientes, se vuelva verde (en la pantalla del monitor), aplique la pasta conductora a los electrodos laterales. Coloque el electrodo izquierdo cerca del ojo izquierdo del participante, en el área del párpado inferior, y el electrodo derecho cerca de la sien derecha.
4. Una vez que todos los electrodos estén verdes, coloque una red elástica sobre la cabeza del participante para ayudar a que el gorro de EEG se ajuste de manera más segura y estable contra la cabeza del participante.
5. Equipar al participante con auriculares con cable (auriculares específicos de conducción aérea utilizados en el laboratorio). Cierre la puerta de blindaje electromagnético y guíe las acciones del participante a través de un micrófono que permite la comunicación interior y exterior. Además, monitorear los movimientos del participante a través de un monitor externo, como recordarle que no mueva su cuerpo significativamente; También monitoree el progreso del participante en las tareas de comportamiento a través de un monitor de datos de comportamiento.
6. Pida al participante que use audífonos conectados a la computadora de recolección conductual a través de una interfaz de audio.
Ejecución del experimento bloque por bloque de forma independiente
1. En la computadora de recolección de datos de EEG, abra BrainVision Recorder y haga clic en Monitor para verificar la impedancia y el registro de estadísticas / reanudación y comenzar a grabar. Cree un nuevo archivo de registro de EEG y asígnele el nombre correspondiente, por ejemplo, 14_2, que significa el segundo bloque para el participante número 14.
2. Abra el experimento Ejecutar del programa PsychoPy (botón verde) para el experimento de comportamiento, ingrese el ID del participante (por ejemplo, 14) y el número de bloque correspondiente (por ejemplo, 2), y haga clic en Aceptar para iniciar el experimento.
3. Supervise de cerca la precisión de los datos informados en la pantalla después de que el participante complete la fase de verificación en la computadora de datos de comportamiento. Si la precisión es inferior a 10 de 12, pida al participante que repita la sesión de entrenamiento hasta que alcance la precisión requerida antes de pasar a la fase de prueba.
4. Preste mucha atención a la precisión final del reconocimiento antiguo frente al nuevo que se informa en la pantalla después de que el participante complete la fase de prueba del bloque. Si la precisión es excepcionalmente baja (por ejemplo, por debajo del 50 %), pregunte al participante sobre las posibles razones.
Experimento post-EEG
1. Después de que el participante haya completado todos los bloques, invítelo a lavarse el cabello. Limpie el gorro de EEG eliminando la pasta conductora residual con un cepillo de dientes, teniendo cuidado de no mojar los conectores de señal y envolviéndolos en bolsas de plástico. Una vez limpio, cuelgue el gorro de EEG en un área bien ventilada para que se seque.
2. Copie los datos de EEG y de comportamiento en un disco duro portátil, asegurándose de que los datos de EEG y los datos de comportamiento coincidan. Por ejemplo, los datos de EEG se denominan con dos archivos, 14_2.eeg y 14_2.vhdr, y los datos de comportamiento como un archivo 14_2.xlsx.

4. Procesamiento de datos EEG

NOTA: Las siguientes descripciones implican el preprocesamiento de datos de EEG, el análisis estadístico y la visualización mediante MATLAB y RStudio para el procesamiento por lotes.

Preprocesamiento de los datos de EEG con MATLAB
1. Fusión del EEG y los datos de comportamiento
  1. Dado que es posible que los participantes deban rehacer la tarea si no alcanzan la precisión requerida de 10/12 o superior, lo que afecta la nomenclatura de los datos de EEG y comportamiento, por ejemplo, 14_2.vhdr podría convertirse en 14_2(1).vhdr, estandarice los nombres de archivo eliminando caracteres que no sean 14_2. Al iterar a través de los datos de cada participante, asigne a los archivos de datos el nombre sub, stripped_filename, .set, lo que da como resultado archivos como sub14_2.set (que contiene metadatos y enlaces al conjunto de datos de EEG) y sub10_1.fdt (los datos de EEG reales) guardados automáticamente. Esto cambia el nombre de los archivos 14_2.vhdr y 14_2.eeg a sub14_2.fdt y sub14_2.set.
  2. Utilice la función EEG = pop_mergeset() para fusionar los datos en un solo archivo para cada participante, combinando diferentes datos de bloques en orden cronológico en lugar de en orden numérico de los bloques 1,2,3,4.
  3. Combine varios archivos de datos de comportamiento en una hoja de cálculo por participante según el orden cronológico, lo cual es esencial para la sincronización posterior.
  4. Personalice el código para sincronizar las pruebas en las señales de EEG con las pruebas en las señales de comportamiento. Por ejemplo, testing_list = [37:108, 145:216, 253:324, 361:432] correspondería a los puntos marcadores de EEG para los cuatro bloques.
  5. Convierta la hoja de cálculo de datos de comportamiento en un archivo .txt, lo que dará como resultado una tabla con datos tanto en filas como en columnas. Los nombres de columna incluyen la mayoría de los mencionados en el paso 2.1.
  6. Redefina el contenido de los datos de EEG agregando información a los datos de EEG utilizando un código similar al siguiente, por ejemplo, EEG = pop_importepoch(EEG, behav_txt_path, {'Época', 'Sonido', 'Altavoz', 'Género', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Respuesta'}, 'unidad de tiempo', 1, 'encabezados', 1). Este proceso fusiona los datos de EEG y comportamiento correspondientes de cada participante a través del procesamiento por lotes.
    NOTA: Los valores de respuesta de 1 y 0 provienen de datos de comportamiento, donde 1 representa un juicio correcto y 0 representa uno incorrecto.
2. Preprocesamiento de los datos de EEG
  1. Para referencia y rereferencia^29,35, llame a la función pop_reref para volver a referenciar los datos del EEG al electrodo FCz, asegurándose de que cada señal se calcule en relación con el electrodo FCz. Utilice la función pop_reref para volver a referenciar los datos del EEG a los canales 28 y 29, que representan los electrodos mastoides bilaterales ubicados en el cuero cabelludo posterior, asegurándose de que cada señal se calcule en relación con las mastoides bilaterales.
  2. Establezca un filtro de paso alto (para eliminar tendencias lineales) con EEG = pop_eegfiltnew(EEG, [], 0,1, 16500, 1, [], 0) y realice la corrección basal de -500 a 0 ms con EEG = pop_rmbase(EEG, [-500 0]).
  3. Inspeccione manualmente las pruebas incorrectas: después de importar los datos con EEGLAB, seleccione Trazar, luego haga clic en Datos de canal (desplazamiento) y establezca el valor máximo en 50.
  4. Elimine las pruebas con artefactos musculares visibles y otros tipos de artefactos y marque los electrodos defectuosos: al pasar el mouse sobre la forma de onda del canal, se mostrará su electrodo. Registre todos los electrodos defectuosos, regrese a la página principal de EEGLAB, seleccione Interpolar electrodos en Herramientas, elija Seleccionar de canales de datos, seleccione los electrodos que necesitan interpolación y confirme con OK. Guarde el archivo en una nueva carpeta.
  5. Realizar análisis de componentes principales (PCA) con EEG = pop_runica(EEG, 'extendido', 1, 'pca', 30, 'interupt', 'on'). Rechace manualmente las ICA problemáticas, elimine los artefactos de los ojos, los músculos y el ruido del canal y, a continuación, guarde el archivo.
  6. Utilice la función pop_eegthresh para establecer un umbral de -75 a +75 Hz para eliminar los valores extremos 34,36,37.
  7. Aplique pop_eegfiltnew con los parámetros establecidos (el tercer parámetro de entrada) a 30 para conservar las frecuencias de 30 Hz e inferiores a³⁸.
  8. Personalice el código para enumerar todas las condiciones de interés, incluidas old_new_speaker = {'viejo', 'nuevo'}; same_different_prosody = {'igual', 'diferente'}; Confidence_level = {'c', 'd'}; y Respuesta = {'1', '0'}. A continuación, combine estas condiciones para crear combinaciones de datos como sub1_new_different_c_0 y guárdelas como archivos con una extensión txt.
Análisis de ERPs con RStudio
1. Para organizar los datos, conviértalos a un formato largo. Importe todos los archivos .txt en RStudio y utilice la función rbind para anexar cada marco de datos temporal a alldata, creando un marco de datos grande que contenga todos los datos del archivo. Cambie el nombre de la columna Fila de todos los datos a Tiempo para mayor precisión. Utilice la función de fusión para convertir todos los datos de formato amplio a formato largo (Data_Long), donde cada observación ocupa una fila e incluye todas las condiciones relacionadas e información del canal.
2. Utilice la función de filtro del paquete dplyr para seleccionar datos que coincidan con condiciones específicas: Juicio es 1. La fuente es h. La memoria es vieja o nueva. La prosodia es c o d.
3. Defina las regiones en función de los canales de los electrodos de la siguiente manera: Anterior izquierdo (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Central izquierda (C3, T7, CP5, C5, TP7, CP3). Posterior izquierda (P3, P7, P5, PO7, PO3). Medial anterior (Fz, AFz, FC1, FC2, F1, F2, FCz). Medial central (CP1, CP2, Cz, C1, C2, CPz). Medial posterior (Pz, O1, Oz, O2, P1, POz, P2). Anterior derecho (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Central derecha (CP6, C4, T8, CP4, C6, TP8). Posterior derecha (P4, P8, PO4, PO8, P6). Agrupe estas regiones en regiones anterior, central y posterior.
4. Guarde el espacio de trabajo para la carga de datos posterior. Para guardar, use setwd(); Para cargar, use load().
Análisis estadístico
1. Para el análisis de datos de EEG en todos los electrodos, filtre el conjunto de datos para incluir solo puntos de datos relevantes donde el juicio sea 1, la fuente sea h, la memoria sea antigua o nueva, el sujeto no esté vacío y el tiempo esté entre 400 y 850 ms.
2. Actualice los nombres de las regiones de interés (ROI) en función de asignaciones predefinidas. Por ejemplo, anterior izquierdo, anterior medial y anterior derecho son para anterior.
3. Ajuste un modelo lineal de efectos mixtos a los datos utilizando lmer del paquete lme4³⁹, con Voltaje como variable de respuesta y Memoria y ROI como efectos fijos, incluyendo intersecciones aleatorias para Sujeto y Canal: fit_time_window <- lmer(Voltaje ~ Memoria * ROI + (1|Asunto) + (1| canal), datos=DATOS). Reemplace DATOS con datos combinados, solo con confianza y solo con dudosos repetidamente. Vea un código de ejemplo en OSF³².
  1. Obtenga los resultados del análisis del modelo ajustado: anova(fit_time_window), eta_squared(fit_time_window) y emmeans(fit_time_window, specs = pairwise ~ Memory * ROI, adjust = "Tukey").
4. Para el análisis de datos de EEG en Pz, al filtrar el conjunto de datos, siga los mismos pasos que los anteriores, pero también agregue la condición Canal == 'ChPz'. Repita el proceso anterior, pero use lmer(Voltaje ~ Memoria + (1|Subject)) para analizar datos Pz de 400 a 850 ms.
5. Para trazar los ERP en el Pz (repita sobre el conjunto de datos combinado, solo con confianza y solo con duda), filtre el conjunto de datos para incluir solo puntos de datos relevantes donde el juicio es 1, la fuente es h, la memoria es antigua o nueva y el asunto no está vacío.
  1. Defina un vector que contenga varios puntos de electrodo (incluido Pz) y prefíjelos con Ch para que coincidan con la convención de nomenclatura de canales en los datos. Seleccione Pz out.
  2. Especifique la ventana de tiempo para el análisis ERP: time_window <- c(400, 850). Defina el electrodo de interés, en este caso, Pz. Recorra el electrodo seleccionado y cree gráficos como se describe a continuación.
    1. Filtre los datos para el electrodo Pz usando un filtro (Canal == k) para aislar los puntos de datos relevantes.
    2. Cree un factor de interacción para el tipo de línea y el color en función de la condición Memory mediante interaction(current_channel_data$Memory) y etiquete las condiciones como Old y New.
    3. Calcule las estadísticas de resumen y el error estándar para las mediciones de voltaje a lo largo del tiempo utilizando la función summarySEwithin, especificando el voltaje como la variable de medida y el tiempo como la variable dentro.
    4. Genere el gráfico ERP para el electrodo Pz, agregando un fondo para la ventana de tiempo especificada utilizando geom_rect con los parámetros xmin, xmax, ymin e ymax. Incluya cintas de error estándar con geom_ribbon, dibujando el voltaje medio con geom_line. Personalice la apariencia y las etiquetas del gráfico utilizando funciones como scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual y scale_color_manual.
  3. Utilice theme_minimal para el tema base y personalice aún más los tamaños de texto y la ubicación de las leyendas con el tema.
Trazado de topografía con MATLAB
1. Importe datos y configure condiciones, defina la lista de sujetos de 1 a 40 con subject_list = 1:40. Defina dos matrices de celdas vacías para almacenar datos para clasificaciones correctas de condiciones antiguas y nuevas: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}. Recorra la lista de asuntos, importe los datos de cada asunto y fíltrelos en función de las condiciones.
2. Extraiga información de eventos de los datos sin procesar de EEGLAB, seleccionando solo los eventos con una respuesta igual a 1. Seleccione las pruebas con Source igual a h y actualice la estructura de datos en consecuencia. Separe los datos para las condiciones antiguas y nuevas, limite a los ensayos correctos con la fuente h y realice análisis de bloqueo de tiempo.
  1. Calcule el promedio general para las condiciones antiguas y nuevas: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}).
3. Realice la prueba de permutación como se describe a continuación.
  1. Defina la configuración del vecino utilizando un archivo de diseño especificado: cfg_neigh = []; cfg_neigh.método = 'distancia'; cfg_neigh.layout = 'path_to_layout_file'; vecinos = ft_prepare_neighbours(cfg_neigh).
  2. Configure los parámetros para la prueba de permutación, incluida la matriz de diseño y el método estadístico: cfg = []; cfg.method = 'montecarlo'; cfg.statistic = 'ft_statfun_indepsamplesT'; cfg.correctm = 'clúster'; cfg.clusteralpha = 0,05; cfg.clusterstatistic = 'maxsum'; cfg.minnbchan = 2; cfg.cola = 0; cfg.cola de racimo = 0; cfg.alfa = 0,05; cfg.numaleatorización = 1000; cfg.neighbours = vecinos; cfg.design = [2*unos(1, longitud(human_timelocked_new_correct)) unos(1, longitud(human_timelocked_old_correct))]; cfg.ivar = 1. Además, consulte el siguiente enlace (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/) para ver tutoriales sobre el uso de Fieldtrip⁴⁰.
  3. Realice la prueba estadística sobre los datos promediados para condiciones antiguas y nuevas: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
4. Realice un trazado de intervalos personalizado como se describe a continuación.
  1. Calcule la diferencia entre las dos condiciones: cfg = []; cfg.operación = 'restar'; cfg.parámetro = 'promedio'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
  2. Defina ventanas de tiempo: time_windows = { [0.500, 0.800] % LPC}.
  3. Cree una figura y represente la diferencia entre las condiciones con ft_topoplotER(cfg_plot, grandavg_difference).

Resultados

El clásico efecto viejo/nuevo se caracteriza por un aumento significativo en la actividad cerebral de los oyentes en el electrodo Pz (entre 300 y 700 ms) cuando el contenido del habla de la sesión de prueba coincide con el de la sesión de entrenamiento, particularmente en la condición de hablante antiguo en comparación con la condición de hablante nuevo²². El protocolo revela una versión actualizada de este efecto: en primer lugar, la observación de tendencias positivas más grandes en el electrodo Pz y en toda la región del cerebro para la condición antigua en comparación con la nueva condición del hablante entre 400 y 850 ms. En segundo lugar, el contenido del discurso en la sesión de prueba diferirá del de la sesión de formación. En tercer lugar, se espera que tanto las condiciones de prosodia del habla segura como las dudosas presenten estas tendencias. Por último, el efecto viejo/nuevo es más pronunciado en condiciones dudosas durante la sesión de prueba (Figura 2).

El análisis LMER con la fórmula

lmer(Voltaje ~ Memoria * ROI + (1|Sujeto) + (1|Canal))

sugiere que ambos tipos de memoria (antigua versus nueva) y el ROI tienen efectos principales, así como una interacción entre la memoria y el ROI (Tabla 1). Un análisis post-hoc posterior reveló que, en todas las regiones del cerebro, la condición antigua exhibe un voltaje positivo mayor que la condición dudosa, incluso en las regiones anterior, central y posterior (Tabla 2). La comparación de los valores beta sugiere que el efecto antiguo/nuevo fue más pronunciado en los electrodos central y posterior que en los electrodos anteriores: para el conjunto de datos combinado: β anterior = 0,40, β central = 0,63 y β posterior = 0,60; para el conjunto de datos seguro: β anterior = .61, β central = .63 y β posterior = .76, y para el conjunto de datos dudoso: β anterior = .44, β central = .87 y β posterior = .69. La afectación de los electrodos central y posterior fue más notable en la condición de prosodia dudosa.

Con la fórmula

lmer(Voltaje ~ Memoria + (1|Asunto))

confirmamos la existencia de efectos antiguos/nuevos en el electrodo Pz. En el electrodo Pz, se observó un efecto principal de la memoria (antigua versus nueva) (F(1, 69341.99) = 120.46, p < .001, η²_p = .002, β = .425, SE = .039, relación z = 10.98, p < .001). En la condición de solo confianza, se observó un efecto principal de la memoria (antigua versus nueva) en el electrodo Pz (F(1, 34318.32) = 5.04, p = .025, η²_p = .0001, β = .125, SE = .056, z-ratio = 2.25, p = .025). En la condición de solo duda, se observó un efecto principal de la memoria (antigua versus nueva) en el electrodo Pz (F(1, 34993.20) = 317.02, p < .001, η²_p = .009, β = .914, SE = .051, relación z = 17.81, p < .001).

figure-results-3206
Figura 1: Flujo de trabajo de la recopilación de datos para cada bloque. En (A) Training, los oyentes escuchan una voz y asocian el nombre que se presenta posteriormente con ella. Se requiere que se recuerden tres viejos habladores. El idioma que apareció en el programa fue originalmente el chino. La A y la C representan nombres como Xiao (Junior) ZHANG. En (B) Checking, los oyentes identifican el nombre de la persona que habla al escuchar una voz presionando 1, 2 o 3 en el teclado numérico para asociar la identidad de voz con nombres como Xiao ZHAO. En (C) Testing, los oyentes escuchan una voz y la clasifican como hablada por el hablante antiguo o nuevo. Como se ilustra en (D) Prosody Design, los oyentes aprenden que tres hablantes se expresan solo con confianza o dudas, pero escuchan a seis hablantes hablar tanto con confianza como con dudas. La apariencia de la versión A o B es mutuamente excluyente. Si la versión A aparece con un altavoz masculino o femenino, la versión B aparecerá con el altavoz femenino o masculino correspondiente. Haga clic aquí para ver una versión más grande de esta figura.

figure-results-4688
Figura 2: El efecto viejo/nuevo. (A, B, C) Las figuras muestran el ERP indicado en gris de los electrodos Pz de 400 a 850 ms para las condiciones combinadas de prosodia, solo confianza y solo duda, respectivamente. (D, E, F) Las figuras ilustran la topografía de la condición antigua menos nueva en todos los electrodos (representados como puntos negros) para las condiciones combinadas de prosodia, solo confianza y solo dudas. Haga clic aquí para ver una versión más grande de esta figura.

Contexto	Región del cerebro	Valor F	Pr(>F)	Eta2_partial
Combinado	Memoria	9938.98	.00	.00
	Retorno de la inversión	4.13	.02	.13
	Memoria:ROI	182.37	.00	.00
Confiado	Memoria	7291.22	.00	.00
	Retorno de la inversión	3.60	.03	.12
	Memoria:ROI	41.94	.00	.00
Dudoso	Memoria	8333.38	.00	.00
	Retorno de la inversión	4.65	.01	.15
	Memoria:ROI	290.15	.00	.00

Tabla 1: Resultados del análisis LMER para el efecto antiguo/nuevo en todas las regiones del cerebro: conjuntos de datos combinados, seguros y dudosos. Utilizando el análisis post-hoc, * significativo a p < .05, ** significativo a p < .01, *** significativo a p < .001.

Contexto	Región del cerebro	Contraste	Estimar	SE	z	p
Combinado	Anterior	viejo-nuevo	.40	.01	43.70	.00***
	Central	viejo-nuevo	.63	.01	61.74	.00***
	Posterior	viejo-nuevo	.60	.01	67.51	.00***
Confiado	Anterior	viejo-nuevo	.61	.01	46.63	.00***
	Central	viejo-nuevo	.63	.01	43.22	.00***
	Posterior	viejo-nuevo	.76	.01	59.95	.00***
Dudoso	Anterior	viejo-nuevo	.44	.01	35.95	.00***
	Central	viejo-nuevo	.87	.01	64.05	.00***
	Posterior	viejo-nuevo	.69	.01	57.75	.00***

Tabla 2: Resultados de pruebas post-hoc para efectos antiguos/nuevos en todas las regiones del cerebro: conjuntos de datos combinados, seguros y dudosos. Mediante análisis post-hoc, significativo a p < .001 (***).

Discusión

El estudio presenta una línea para la recopilación y el análisis de datos de EEG, centrándose en el reconocimiento de las identidades de los hablantes previamente aprendidas. Este estudio aborda las variaciones entre las fases de aprendizaje y reconocimiento, incluidas las diferencias en el contenido del habla²² y la prosodia¹⁰. El diseño es adaptable a una variedad de campos de investigación, incluida la psicolingüística, como el procesamiento de pronombres y anaforios⁴¹.

El paradigma de entrenamiento-evaluación es un diseño experimental clásico utilizado para evaluar los resultados de aprendizaje de los participantes en temas específicos como el aprendizaje por voz^42,43. Este paradigma evalúa qué tan bien los participantes han aprendido información particular (como se refleja en la precisión)¹⁰. Permite a los investigadores introducir variables de forma incremental en condiciones experimentales controladas, como diferentes prosodias durante las fases de entrenamiento y prueba, para comprender su influencia en la precisión del reconocimiento de voz, por ejemplo, voces moduladas VTL/F0²³, temerosas frente a neutras¹⁰, o dudosas frente a seguras en este estudio.

Sin embargo, el paradigma tiene limitaciones. Las diferencias entre los entornos de aprendizaje y de evaluación pueden afectar la validez de los resultados experimentales, ya que las condiciones de aprendizaje controladas pueden no reflejar las condiciones de prueba más variables. Por ejemplo, la sesión de entrenamiento utiliza una sola prosodia en lugar de una diferencia proporcional, como el 30% frente al 70%⁴⁴. Para abordar este desequilibrio, garantizar un entorno de aprendizaje más diverso podría replicar mejor los escenarios de la vida real en los que los hablantes utilizan prosodias variadas mientras interactúan con los oyentes. Además, este estudio reconoce que la complejidad del diseño experimental, que implica múltiples etapas y una programación sofisticada (utilizando herramientas como R Studio, MATLAB y Python), puede ser un desafío para los recién llegados.

La idea principal enfatiza la importancia de una familiarización adecuada y una fase de comprobación. El trabajo de Xu y Armony pone de manifiesto que los oyentes tienen dificultades para identificar las identidades de los viejos hablantes sin suficiente formación y comprobaciones por encima de los niveles^{de probabilidad 10}. Además, Zaske et al. encontraron que el efecto LPC viejo/nuevo solo estaba presente cuando se repetía el mismo texto, no con un texto diferente²². En este estudio, la implementación de una fase de verificación reveló la persistencia del efecto ERP antiguo/nuevo, incluso con diferentes estímulos de texto, lo que apoya las afirmaciones de los estudios de resonancia magnética^{funcional 21}. El estudio sugiere que, para los paradigmas basados en pruebas de entrenamiento, es fundamental insertar una sesión de comprobación. Permite a los oyentes formarse una impresión sólida de la identidad acústica del hablante, asociando a un hablante con un símbolo específico, como un nombre²³. Sin un aprendizaje suficiente de la representación del hablante, los oyentes pueden tener dificultades para adaptarse a las variaciones dentro del hablante¹⁰.

En este estudio también se observó el papel de la prosodia como señal vinculante para el reconocimiento del hablante⁴⁵. Contrariamente a las opiniones previas de que la prosodia puede dificultar el reconocimiento de la persona que habla antiguamente, este estudio encontró el efecto viejo/nuevo presente en las condiciones de prosodia seguras y dudosas. Este efecto robusto sugiere un papel de modulación de la prosodia en el reconocimiento del hablante. Un análisis posterior reveló diferencias en la activación de la región anterior entre las afecciones de prosodia. La prosodia segura provocó niveles más bajos del efecto viejo/nuevo en las regiones anteriores en comparación con la prosodia dudosa. Este hallazgo sugiere que el habla segura puede hacer que la identificación del hablante sea más difícil debido a la extensión de la longitud del tracto vocal y la disminución de la frecuencia fundamental, lo que podría conducir a una mayor atención de los oyentes^11,29.

El diseño de este estudio puede servir de base para futuras investigaciones sobre las alteraciones del reconocimiento en poblaciones de pacientes, como aquellos con prosopagnosia o fonagnosia^46,47. Además, las modificaciones para acomodar a los participantes con períodos de atención más cortos, como las personas con trastornos del espectro autista⁴⁸, podrían mejorar la accesibilidad al estudio.

Además, el paradigma se extiende más allá del reconocimiento del hablante para investigar el procesamiento de pronombres y la comprensión anafórica dentro de la investigación psicolingüística. Coopmans y Nieuwland⁴¹ demuestran cómo los patrones de sincronización oscilatoria neuronal distinguen entre la activación antecedente y la integración en la comprensión del anáforo, lo que se alinea con la exploración de este estudio de las señales relacionadas con la identidad. Las pistas incluyen estilos comunicativos (por ejemplo, declaraciones literales o irónicas), órdenes de palabras (estructura de oración Sujeto-Objeto-Verbo (SOV) u Objeto-Sujeto-Verbo (OSV) 44,45,49,50) y tipos de expresión vocal (prosodia segura vs. dudosa) en este artículo.

Divulgaciones

No hay información que deba ser revelada.

Agradecimientos

Este trabajo contó con el apoyo de la Fundación de Ciencias Naturales de China (Subvención Nº 31971037); el Programa Shuguang, apoyado por la Fundación para el Desarrollo de la Educación de Shanghái y el Comité Municipal de Educación de Shanghái (Subvención Nº 20SG31); la Fundación de Ciencias Naturales de Shanghái (22ZR1460200); el Programa de Orientación para Supervisores de la Universidad de Estudios Internacionales de Shanghái (2022113001); y el Programa Principal de la Fundación Nacional de Ciencias Sociales de China (Subvención Nº 18ZDA293).

Materiales

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Referencias

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Comportamiento N mero 210 Reconocimiento del hablante expresi n vocal prosodia del habla potenciales relacionados con eventos voz

This article has been published

Video Coming Soon

Keep me updated: