Paradigma di formazione e test basato sulla memorizzazione per un robusto riconoscimento dell'identità vocale nel parlato espressivo utilizzando l'analisi dei potenziali correlati agli eventi

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

Method Article

Paradigma di formazione e test basato sulla memorizzazione per un robusto riconoscimento dell'identità vocale nel parlato espressivo utilizzando l'analisi dei potenziali correlati agli eventi

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

Riepilogo

Lo studio introduce un paradigma di training-testing per indagare gli effetti vecchi/nuovi dei potenziali correlati agli eventi in scenari prosodici sicuri e dubbi. I dati rivelano un aumento della componente positiva tardiva tra 400-850 ms a Pz e ad altri elettrodi. Questa pipeline può esplorare fattori che vanno oltre la prosodia del parlato e la loro influenza sull'identificazione del bersaglio di vincolo al segnale.

Abstract

Riconoscere i parlanti familiari dai flussi vocali è un aspetto fondamentale della comunicazione verbale umana. Tuttavia, non è chiaro come gli ascoltatori possano ancora discernere l'identità di chi parla nel discorso espressivo. Questo studio sviluppa un approccio di riconoscimento dell'identità del parlante individuale basato sulla memorizzazione e una pipeline di analisi dei dati dell'elettroencefalogramma (EEG) di accompagnamento, che monitora il modo in cui gli ascoltatori riconoscono i parlanti familiari e distinguono quelli non familiari. I dati EEG catturano i processi cognitivi online durante la distinzione tra i nuovi e i vecchi parlanti in base alla voce, offrendo una misura in tempo reale dell'attività cerebrale, superando i limiti dei tempi di reazione e le misurazioni dell'accuratezza. Il paradigma comprende tre fasi: gli ascoltatori stabiliscono associazioni tra tre voci e i loro nomi (formazione); gli ascoltatori indicano il nome corrispondente ad una voce di tre candidati (checking); Gli ascoltatori distinguono tra tre voci vecchie e tre nuove voci in un compito alternativo a scelta forzata (test). La prosodia del linguaggio nei test era sicura o dubbia. I dati EEG sono stati raccolti utilizzando un sistema EEG a 64 canali, seguiti da pre-elaborazione e importati in RStudio per ERP e analisi statistiche e MATLAB per la topografia cerebrale. I risultati hanno mostrato che una componente positiva tardiva (LPC) ingrandita è stata suscitata nel vecchio parlante rispetto alla condizione di nuovo oratore nella finestra 400-850 ms nel Pz e in altri elettrodi più ampi in entrambe le prosodie. Tuttavia, l'effetto vecchio/nuovo era robusto negli elettrodi centrali e posteriori per la percezione dubbia della prosodia, mentre gli elettrodi anteriori, centrali e posteriori sono per la condizione di prosodia sicura. Questo studio propone che questo disegno dell'esperimento possa servire come riferimento per studiare gli effetti di legame del segnale specifico del parlante in vari scenari (ad esempio, l'espressione anaforica) e patologie in pazienti come la fonagnosia.

Introduzione

I flussi vocali umani sono ricchi di informazioni, come l'emozione ^1,2, lo stato di salute ^3,4, il sesso biologico⁵, l'età⁶ e, soprattutto, l'identità vocale individuale ^7,8. Gli studi hanno suggerito che gli ascoltatori umani hanno una solida capacità di riconoscere e differenziare l'identità dei loro pari attraverso le voci, superando le variazioni all'interno del parlante intorno alla rappresentazione media dell'identità del parlante nello spazio acustico⁹. Tali variazioni sono determinate da una manipolazione acustica (frequenza fondamentale e lunghezza del tratto vocale, cioè F0 e VTL) che non corrisponde a chiare intenzioni pragmatiche⁹, prosodie emotive¹⁰ e sicurezza vocale che trasmette la sensazione di sapere dei parlanti¹¹. Gli esperimenti comportamentali si sono concentrati su molti fattori che influenzano le prestazioni degli ascoltatori nel riconoscere i parlanti, tra cui le manipolazioni legate al linguaggio ^8,12,13, le caratteristiche relative ai partecipanti come l'esperienza musicale o la capacità di lettura^14,15 e gli adattamenti correlati agli stimoli come il discorso all'indietro o le non-parole^16,17; Altri possono essere trovati nelle recensioni della letteratura^18,19. Alcuni esperimenti recenti hanno indagato come la variazione individuale della rappresentazione dell'identità del parlante possa minare l'accuratezza del riconoscimento, considerando aspetti tra cui l'alta e bassa espressività emotiva¹⁶ e le prosodie neutre rispetto a quelle paurose⁵; Si aprono altri possibili scenari per ulteriori indagini, come suggerito da un riesame²⁰.

Per la prima lacuna di ricerca, lo studio propone che le basi neurologiche dell'identificazione del parlante debbano ancora esplorare completamente come la variazione all'interno del parlante sfida le attività cerebrali degli ascoltatori. Ad esempio, in un compito di riconoscimento del parlante basato sulla risonanza magnetica funzionale di Zäske et al., il giro temporale posteriore superiore destro (pSTG), il giro frontale inferiore / medio destro (IFG / MFG), il giro frontale mediale destro e il caudato sinistro hanno mostrato un'attivazione ridotta quando correttamente identificati come vecchi rispetto ai nuovi parlanti, indipendentemente dal fatto che il contenuto linguistico fosse lo stesso o diverso²¹. Tuttavia, un precedente studio di elettroencefalografia (EEG) di Zäske et al. non ha osservato questo effetto vecchio/nuovo quando la variazione dell'identità del parlante è stata introdotta attraverso testi diversi²². In particolare, una componente positiva tardiva (LPC) più grande che va da 300 a 700 ms, rilevata all'elettrodo Pz quando gli ascoltatori incontravano il loro familiare parlatore addestrato che esprimeva lo stesso testo (cioè ascoltando un replay con contenuto linguistico non variato), era assente quando i parlanti consegnavano nuovi testi.

A sostegno dell'affermazione di Zäske et ^al.21, questo studio sospetta che un effetto vecchio/nuovo possa ancora essere osservato nonostante le differenze nel contenuto linguistico tra le sessioni di formazione e di test nelle analisi del potenziale correlato agli eventi (ERP). Questa logica deriva dall'idea che l'assenza dell'effetto vecchio/nuovo in Zäske et ^al.22, in condizioni in cui sono stati utilizzati testi diversi, può essere attribuita alla mancanza di una sessione di controllo aggiuntiva durante il compito di formazione per garantire un apprendimento completo ed efficace dell'identità, come suggerito da Lavan et ^al.23. Di conseguenza, il primo obiettivo dello studio è quello di esaminare e convalidare questa ipotesi. Questo studio mira a testare questo aspetto aggiungendo una sessione di controllo al paradigma formazione-test²².

Un'altra questione chiave che questo studio mira ad affrontare è la robustezza dell'identificazione del parlante in presenza di prosodia vocale. Precedenti studi comportamentali hanno suggerito che gli ascoltatori faticano particolarmente a riconoscere i parlanti attraverso diverse prosodie, il che indica un ruolo modulatorio del contesto prosodico - gli ascoltatori hanno ottenuto risultati inferiori nelle diverse condizioni di prosodia di training-test. Questo studio mira a testare questo esponendo gli ascoltatori a riconoscere i parlatori familiari in prosodie sicure o dubbie²⁴. Questo studio prevede che le differenze ERP osservate aiuteranno a spiegare come la prosodia del linguaggio influenzi il riconoscimento dell'identità.

L'obiettivo principale del presente studio è quello di indagare la robustezza dell'effetto vecchio/nuovo nel riconoscimento del parlante, esaminando in particolare se ci sono differenze nel riconoscere i parlanti in prosodie sicure rispetto a quelle dubbie. Xu e Armony¹⁰ hanno condotto uno studio comportamentale utilizzando un paradigma di training-test, e i loro risultati suggeriscono che gli ascoltatori non possono superare le differenze prosodiche (ad esempio, addestrati a riconoscere un parlante in prosodia neutra e testati sulla prosodia paurosa) e possono raggiungere solo una precisione inferiore al livello di probabilità¹⁰. L'analisi acustica indica che i diffusori che esprimono vari stati emotivi sono associati alla modulazione VTL/F0; ad esempio, la prosodia fiduciosa è caratterizzata da VTL allungato e F0 inferiore, mentre è vero il contrario per la prosodia dubbia^11,24. Un'altra prova viene dallo studio di Lavan et ^al.23, che ha confermato che gli ascoltatori possono adattarsi ai cambiamenti VTL e F0 del parlante e formare rappresentazioni basate sulla media dei parlanti. Questo studio riconcilia il fatto che, dal punto di vista dei dati comportamentali, è probabile che gli ascoltatori riconoscano ancora l'identità del parlante attraverso le prosodie (ad esempio, addestrati a riconoscerne uno in prosodia sicura ma testato in prosodia dubbia; riportato in un manoscritto separato in preparazione). Tuttavia, i correlati neurali dell'identificazione del parlante, in particolare la generalizzabilità dell'effetto vecchio/nuovo osservato da Zäske et ^al.22, rimangono poco chiari. Pertanto, il presente studio è impegnato a convalidare la robustezza dell'effetto vecchio/nuovo in prosodie sicure rispetto a dubbie come contesti per la sperimentazione.

Lo studio introduce un allontanamento dai precedenti paradigmi di ricerca negli studi sugli effetti vecchi/nuovi. Mentre la ricerca passata si è concentrata su come il riconoscimento di un parlante vecchio/nuovo influenza la percezione, questo studio lo estende incorporando due livelli di fiducia (fiducioso o dubbioso) nel paradigma (quindi, uno studio 2+2). Questo ci permette di studiare il riconoscimento del parlante all'interno di contesti di prosodie vocali sicure e dubbie. Il paradigma consente l'esplorazione della robustezza di effetti vecchi/nuovi. Le analisi degli effetti della memoria e delle regioni di interesse (ROI) all'interno di contesti di linguaggio fiducioso e dubbio servono come prova per questa indagine.

Nel complesso, lo studio mira ad aggiornare la comprensione dei correlati EEG del riconoscimento vocale, con l'ipotesi che l'LPC allargato dell'effetto vecchio/nuovo dell'EEG sia osservabile anche quando 1) il contenuto linguistico non è lo stesso e 2) con la presenza di prosodia fiduciosa rispetto a dubbia. Questo studio ha indagato le ipotesi attraverso un paradigma in tre fasi. In primo luogo, durante la fase di formazione, i partecipanti hanno stabilito associazioni tra tre voci e i loro nomi corrispondenti. Successivamente, nella fase di controllo, è stato loro affidato il compito di individuare il nome corrispondente a una voce da una selezione di tre candidati. Questo controllo, seguendo Lavan et ^al.23, mira a superare l'insufficiente familiarizzazione del vecchio parlante, che ha portato all'effetto vecchio/nuovo non osservato quando il testo nelle fasi di formazione e test differiva⁶, e i parlanti non potevano riconoscere i parlanti attraverso prosodie neutre e paurose¹⁰. Infine, nella fase di test, i partecipanti hanno distinto tra tre voci vecchie e tre nuove voci in un compito alternativo a scelta forzata, con la prosodia del parlato presentata come sicura o dubbia. I dati EEG sono stati raccolti utilizzando un sistema EEG a 64 canali e sono stati sottoposti a pre-elaborazione prima dell'analisi. L'analisi statistica e l'analisi del potenziale correlato agli eventi (ERP) sono state condotte in RStudio, mentre MATLAB è stato utilizzato per l'analisi della topografia cerebrale.

Per quanto riguarda i dettagli del design, questo studio propone un esperimento di apprendimento dell'identità del parlante che controlla l'altezza del parlante, che è correlata al VTL e influenza le impressioni di chi sta parlando²³. Questo aspetto influenza anche le impressioni sociali, come la dominanza percepita²⁵, e tale formazione di impressioni di livello superiore potrebbe interagire con la decodifica dell'identità del parlante²⁶.

Protocollo

Il Comitato Etico dell'Istituto di Linguistica dell'Università di Studi Internazionali di Shanghai, ha approvato il disegno dell'esperimento descritto di seguito. Il consenso informato è stato ottenuto da tutti i partecipanti a questo studio.

1. Preparazione e validazione della libreria audio

Registrazione e montaggio audio
1. Crea un database vocale cinese seguendo la procedura standard di creare una versione inglese precedente mentre apporti adattamenti dove necessario per adattarsi al contesto di China¹¹. Per l'esperimento qui, sono state utilizzate 123 frasi contenenti tre tipi di intenzioni pragmatiche, vale a dire, giudizio, intenzione e fatto. A tale scopo, fare riferimento a un corpus¹¹ di istruzioni in inglese esistente e creare una versione cinese localizzata con scenari localizzati aggiuntivi.
2. Recluta 24 parlanti (12 donne) per esprimere queste frasi in prosodie neutre, dubbiose e sicure mentre fai riferimento e adattano le istruzioni specificate delle precedenti attività di registrazione^11,24.
  1. Per i relatori qui, arruola 24 parlanti mandarino standard della Shanghai International Studies University, 12 femmine e 12 maschi, con una competenza dimostrata in mandarino attraverso punteggi da 87 a 91 nel Putonghua Proficiency Test. I partecipanti maschi avevano un'età media di 24,55 ± 2,09 anni, con 18,55 ± 1,79 anni di istruzione e un'altezza media di 174,02 ± 20,64 cm. Le femmine avevano un'età media compresa tra 22,30 ± 2,54 anni, con 18,20 ± 2,59 anni di istruzione e un'altezza media di 165,24 ± 11,42 cm. Nessuno ha riportato disturbi del linguaggio e dell'udito o disturbi neurologici o psichiatrici.
3. Chiedi agli oratori di ripetere ogni testo due volte. Impostare la frequenza di campionamento a 48.000 Hz nel software Praat²⁷. Assicurati che nessun flusso duri più di 10 minuti, poiché Praat può rompersi, causando la perdita di registrazione.
4. Modifica il flusso audio lungo in clip per frase con Praat. Poiché ci sono due ripetizioni dello stesso testo, seleziona la versione che meglio rappresenta la prosodia prevista come frase di destinazione.
Selezione audio
1. Normalizzate la libreria audio a 70 dB e la frequenza di campionamento a 41.000 Hz con lo script Praat²⁸. Per fare ciò, apri Praat, carica i file audio e selezionali nella finestra Oggetti. Vai al menu Modifica, scegli Scala intensità..., imposta la Nuova intensità media (dB SPL) su 70 nella finestra delle impostazioni e fai clic su OK per applicare la normalizzazione.
2. Recluta 48 ascoltatori indipendenti per valutare ogni audio su una scala 7-Likert sul livello di confidenza: 1 per niente e 7 per¹¹ molto fiducioso. Assicurati che ogni frase sia stata valutata da 12 valutatori.
3. Seleziona l'audio che soddisfa le soglie designate con un principio principale: assicurati che la valutazione media per l'intenzione fiduciosa sia superiore all'audio con intenzioni dubbie. Assicurati che queste soglie siano coerenti tra 12 parlanti dello stesso sesso biologico. Ad esempio, se questi oratori hanno espresso due frasi, ciascuna con prosodie sicure e dubbie, si devono osservare differenze significative nelle valutazioni.
4. Ai fini dell'attuale progetto sperimentale, utilizzare quattro blocchi di audio, per un totale di 480 clip audio, con ogni blocco contenente 120 audio.
  1. Dividi 24 parlanti in quattro gruppi di sei, con due gruppi di maschi e due gruppi di femmine, ogni gruppo composto da parlanti dello stesso sesso biologico.
  2. Per ogni gruppo, seleziona le clip audio in base alle valutazioni percettive (sullo stesso testo), assicurandoti che le valutazioni medie di affidabilità siano superiori alle valutazioni dubbie per ogni frase. Questi quattro blocchi differiscono nei seguenti modi: 1) i sei parlatori combinati - le loro identità sono diverse; 2) metà dei blocchi sono espressi da maschi e l'altra metà da femmine; e 3) il testo espresso in ogni blocco è diverso.
5. Prima di iniziare il processo di selezione, documentare i dati sull'altezza di ciascun altoparlante. Usa queste informazioni per dividere i parlanti in quattro gruppi indipendenti in base al sesso e all'altezza.
  1. Ci sono 24 parlanti in totale, divisi equamente tra maschi e femmine. All'interno di ogni gruppo di genere, ordina i 12 individui in base all'altezza.
6. Dividi questi 12 individui in due gruppi in modo alternato; Ad esempio, da un elenco ordinato da 1 a 12, gli individui 1, 3, 5, 7, 9 e 11 formerebbero un gruppo e l'altra metà formerebbe il secondo gruppo. All'interno di questi gruppi, eseguire la selezione degli altoparlanti per le clip audio a intervalli regolari in base alla loro altezza.
  NOTA: L'inclusione dell'altezza come fattore di controllo si basa su risultati che suggeriscono che le misure acustiche correlate all'altezza dell'altoparlante (VTL e F0) influenzano il riconoscimento dell'identità dell'oratore e dell'oratore²³.

2. Programmazione per la raccolta dei dati EEG

Progettare la matrice dell'esperimento
1. Lo studio utilizza un disegno all'interno del soggetto. Prepara una sessione di test che si presenti secondo ogni materia mentre adatti la sessione di formazione. Prepara quattro blocchi, con parlanti maschili e femminili che occupano ciascuna metà dei due blocchi. Assegna due blocchi per essere addestrato alla prosodia sicura e testato sia su fiducioso che dubbioso, nonché addestrato in prosodia dubbia e testato sia su fiducioso che dubbioso, come suggerito nella Figura 1.
2. Decidere la durata degli schermi funzionanti facendo riferimento agli studi EEG esistenti sull'identificazione del parlante e sulla percezione della confidenza vocale^22,29. Organizzare la sequenza dei quattro blocchi con una matrice quadrata latina tra i partecipanti^30,31. Si consiglia di utilizzare una codifica Python personalizzata per preparare un elenco di questo tipo. Vedere il frammento di codice per la matrice del quadrato latino e l'elenco delle versioni di prova per il programma PsychoPy su OSF³².
3. Seleziona i parlatori su ogni intervallo da una sequenza di altezza dello stesso sesso biologico. Per ogni blocco, seleziona sei oratori tra i 24 oratori originali, che si raggruppano in quattro elenchi in base all'altezza riportata dai parlanti.
4. Seleziona i primi 24 nomi nei cento cognomi della famiglia cinese. Assegna casualmente i cognomi ai 24 oratori che hanno espresso l'audio rivolgendoti a loro come Xiao (Junior in cinese) ZHAO.
5. Metti insieme tutte le informazioni rilevanti in un foglio di calcolo con colonne per Parlante (da 1 a 24), Sesso biologico (maschio o femmina), Nome della persona (dai 24 cognomi), Livello di confidenza (fiducioso o dubbioso), Elemento (indice del testo), Livello di confidenza valutato (punteggio medio dello studio percettivo), Suono (ad esempio, suono/1_h_c_f_56.wav),
6. Riconosci correttamente uno su tre (1, 2 o 3) e riconosci correttamente il vecchio e il nuovo (vecchio o nuovo). Inoltre, assicurati che siano state aggiunte le colonne denominate training_a, training_b, training_c, check e test.
7. Aggiungi le colonne training_a_marker, training_b_marker, check_marker e testing_marker ai fogli di calcolo per inviare i marcatori EEG. Formatta questi marcatori con tre cifre, il che significa che anche il numero 1 è scritto come 001.
Costruzione delle tre sessioni
NOTA: Si consiglia a PsychoPy di sviluppare il programma, principalmente utilizzando la modalità builder. Il componente di codice nel builder viene inoltre utilizzato per collegare il programma con il sistema di raccolta dati EEG, controbilanciando i pulsanti F e J e calcolando l'accuratezza da riportare sullo schermo.
1. Prima di tutto, fai clic sull'icona Modifica impostazioni esperimento e regola la cella Informazioni esperimento in due campi, ovvero Partecipante e Blocco. Lasciate vuoto il valore predefinito per entrambi. In questo studio, tra i 40 partecipanti, ciascuno con quattro blocchi, 4/40 partecipanti hanno attraversato nuovamente determinati blocchi (se l'accuratezza nella sessione di controllo è inferiore a 10/12), con un tasso di ripetizione di 19 conteggi di ripetizioni/4 blocchi x 40 partecipanti = 11,875%.
2. Sessione di formazione: apprendimento ripetuto dell'identità per tre volte
  1. Definite un ciclo denominato Training_A, che contiene tre schermate: Fissazione, Presentazione e Vuoto. Spunta l'opzione Is Trials . Mantenete nReps 1, lasciando vuote le righe selezionate e il seme casuale. Scrivi la condizione come di seguito:
    "$"prove/{:}_training_a.xlsx".format(expInfor["Partecipante"]), expInfo["Blocca"])
    Dove il trials/ è il nome della cartella; Partecipante è l'indice del partecipante; Blocco è la sequenza di blocchi del blocco corrente.
  2. Nella schermata Fissaggio, aggiungi un componente di testo, con l'ora di inizio impostata su 0, l'ora di durata impostata su 2 (s) e un segno + inserito nella finestra di inserimento del testo che seleziona Imposta ogni ripetizione. Allo stesso modo, includi un componente Testo simile nella schermata vuota senza informazioni nella cella Testo e dura 0,5 secondi.
  3. Nella schermata Presentazione, eseguire le seguenti azioni:
    1. Aggiungere un componente Audio, con l'ora di inizio impostata su 0, il tempo di durata dell'arresto lasciato vuoto e l'input della cella sonora con $Sound e selezionare Imposta ogni ripetizione. Seleziona la schermata Sincronizza Inizia con.
    2. Aggiungi un altro componente Testo, con la cella Condizione di inizio inserita con Cross_for_Training_A.status == FINISHED. Lasciare vuota la cella Durata arresto. La cella di testo mostra $Name. Seleziona Imposta ogni ripetizione.
    3. Aggiungi un Key_Response_Training_A, in cui la condizione di inizio è Training_A.status == FINITO. Lasciare vuota la cella Durata arresto. Spunta la Forza fine della routine. Per la cella Chiavi consentite, aggiungere spazio; per l'impostazione, selezionare Costante.
    4. Aggiungi un Cross_for_Training_A. L'ora di inizio è impostata su 0; la cella Condizione di arresto è impostata come Training_A.status == FINISHED. Metti un segno + nella finestra di inserimento del testo e seleziona Imposta ogni ripetizione.
  4. Preparare Training_B seguendo una procedura simile a quella Training_A.
3. Sessione di controllo: Seleziona i nomi dei tre partecipanti che stanno parlando.
  1. Definire un ciclo denominato Verifica, con la stessa Fissazione e la stessa schermata vuota della sessione di allenamento.
  2. Utilizza una presentazione diversa da quella della formazione aggiungendo una funzione per raccogliere la reazione dalla tastiera. Nella schermata Presentazione, eseguire l'azione seguente.
    1. Aggiungete un componente Sound e denominatelo Checking_audio, con l'ora di inizio impostata su 0 e lasciate vuota la cella Durata interruzione. Imposta la cella sonora su $Sound, con l'opzione Imposta ogni ripetizione attivata.
    2. Aggiungi un componente di testo chiamato Show_names, con la condizione di avvio scritta con un comando:
      Checking_audio.status == FINITO
      e lasciare vuoto il campo Durata interruzione. Imposta la cella di testo su $ People_Name, con l'opzione Imposta ogni ripetizione attivata.
    3. Aggiungi un componente Tastiera e intitolalo Key_Response_Check, con la condizione di inizio Checking_audio.status == FINISHED e lascia vuota la durata dell'arresto. Selezionare Forza fine routine con i tasti consentiti num_1, num_2 e num_3 costante rimanente in modo che i partecipanti possano utilizzare il tastierino numerico per indicizzare la loro scelta.
    4. Aggiungi una fissazione chiamata Cross_Check, con l'ora di inizio 0 e l'input della condizione di arresto con Checking_audio.status == FINITO. Aggiungi un + alla cella di testo, che selezionerà Imposta ogni ripetizione.
  3. Inserire un componente di codice. Nella sezione Inizia esperimento inizializzare total_trials, current_correct, current_incorrect e current_accuracy come 0. Nella routine di inizio, definire user_input come Nessuno. Nella sezione Ogni fotogramma, raccogli l'input dell'utente dalla tastiera e confronta la risposta corretta memorizzata nel file del foglio di calcolo, con un codice chiave di user_key = Key_Response_Check.tasti per estrarre 1, 2 o 3. Quindi, usalo per misurare rispetto all'1,2 o 3 memorizzato in una colonna denominata Correctly_recognize_one_out_of_three.
  4. Una volta terminato il giro, assicurati che appaia una schermata di feedback con il seguente messaggio: check_feedbacks.text = f" Il secondo passaggio è completo.\nHai identificato l'oratore in un totale di {total_trials} frasi,\nHai riconosciuto correttamente {current_correct} altoparlanti,\nGiudicato erroneamente {current_incorrect}} parlanti.\nIl tuo tasso di precisione complessivo è del {current_accuracy}%.\n\nSe è inferiore all'83,33%, per favore fai un segnale allo sperimentatore,\nTi familiarizzi con i tre altoparlanti menzionati sopra.\n\nSe soddisfi i requisiti, premi la barra spaziatrice per continuare.
4. Sessione di test: classificazione del vecchio e del nuovo oratore
  1. Definire un ciclo denominato Test. Include Fixation e Blank (gli stessi della sessione di allenamento) e una schermata di presentazione.
  2. Prepara la sezione Presentazione come di seguito.
    1. Aggiungere un componente di riproduzione audio, Testing_sound, con impostazioni identiche a quelle della sessione di allenamento. Aggiungi un componente Key_response_old_new, che abbia una condizione di inizio di Testing_sound.status == FINITO, lascia vuoto il campo Durata arresto e spunta Forza fine routine. Nelle chiavi consentite, includi f e j e seleziona Costante.
  3. Aggiungi un componente di testo chiamato Testing_old_new, con Condizione di inizio Testing_sound.status == FINITO, lascia vuota la durata dell'arresto e lascia vuota la cella di testo con Imposta ogni ripetizione: il testo verrà definito da un componente di codice successivo.
  4. Aggiungi un Cross_Testing, con l'ora di inizio pari a 0, la condizione di arresto Testing_sound.status == FINISHED e un + nella cella di testo mentre l'opzione Imposta ogni ripetizione è attiva.
  5. Aggiungere un componente Code come descritto di seguito.
    1. Nella sezione Inizia esperimento, inizializzare il numero totale di prove (total_trials_t), il numero di prove corrette (correct_trials_t) e il numero di prove non corrette (incorrect_trials_t).
    2. Nella sezione Inizia routine, inizia con un controllo condizionale per determinare il formato della presentazione in base al numero ID del partecipante (expInfo["Partecipante"]). Se il numero ID è dispari, assicurati che le istruzioni per identificare i vecchi stimoli rispetto a quelli nuovi siano presentate in un unico formato, ("Vecchio (F) Nuovo (J)") o ("Nuovo (F) 'Vecchio (J)").
    3. Al di fuori di questo ciclo, è presente una schermata di feedback con un componente di codice. Assicurati che ogni sezione del fotogramma riporti: testing_feedbacks.text = f"Hai identificato l'oratore in un totale di {total_trials_t} frasi,\nHa riconosciuto correttamente {correct_trials_t} altoparlanti,\nGiudicato erroneamente {incorrect_trials_t} altoparlanti.\nIl tuo tasso di precisione complessivo è {accuracy_t:.2f}%.\nPremi la barra spaziatrice per terminare questa parte corrente.
5. Collegare il programma con il sistema Brain Products come descritto di seguito.
  1. Sincronizza il marcatore impostando un marcatore all'inizio di ogni audio. Prima dell'inizio del Training_A del loop, definire un protocollo di invio dei marcatori EEG nel componente di codice Begin Experiment, come descritto di seguito.
    1. Importa i componenti essenziali di PsychoPy, incluso il modulo parallelo, e configura l'indirizzo della porta parallela utilizzando 0x3EFC.
    2. Stabilire una funzione sendTrigger per trasmettere i marcatori EEG. Questa funzione invia un triggerCode specificato attraverso la porta parallela con parallel.setData(triggerCode) dopo aver verificato se si tratta di un numero intero NumPy e averlo convertito in base alle esigenze.
    3. Aggiungere una breve attesa di 16 ms per garantire l'acquisizione del marcatore prima di reimpostare il canale di trigger su 0 con parallel.setData(0).
  2. L'invio del marcatore al registratore EEG utilizza sendTrigger(). Includi il nome esatto della colonna corrispondente tra parentesi. In questo studio, ci sono training_a_marker, training_b_marker, check_marker e testing_marker - si riferiscono alla colonna precedentemente definita nel foglio di calcolo.

3. Raccolta dei dati EEG

Preparazione della location
NOTA: Sono disponibili almeno due computer per eseguire la raccolta dei dati. Uno è connettersi al sistema EEG e l'altro è raccogliere dati comportamentali. Si consiglia di creare un altro schermo per rispecchiare il computer relativo ai dati comportamentali. Il sistema è composto da un amplificatore e da cuffie EEG passive.
1. Per questo studio, reclutare partecipanti senza alcun disturbo del linguaggio e dell'udito. Assicurarsi che i partecipanti non abbiano disturbi psichiatrici o neurologici. Sono stati selezionati un totale di 43 partecipanti, di cui tre esclusi a causa di problemi di allineamento con i marcatori EEG. Dei restanti 40, c'erano 20 partecipanti di sesso femminile e 20 di sesso maschile. Le femmine avevano un'età ±compresa tra 20,70 e 0,37 anni, mentre i maschi avevano un'età compresa tra 22,20 ± 0,37 anni. I loro anni di istruzione erano 17,55 ± 0,43 per le femmine e 18,75 ± 0,38 per i maschi.
2. Assegna gli ID dei partecipanti e invita i partecipanti a lavarsi e asciugarsi i capelli entro un'ora prima di partecipare all'esperimento.
3. Mescolare il gel elettrolitico e il gel elettrolitico abrasivo in un rapporto 1:3, aggiungendo una piccola quantità di acqua. Mescolate il composto in modo uniforme in un contenitore con un cucchiaio.
4. Preparare tamponi di cotone a punta fine e una cuffia EEG asciutta.
5. Fai sedere comodamente il partecipante su una sedia e informalo che lo sperimentatore applicherà la cuffia EEG. Spiega che la pasta conduttiva, che è innocua per l'uomo e migliora la ricezione del segnale cerebrale, viene applicata ai fori del tappo usando tamponi di cotone.
6. Fornire al partecipante istruzioni sui compiti sperimentali e un modulo di consenso informato per l'esperimento. Procedere con la fase di preparazione dopo aver ottenuto la firma del partecipante.
7. Collegare la cuffia EEG all'amplificatore, che a sua volta si collega al computer di acquisizione dati EEG. Questo studio utilizza un cappuccio passivo, quindi è necessario utilizzare un monitor aggiuntivo per controllare gli indicatori di colore sui 64 elettrodi.
8. Apri BrainVision Recorder³³ e importa un file di spazio di lavoro personalizzato che ha definito i parametri di registrazione. Fare clic su Monitor per verificare l'impedenza. La barra dei colori, dal rosso al verde, è influenzata dai livelli di resistenza impostati, con impedenze target che vanno da 0 a 10 kΩ.
Preparazione dei partecipanti
1. Chiedi al partecipante di sedersi in posizione eretta su una sedia. Selezionare un sistema di elettrodi passivi a base di gel di dimensioni adeguate (taglia 54 o 56) per la testa del partecipante e assicurarsi che il sistema di elettrodi sia montato correttamente secondo il sistema 10-20^28,34.
2. Inizia immergendo un batuffolo di cotone usa e getta nella pasta conduttiva e applicandolo nei fori del cappuccio, assicurandoti di strofinare contro il cuoio capelluto del partecipante. L'indicatore corrispondente di un elettrodo che diventa verde sul computer di raccolta dei dati EEG significa che sta raccogliendo correttamente i dati ottimali.
3. Dopo che il colore indicativo per tutti gli elettrodi sullo schermo, ad eccezione dei due elettrodi a lato indipendente, diventa verde (sullo schermo del monitor), applicare la pasta conduttiva sugli elettrodi laterali. Collegare l'elettrodo sinistro vicino all'occhio sinistro del partecipante, nell'area della palpebra inferiore, e l'elettrodo destro vicino alla tempia destra.
4. Una volta che tutti gli elettrodi sono verdi, posizionare una rete elastica sulla testa del partecipante per aiutare la cuffia EEG ad adattarsi in modo più sicuro e stabile alla testa del partecipante.
5. Dotare il partecipante di cuffie cablate (cuffie specifiche per la conduzione dell'aria utilizzate in laboratorio). Chiudi la porta di schermatura elettromagnetica e guida le azioni del partecipante attraverso un microfono che permette la comunicazione all'interno e all'esterno. Inoltre, monitora i movimenti del partecipante attraverso un monitor esterno, ad esempio ricordandogli di non muovere il corpo in modo significativo; Monitora anche i progressi del partecipante nelle attività comportamentali attraverso un monitor dei dati comportamentali.
6. Chiedere al partecipante di indossare auricolari collegati al computer di raccolta comportamentale tramite un'interfaccia audio.
Esecuzione dell'esperimento blocco per blocco in modo indipendente
1. Sul computer di raccolta dati EEG, apri BrainVision Recorder e fai clic su Monitor per ricontrollare l'impedenza e Stat/Riprendi registrazione e avviare la registrazione. Creare un nuovo file di registrazione EEG e denominarlo di conseguenza, ad esempio 14_2, che significa il secondo blocco per il partecipante numero 14.
2. Apri l'esperimento Run del programma PsychoPy (pulsante verde) per l'esperimento comportamentale, inserisci l'ID del partecipante (ad esempio, 14) e il numero di blocco corrispondente (ad esempio, 2) e fai clic su OK per avviare l'esperimento.
3. Monitorare attentamente l'accuratezza dei dati riportati sullo schermo dopo che il partecipante ha completato la fase di controllo sul computer dei dati comportamentali. Se la precisione è inferiore a 10 su 12, chiedi al partecipante di ripetere la sessione di allenamento fino a raggiungere la precisione richiesta prima di passare alla fase di test.
4. Presta molta attenzione all'accuratezza finale del vecchio rispetto al nuovo riconoscimento riportato sullo schermo dopo che il partecipante ha completato la fase di test del blocco. Se l'accuratezza è eccezionalmente bassa (ad esempio, inferiore al 50%), informarsi sui possibili motivi del partecipante.
Esperimento post-EEG
1. Dopo che il partecipante ha completato tutti i blocchi, invitalo a lavarsi i capelli. Pulire la cuffia EEG rimuovendo i residui di pasta conduttiva con uno spazzolino da denti, facendo attenzione a non bagnare i connettori di segnale e avvolgendoli in sacchetti di plastica. Una volta pulita, appendere la cuffia EEG in un'area ben ventilata per farla asciugare.
2. Copiare l'EEG e i dati comportamentali su un disco rigido portatile, assicurandosi che i dati EEG e i dati comportamentali corrispondano. Ad esempio, i dati EEG sono denominati con due file, 14_2.eeg e 14_2.vhdr, e i dati comportamentali come file 14_2.xlsx.

4. Trattamento dei dati EEG

NOTA: Le seguenti descrizioni riguardano la pre-elaborazione dei dati EEG, l'analisi statistica e la visualizzazione utilizzando MATLAB e RStudio per l'elaborazione batch.

Pre-elaborazione dei dati EEG con MATLAB
1. Fusione dei dati EEG e comportamentali
  1. Dato che i partecipanti potrebbero dover ripetere l'attività se non raggiungono l'accuratezza richiesta di 10/12 o superiore, che influisce sulla denominazione dell'EEG e dei dati comportamentali, ad esempio, 14_2.vhdr potrebbe diventare 14_2(1).vhdr, standardizzare i nomi dei file rimuovendo caratteri diversi da 14_2. Durante l'iterazione dei dati di ciascun partecipante, denominare i file di dati come sub, stripped_filename, .set, con il risultato che file come sub14_2.set (contenente metadati e collegamenti al set di dati EEG) e sub10_1.fdt (i dati EEG effettivi) vengono salvati automaticamente. In questo modo i file 14_2.vhdr e 14_2.eeg vengono rinominati in sub14_2.fdt e sub14_2.set.
  2. Usa la funzione EEG = pop_mergeset() per unire i dati in un unico file per ogni partecipante, combinando diversi dati di blocco in ordine cronologico piuttosto che in ordine numerico dei blocchi 1,2,3,4.
  3. Unisci più file di dati comportamentali in un unico foglio di calcolo per partecipante in base all'ordine cronologico, che è essenziale per la sincronizzazione successiva.
  4. Personalizza il codice per sincronizzare le prove nei segnali EEG con le prove nei segnali comportamentali. Ad esempio, testing_list = [37:108, 145:216, 253:324, 361:432] corrisponderebbe ai punti di marcatura EEG per i quattro blocchi.
  5. Converti il foglio di calcolo dei dati comportamentali in un file .txt, ottenendo una tabella con dati sia in righe che in colonne. I nomi delle colonne includono la maggior parte di quelli menzionati nel passaggio 2.1.
  6. Ridefinire il contenuto dei dati EEG aggiungendo informazioni ai dati EEG utilizzando un codice simile al seguente, ad esempio, EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1). Questo processo unisce i corrispondenti dati EEG e comportamentali di ciascun partecipante attraverso l'elaborazione batch.
    NOTA: i valori di risposta 1 e 0 provengono da dati comportamentali, dove 1 rappresenta un giudizio corretto e 0 rappresenta uno errato.
2. Pre-elaborazione dei dati EEG
  1. Per il riferimento e il ririferimento^29,35, chiamare la funzione pop_reref per rifare il riferimento dei dati EEG all'elettrodo FCz, assicurandosi che ogni segnale sia calcolato in relazione all'elettrodo FCz. Utilizzare la funzione pop_reref per rifare riferimento ai dati EEG ai canali 28 e 29, che rappresentano gli elettrodi mastoidei bilaterali situati sul cuoio capelluto posteriore, assicurando che ogni segnale sia calcolato in relazione ai mastoidi bilaterali.
  2. Impostare un filtro passa-alto (per rimuovere le tendenze lineari) con EEG = pop_eegfiltnew(EEG, [], 0.1, 16500, 1, [], 0) ed eseguire la correzione della linea di base da -500 a 0 ms con EEG = pop_rmbase(EEG, [-500 0]).
  3. Ispeziona manualmente le prove errate: dopo aver importato i dati con EEGLAB, seleziona Traccia, quindi fai clic su Dati canale (scorri) e imposta il valore massimo su 50.
  4. Elimina le prove con artefatti muscolari visibili e di altro tipo e contrassegna gli elettrodi difettosi: passando il mouse sulla forma d'onda del canale verrà visualizzato il suo elettrodo. Registrare tutti gli elettrodi difettosi, tornare alla pagina principale di EEGLAB, selezionare Interpola elettrodi in Strumenti, scegliere Seleziona da canali dati, selezionare gli elettrodi che necessitano di interpolazione e confermare con OK. Salvare il file in una nuova cartella.
  5. Condurre l'analisi delle componenti principali (PCA) con EEG = pop_runica(EEG, 'extended', 1, 'pca', 30, 'interupt', 'on'). Rifiuta manualmente le ICA problematiche, rimuovendo gli artefatti da occhi, muscoli e rumore del canale, quindi salva il file.
  6. Utilizzare la funzione pop_eegthresh per impostare una soglia da -75 a +75Hz per rimuovere i valori estremi 34,36,37.
  7. Applicare pop_eegfiltnew con parametri impostati (il terzo parametro di ingresso) su 30 per mantenere frequenze di 30 Hz e inferiori a³⁸.
  8. Personalizza il codice per elencare tutte le condizioni di interesse, tra cui old_new_speaker = {'old', 'new'}; same_different_prosody = {'uguale', 'diverso'}; Confidence_level = {'c', 'd'}; e Risposta = {'1', '0'}. Quindi, combina queste condizioni per creare combinazioni di dati come sub1_new_different_c_0 e salvarle come file con estensione txt.
Analisi ERP con RStudio
1. Per organizzare i dati, convertirli in un formato lungo. Importare tutti i file .txt in RStudio e utilizzare la funzione rbind per aggiungere ogni frame di dati temporaneo a alldata, creando un frame di dati di grandi dimensioni contenente tutti i dati del file. Rinominare la colonna Riga in tutti i dati in Ora per motivi di precisione. Utilizza la funzione melt per convertire tutti i dati dal formato largo a quello lungo (Data_Long), dove ogni osservazione occupa una riga e include tutte le condizioni correlate e le informazioni sul canale.
2. Utilizzare la funzione di filtro del pacchetto dplyr per selezionare i dati che soddisfano condizioni specifiche: Il giudizio è 1. La fonte è h. La memoria è vecchia o nuova. La prosodia è c o d.
3. Definire le regioni in base ai canali degli elettrodi come segue: Anteriore sinistro (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Centrale sinistro (C3, T7, CP5, C5, TP7, CP3). Posteriore sinistro (P3, P7, P5, PO7, PO3). Anteriore mediale (Fz, AFz, FC1, FC2, F1, F2, FCz). Centrale mediale (CP1, CP2, Cz, C1, C2, CPz). Posteriore mediale (Pz, O1, Oz, O2, P1, POz, P2). Anteriore destro (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Centrale destra (CP6, C4, T8, CP4, C6, TP8). Posteriore destro (P4, P8, PO4, PO8, P6). Raggruppa queste regioni in regioni anteriori, centrali e posteriori.
4. Salvare l'area di lavoro per il successivo caricamento dei dati. Per salvare, usa setwd(); Per caricare, utilizzare load().
Analisi statistica
1. Per l'analisi dei dati EEG su tutti gli elettrodi, filtrare il set di dati in modo da includere solo i punti dati rilevanti in cui il giudizio è 1, la sorgente è h, la memoria è vecchia o nuova, il soggetto non è vuoto e il tempo è compreso tra 400 e 850 ms.
2. Aggiorna i nomi delle regioni di interesse (ROI) in base a mappature predefinite. Ad esempio, l'anteriore sinistro, l'anteriore mediale e l'anteriore destro sono per l'anteriore.
3. Adatta un modello lineare a effetti misti ai dati utilizzando lmer dal pacchetto lme4³⁹, con Tensione come variabile di risposta e Memoria e ROI come effetti fissi, comprese le intercettazioni casuali per Soggetto e Canale: fit_time_window <- lmer(Tensione ~ Memoria * ROI + (1|Oggetto) + (1| canale), dati=DATI). Sostituisci ripetutamente DATA con dati combinati, solo con sicurezza e solo dubbi. Vedere un codice di esempio su OSF³².
  1. Ottieni i risultati dell'analisi dal modello adattato: anova(fit_time_window), eta_squared(fit_time_window) e emmeans(fit_time_window, specs = pairwise ~ Memory * ROI, adjust = "Tukey").
4. Per l'analisi dei dati EEG in Pz, quando si filtra il set di dati, seguire gli stessi passaggi di cui sopra, ma aggiungere anche la condizione Canale == 'ChPz'. Ripeti il processo sopra, ma usa lmer(Tensione ~ Memoria + (1|Soggetto)) per analizzare i dati Pz da 400 a 850 ms.
5. Per tracciare gli ERP nel Pz (ripetere il set di dati combinato, solo con sicurezza e solo dubbio), filtrare il set di dati in modo da includere solo i punti dati rilevanti in cui il giudizio è 1, la sorgente è h, la memoria è vecchia o nuova e il soggetto non è vuoto.
  1. Definire un vettore contenente più punti di elettrodi (incluso Pz) e anteporre loro il prefisso Ch in modo che corrisponda alla convenzione di denominazione del canale nei dati. Selezionare Pz out.
  2. Specificare l'intervallo di tempo per l'analisi ERP: time_window <- c(400, 850). Definire l'elettrodo di interesse, in questo caso Pz. Scorrere l'elettrodo selezionato e creare i grafici come descritto di seguito.
    1. Filtrare i dati per l'elettrodo Pz utilizzando il filtro (Canale == k) per isolare i punti dati rilevanti.
    2. Creare un fattore di interazione per il tipo di linea e il colore in base alla condizione di memoria utilizzando interaction(current_channel_data$Memory) ed etichettare le condizioni come Vecchio e Nuovo.
    3. Calcola le statistiche di riepilogo e l'errore standard per le misurazioni della tensione nel tempo utilizzando la funzione summarySEwithentro, specificando Tensione come variabile di misura e Tempo come variabile all'interno.
    4. Genera il grafico ERP per l'elettrodo Pz, aggiungendo uno sfondo per la finestra temporale specificata utilizzando geom_rect con i parametri xmin, xmax, ymin e ymax. Includi nastri di errore standard con geom_ribbon, disegnando la tensione media con geom_line. Personalizza l'aspetto e le etichette della trama utilizzando funzioni come scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual e scale_color_manual.
  3. Usa theme_minimal per il tema di base e personalizza ulteriormente le dimensioni del testo e il posizionamento della legenda con il tema.
Tracciamento topografico con MATLAB
1. Importa i dati e imposta le condizioni, definisci l'elenco dei soggetti da 1 a 40 con subject_list = 1:40. Definisci due array di celle vuote per memorizzare i dati per classificare correttamente le vecchie e le nuove condizioni: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}. Scorri l'elenco degli argomenti, importa i dati di ogni argomento e filtrali in base alle condizioni.
2. Estrai le informazioni sugli eventi dai dati EEGLAB grezzi, selezionando solo gli eventi con la risposta uguale a 1. Selezionare le prove con Origine uguale a h e aggiornare la struttura dei dati di conseguenza. Separare i dati per le condizioni vecchie e nuove, limitandosi alle prove corrette con Source h, ed eseguire l'analisi del blocco temporale.
  1. Calcola la media generale sia per le vecchie che per le nuove condizioni: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}).
3. Eseguire il test di permutazione come descritto di seguito.
  1. Definire la configurazione del router adiacente utilizzando un file di layout specificato: cfg_neigh = []; cfg_neigh.metodo = 'distanza'; cfg_neigh.layout = 'path_to_layout_file'; vicini = ft_prepare_neighbours(cfg_neigh).
  2. Configurare i parametri per il test di permutazione, inclusa la matrice di progettazione e il metodo statistico: cfg = []; cfg.method = 'montecarlo'; cfg.statistica = 'ft_statfun_indepsamplesT'; cfg.correctm = 'cluster'; cfg.clusteralpha = 0,05; cfg.clusterstatistic = 'somma massima'; cfg.minnbchan = 2; cfg.tail = 0; cfg.clustertail = 0; cfg.alfa = 0,05; cfg.numrandomization = 1000; cfg.neighbours = vicini; cfg.design = [2*uno(1, lunghezza(human_timelocked_new_correct)) uno(1, lunghezza(human_timelocked_old_correct))]; cfg.ivar = 1. Inoltre, fare riferimento al seguente link (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/) per tutorial sull'utilizzo di Fieldtrip⁴⁰.
  3. Eseguire il test statistico sui dati medi per le vecchie e nuove condizioni: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
4. Eseguire il tracciamento a intervalli personalizzato come descritto di seguito.
  1. Calcola la differenza tra le due condizioni: cfg = []; cfg.operation = 'sottrarre'; cfg.parameter = 'media'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
  2. Definisci le finestre temporali: time_windows = { [0.500, 0.800] % LPC}.
  3. Create una figura e tracciate la differenza tra le condizioni con ft_topoplotER(cfg_plot, grandavg_difference).

Risultati

Il classico effetto vecchio/nuovo è caratterizzato da un aumento significativo dell'attività cerebrale degli ascoltatori sull'elettrodo Pz (tra 300 e 700 ms) quando il contenuto del parlato della sessione di test corrisponde a quello della sessione di allenamento, in particolare nella condizione del vecchio parlante rispetto alla nuova condizione del parlante²². Il protocollo svela una versione aggiornata di questo effetto: in primo luogo, osservando tendenze positive più ampie nell'elettrodo Pz e in tutta la regione del cervello per la vecchia condizione rispetto alla nuova condizione del parlatore tra 400 e 850 ms. In secondo luogo, il contenuto del parlato nella sessione di test sarà diverso da quello della sessione di formazione. In terzo luogo, ci si aspetta che le condizioni di prosodia del discorso sia fiduciose che dubbie mostrino queste tendenze. Infine, l'effetto vecchio/nuovo è più pronunciato in condizioni dubbie durante la sessione di test (Figura 2).

L'analisi LMER con la formula

lmer(Tensione ~ Memoria * ROI + (1|Oggetto) + (1|Canale))

suggerisce che sia i tipi di memoria (vecchia contro nuova) che il ROI hanno effetti principali, così come un'interazione tra memoria e ROI (Tabella 1). Ulteriori analisi post-hoc hanno rivelato che, in tutte le regioni del cervello, la vecchia condizione mostra una tensione positiva maggiore rispetto alla condizione dubbia, anche nelle regioni anteriore, centrale e posteriore (Tabella 2). Il confronto dei valori beta suggerisce che l'effetto vecchio/nuovo era più pronunciato agli elettrodi centrali e posteriori rispetto agli elettrodi anteriori: per il set di dati combinato - β anteriore = 0,40, β centrale = 0,63 e β posteriore = 0,60; per il set di dati sicuro - β anteriore = 0,61, β centrale = 0,63 e β posteriore = 0,76 e per il set di dati dubbio - β anteriore = 0,44, β centrale = 0,87 e β posteriore = 0,69. Il coinvolgimento degli elettrodi centrali e posteriori era più evidente nella condizione di prosodia dubbia.

Con la formula

lmer(Tensione ~ Memoria + (1|Oggetto))

abbiamo confermato l'esistenza di effetti vecchi/nuovi nell'elettrodo di Pz. All'elettrodo Pz è stato osservato un effetto principale della memoria (vecchio contro nuovo) (F(1, 69341,99) = 120,46, p < 0,001, η²_p = 0,002, β = 0,425, SE = 0,039, z-ratio = 10,98, p < 0,001). Nella condizione di solo confidente, un effetto principale della memoria (vecchio contro nuovo) è stato osservato all'elettrodo Pz (F(1, 34318.32) = 5.04, p = .025, η²_p = .0001, β = .125, SE = .056, z-ratio = 2.25, p = .025). Nella condizione di solo dubbio, un effetto principale della memoria (vecchio contro nuovo) è stato osservato all'elettrodo Pz (F(1, 34993,20) = 317,02, p < 0,001, η²_p = 0,009, β = 0,914, SE = 0,051, z-ratio = 17,81, p < 0,001).

figure-results-3249
Figura 1: Flusso di lavoro della raccolta dati per ogni blocco. Nell'(A) Formazione, gli ascoltatori sentono una voce e associano ad essa il nome successivamente presentato. Tre vecchi chiacchieroni devono essere ricordati. La lingua che appariva nel programma era originariamente il cinese. La A e la C rappresentano nomi come Xiao (Junior) ZHANG. Nel (B) Controllo, gli ascoltatori identificano il nome dell'oratore dopo aver sentito una voce premendo 1, 2 o 3 sul tastierino numerico per associare l'identità della voce a nomi come Xiao ZHAO. Nel (C) Testing, gli ascoltatori sentono una voce e la classificano come pronunciata dal vecchio o dal nuovo parlante. Come illustrato in (D) Prosody Design, gli ascoltatori apprendono che tre oratori esprimono solo con sicurezza o dubbio, ma ascoltando sei oratori parlare sia con sicurezza che con dubbio. L'aspetto della versione A o B si esclude a vicenda. Se la versione A viene visualizzata con un altoparlante maschio o femmina, la versione B verrà visualizzata con l'altoparlante femmina o maschile corrispondente. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-4753
Figura 2: L'effetto vecchio/nuovo. (A, B, C) Le figure mostrano l'ERP indicato in grigio degli elettrodi Pz da 400 a 850 ms rispettivamente per le condizioni di combinazione prosodia, solo confidente e solo dubbio. (D, E, F) Le figure illustrano la topografia della vecchia condizione meno nuova in tutti gli elettrodi (raffigurati come punti neri) per le condizioni combinate con prosodia, solo confidenza e solo dubbi. Clicca qui per visualizzare una versione più grande di questa figura.

Contesto	Regione cerebrale	Valore F	Pr(>F)	Eta2_partial
Combinato	Memoria	9938.98	.00	.00
	ROI	4.13	.02	.13
	Memoria:ROI	182.37	.00	.00
Sicuro	Memoria	7291.22	.00	.00
	ROI	3.60	.03	.12
	Memoria:ROI	41.94	.00	.00
Dubbioso	Memoria	8333.38	.00	.00
	ROI	4.65	.01	.15
	Memoria:ROI	290.15	.00	.00

Tabella 1: Risultati dell'analisi LMER per effetto vecchio/nuovo in tutte le regioni del cervello: set di dati combinati, fiduciosi e dubbi. Utilizzando l'analisi post-hoc, * significativo a p < 0,05, ** significativo a p < 0,01, *** significativo a p < 0,001.

Contesto	Regione cerebrale	Contrasto	Valutare	SE	z	p
Combinato	Anteriore	vecchio-nuovo	.40	.01	43.70	.00***
	Centrale	vecchio-nuovo	.63	.01	61.74	.00***
	Posteriore	vecchio-nuovo	.60	.01	67.51	.00***
Sicuro	Anteriore	vecchio-nuovo	.61	.01	46.63	.00***
	Centrale	vecchio-nuovo	.63	.01	43.22	.00***
	Posteriore	vecchio-nuovo	.76	.01	59.95	.00***
Dubbioso	Anteriore	vecchio-nuovo	.44	.01	35.95	.00***
	Centrale	vecchio-nuovo	.87	.01	64.05	.00***
	Posteriore	vecchio-nuovo	.69	.01	57.75	.00***

Tabella 2: Risultati di test post-hoc per effetti vecchi/nuovi in tutte le regioni del cervello: set di dati combinati, fiduciosi e dubbi. Utilizzando l'analisi post-hoc, significativa a p < 0,001 (***).

Discussione

Lo studio presenta una pipeline per la raccolta e l'analisi dei dati EEG, concentrandosi sul riconoscimento delle identità dei parlanti precedentemente apprese. Questo studio affronta le variazioni tra le fasi di apprendimento e riconoscimento, comprese le differenze nel contenuto del discorso²² e nella prosodia¹⁰. Il design è adattabile a una serie di campi di ricerca, tra cui la psicolinguistica, come l'elaborazione dei pronomi e dell'anaforica⁴¹.

Il paradigma training-testing è un classico disegno sperimentale utilizzato per valutare i risultati di apprendimento dei partecipanti su argomenti specifici come l'apprendimento vocale^42,43. Questo paradigma valuta il grado di apprendere determinate informazioni da parte dei partecipanti (come riflesso nell'accuratezza)¹⁰. Consente ai ricercatori di introdurre variabili in modo incrementale in condizioni sperimentali controllate, come diverse prosodie durante le fasi di addestramento e test, per comprendere la loro influenza sull'accuratezza del riconoscimento vocale, ad esempio, le voci modulate VTL/F0²³, le voci paurose rispetto a quelle neutre¹⁰ o quelle dubbie rispetto a quelle fiduciose in questo studio.

Tuttavia, il paradigma ha dei limiti. Le differenze tra gli ambienti di apprendimento e di test possono influenzare la validità dei risultati sperimentali, poiché le condizioni di apprendimento controllate potrebbero non riflettere le condizioni di test più variabili. Ad esempio, la sessione di formazione utilizza una singola prosodia piuttosto che una differenza proporzionale, come il 30% contro il 70%⁴⁴. Per affrontare questo squilibrio, garantire un ambiente di apprendimento più diversificato potrebbe replicare meglio scenari di vita reale in cui i parlanti usano prosodie diverse mentre interagiscono con gli ascoltatori. Inoltre, questo studio riconosce che la complessità del progetto sperimentale, che coinvolge più fasi e una programmazione sofisticata (utilizzando strumenti come R Studio, MATLAB e Python), può essere difficile per i nuovi arrivati.

L'intuizione primaria sottolinea l'importanza di un'adeguata familiarizzazione e di una fase di controllo. Il lavoro di Xu e Armony evidenzia che gli ascoltatori faticano a identificare le vecchie identità di parlanti senza una formazione sufficiente e controlli superiori ai livelli di probabilità¹⁰. Inoltre, Zaske et al. hanno scoperto che l'effetto LPC vecchio/nuovo era presente solo quando lo stesso testo veniva ripetuto, non con un testo diverso²². In questo studio, l'implementazione di una fase di controllo ha rivelato la persistenza dell'effetto vecchio/nuovo ERP, anche con diversi stimoli testuali, supportando le affermazioni degli studi fMRI²¹. Lo studio suggerisce che, per i paradigmi basati sulla formazione e sui test, l'inserimento di una sessione di controllo è fondamentale. Consente agli ascoltatori di formarsi un'impressione robusta dell'identità acustica dell'oratore, associando un oratore a un simbolo specifico, come un nome²³. Senza un apprendimento sufficiente della rappresentazione del parlante, gli ascoltatori possono avere difficoltà ad adattarsi alle variazioni all'interno del parlante¹⁰.

Questo studio ha anche osservato il ruolo della prosodia come segnale vincolante per il riconoscimento del parlante⁴⁵. Contrariamente alle opinioni precedenti secondo cui la prosodia può ostacolare il riconoscimento del vecchio parlante, questo studio ha trovato l'effetto vecchio/nuovo presente in condizioni di prosodia fiduciosa e dubbia. Questo robusto effetto suggerisce un ruolo di modulazione della prosodia nel riconoscimento del parlante. Ulteriori analisi hanno rivelato differenze nell'attivazione della regione anteriore tra le condizioni di prosodia. La prosodia fiduciosa ha suscitato livelli più bassi dell'effetto vecchio/nuovo nelle regioni anteriori rispetto alla prosodia dubbia. Questa scoperta suggerisce che il parlato sicuro può rendere più difficile l'identificazione del parlante a causa della lunghezza estesa del tratto vocale e della frequenza fondamentale ridotta, portando potenzialmente a una maggiore attenzione da parte degli ascoltatori^11,29.

Il disegno di questo studio può informare le future indagini sui disturbi del riconoscimento nelle popolazioni di pazienti, come quelli con prosopagnosia o fonagnosia ^46,47. Inoltre, le modifiche per accogliere i partecipanti con tempi di attenzione più brevi, come gli individui con disturbi dello spettro autistico⁴⁸, potrebbero migliorare l'accessibilità allo studio.

Inoltre, il paradigma si estende oltre il riconoscimento del parlante per indagare l'elaborazione dei pronomi e la comprensione anaforica all'interno della ricerca psicolinguistica. Coopmans e Nieuwland⁴¹ dimostrano come i modelli di sincronizzazione oscillatoria neurale distinguano tra attivazione antecedente e integrazione nella comprensione dell'anafora, il che si allinea con l'esplorazione di questo studio dei segnali correlati all'identità. Gli indizi includono stili comunicativi (ad esempio, affermazioni letterali o ironiche), ordini di parole (struttura della frase Soggetto-Oggetto-Verbo (SOV) o Oggetto-Soggetto-Verbo (OSV) 44,45,49,50) e tipi di espressione vocale (prosodia fiduciosa vs. dubbia) in questo articolo.

Divulgazioni

Non ci sono informazioni da divulgare.

Riconoscimenti

Questo lavoro è stato sostenuto dalla Natural Science Foundation of China (Grant No. 31971037); il programma Shuguang sostenuto dalla Shanghai Education Development Foundation e dal Shanghai Municipal Education Committee (sovvenzione n. 20SG31); la Fondazione di Scienze Naturali di Shanghai (22ZR1460200); il Supervisor Guidance Program dell'Università di Studi Internazionali di Shanghai (2022113001); e il Major Program della National Social Science Foundation of China (Grant No. 18ZDA293).

Materiali

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Riferimenti

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Comportamento Numero 210 Riconoscimento del parlante espressione vocale prosodia del parlato potenziali evento correlati voce

This article has been published

Video Coming Soon

Keep me updated: