イベント関連ポテンシャル分析を用いた表現力豊かな音声におけるロバストな音声同一認識のための暗記ベース訓練とテストパラダイム

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

Method Article

イベント関連ポテンシャル分析を用いた表現力豊かな音声におけるロバストな音声同一認識のための暗記ベース訓練とテストパラダイム

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

要約

この研究では、自信のある韻律シナリオと疑わしい韻律シナリオにおけるイベント関連の可能性の古い/新しい影響を調査するためのトレーニングテストパラダイムを導入しています。データは、Pzおよび他の電極で400〜850ミリ秒の間に強化された遅延正極成分を明らかにしています。このパイプラインでは、音声の韻律を超えた要因と、それらがキューバインディングターゲットの同定に与える影響を探ることができます。

要約

音声ストリームから馴染みのある話者を認識することは、人間の言語コミュニケーションの基本的な側面です。しかし、聞き手が表現力豊かなスピーチで話し手のアイデンティティをどのように識別できるかは不明のままです。本研究では、記憶に基づく個々の話者識別認識アプローチと、聞き手が聞き覚えのある話者をどのように認識し、聞き慣れない話者を区別するかを監視する、付随する脳波(EEG)データ分析パイプラインを開発します。EEGデータは、音声に基づいて新旧の話者の区別中にオンライン認知プロセスをキャプチャし、脳活動のリアルタイム測定を提供し、反応時間と精度測定の限界を克服します。パラダイムは3つのステップで構成されています:リスナーは3つの声とその名前の間の関連付けを確立します(トレーニング)。リスナーは、3つの候補からの音声に対応する名前を示します(チェック中)。リスナーは、2 つの代替の強制選択タスク (テスト) で 3 つの古い話者の声と 3 つの新しい話者の声を区別します。テストでのスピーチの韻律は、自信があるか疑わしいかのどちらかでした。脳波データは、64チャンネルの脳波システムを使用して収集され、その後前処理が行われ、ERPと統計解析のためにRStudioにインポートされ、脳のトポグラフィーのためにMATLABにインポートされました。結果は、Pzおよび両方の韻律の他の広範囲の電極の400-850 msウィンドウでの新語者条件と比較して、旧話者で拡大した後期正成分(LPC)が誘発されたことを示しました。それでも、古い/新しい効果は、疑わしい韻律知覚のための中央電極と後電極で堅牢でしたが、前電極、中央電極、および後電極は自信のある韻律状態のためのものです。この研究では、この実験デザインが、さまざまなシナリオ(照応表現など)やフォナグノシアなどの患者の病状における話者固有の手がかり結合効果を調査するための参照として役立つことを提案しています。

概要

人間の声の流れは、感情^1,2、健康状態^3,4、生物学的性別⁵、^年齢6、そしてさらに重要なことに、個々の声のアイデンティティ^7,8などの情報が豊富です。研究によると、人間のリスナーは、声を通じて仲間のアイデンティティを認識し、区別する強固な能力を持っており、^{音響空間における}話者アイデンティティの平均ベースの表現をめぐる話者内の変動を克服することが示唆されている9。このような変化は、明確な語用論的意図^{9に対応する音響}操作(基本周波数と声道の長さ、すなわちF0とVTL)、感情の韻律¹⁰、そして話し手の知った感覚を伝える声の自信¹¹によってもたらされる。行動実験は、言語関連の操作^8,12,13、音楽経験や読解能力などの参加者関連の特性^14,15、後方発話や非単語^16,17などの刺激関連の適応など、聞き手が話し手を認識する際のパフォーマンスに影響を与える多くの要因に焦点を当ててきました。詳細については、文献^{レビュー18,19}をご覧ください。最近のいくつかの実験では、話者のアイデンティティ表現の個々のバリエーションが認識精度をどのように損なうかを調査しており、感情表現力の高低¹⁶、中立的な韻律と恐怖の韻律⁵などの側面を考慮しています。^{レビュー20}で示唆されているように、さらなる調査のために開かれている可能性のあるシナリオ。

最初の研究ギャップについては、この研究は、話者識別の神経学的基盤が、話者内の変動がリスナーの脳活動にどのように挑戦するかをまだ完全には調査していないことを提案しています。例えば、ZäskeらによるfMRIに基づく話者認識課題では、参加者の右後上側頭回(pSTG)、右下/中前頭回(IFG/MFG)、右内側前頭回、および左尾状は、言語内容が同じか異なるかに関係なく、古い話し手と新しい話し手として正しく識別された場合、活性化の低下を示した²¹.しかし、Zäskeらによる以前の脳波計(EEG)研究では、話者のアイデンティティのバリエーションが異なるテキストを通じて導入された場合、この新旧の影響は観察されなかった²²。具体的には、聞き手が同じテキストを表現する(つまり、変化しない言語内容のリプレイを聞く)慣れ親しんだ訓練された話し手に出くわしたときにPz電極で検出された、300〜700ミリ秒の範囲のより大きな遅延正成分(LPC)は、話し手が新しいテキストを配信したときには存在しませんでした。

Zäske et ^al.21による主張を支持して、この研究では、イベント関連電位(ERP)分析におけるトレーニングセッションとテストセッションの間の言語内容の違いにもかかわらず、古い/新しい効果が依然として観察される可能性があると疑っています。この理論的根拠は、異なるテキストが使用された条件下で、Zäske et ^al.22に新旧の効果が存在しないのは、Lavan et ^al.23が示唆しているように、徹底的かつ効果的なアイデンティティ学習を確保するためのトレーニングタスク中の追加のチェックセッションの欠如に起因する可能性があるという考えに由来しています。したがって、この研究の最初の目的は、この仮説を調査し、検証することです。この研究は、トレーニングテストパラダイム²²にチェックセッションを追加することにより、これをテストすることを目的としています。

この研究が取り組むことを目指しているもう一つの重要な問題は、音声韻律の存在下での話者識別の堅牢性です。これまでの行動研究では、聞き手は特に異なる韻律の話し手を認識するのに苦労していることが示唆されており、これは韻律の文脈の調節的な役割を示しています。これは、聞き手がさまざまなトレーニングテストの韻律条件でパフォーマンスが低いことを示しています。この研究は、聞き手が自信に満ちた韻律または疑わしい韻律²⁴で馴染みのある話し手を認識するように公開することにより、これをテストすることを目的としています。この研究では、観察されたERPの違いが、音声の韻律がID認識にどのように影響するかを説明するのに役立つと期待しています。

現在の研究の主な目的は、話者認識における新旧の効果の堅牢性を調査することであり、具体的には、自信のある韻律と疑わしい韻律で話し手を認識することに違いがあるかどうかを調べることです。XuとArmony¹⁰は、トレーニングテストパラダイムを使用して行動研究を行い、その結果は、聞き手が韻律の違いを克服することができず(たとえば、中立的な韻律で話し手を認識するように訓練され、恐ろしい韻律でテストされた)、偶然のレベル¹⁰よりも低い精度しか達成できないことを示唆しています。音響解析は、さまざまな感情状態を表現するスピーカーがVTL/F0変調に関連していることを示しています。たとえば、自信のある韻律は VTL が長くなり、F0 が低くなるという特徴がありますが、疑わしい韻律^11,24 ではその逆が当てはまります。もう1つの証拠は、Lavanらの研究から来ています.²³、これにより、リスナーは話者のVTLおよびF0の変化に適応し、話し手の平均ベースの表現を形成できることを確認しました。この研究は、行動データの観点から、聞き手は韻律全体で話し手のアイデンティティを認識する可能性が高いことを調和させています(たとえば、自信のある韻律では話し手を認識するように訓練されているが、疑わしい韻律でテストされている、準備中の別の原稿で報告されています)。しかし、話者識別の神経相関、特にZäskeらによって観察された新旧の効果の一般化可能性は不明のままです²²。したがって、現在の研究では、テストのコンテキストとして、自信のある韻律と疑わしい韻律における古い/新しい効果の堅牢性を検証することに専念しています。

この研究は、新旧の影響研究における以前の研究パラダイムからの逸脱を導入しています。過去の研究では、新旧の話し手の認識が知覚にどのように影響するかに焦点を当てていましたが、この研究では、2つの信頼レベル(自信と疑わしい)をパラダイムに組み込むことでこれを拡張しました(したがって、2+2研究)。これにより、自信に満ちた韻律と疑わしい韻律の文脈における話者の認識を調査することができます。このパラダイムにより、新旧の効果の堅牢性を探求することができます。自信のある音声文脈と疑わしい音声文脈の両方における記憶効果と関心領域(ROI)の分析は、この調査の証拠として役立ちます。

全体として、この研究は、音声認識のEEG相関の理解を更新することを目的としており、EEGの新旧効果の拡大したLPCは、1)言語内容が同じでない場合でも観察可能であり、2)自信のある韻律と疑わしい韻律の存在でも観察できます。この研究では、3段階のパラダイムを通じて仮説を調査しました。まず、トレーニングフェーズでは、参加者は3つの声とそれに対応する名前の間の関連付けを確立しました。その後、チェックフェーズでは、3つの候補から音声に対応する名前を特定するタスクが課せられました。このチェックは、Lavan et ^al.23に倣い、トレーニングフェーズとテストフェーズのテキストが異なるときに観察されない古い/新しい影響につながった、不十分な古い話者の習熟を克服することを目的として^おり、6、話し手は中立的で恐ろしい韻律¹⁰の話し手を認識することができませんでした。最後に、テストフェーズでは、参加者は2つの選択肢からなる強制選択課題で、3つの古い話者の声と3つの新しい話者の声を区別し、音声の韻律は自信があるか疑わしいかとして提示されました。脳波データは、64チャンネルの脳波システムを使用して収集され、分析前に前処理が行われました。統計解析とイベント関連ポテンシャル(ERP)解析はRStudioで行い、脳トポグラフィー解析にはMATLABを利用しました。

設計詳細に関しては、本研究では、VTLに関連し、誰が話しているかの印象に影響を与える話し手の身長を制御する話者アイデンティティ学習実験を提案する²³。この側面は、知覚された優位性²⁵などの社会的印象にも影響を及ぼし、そのような高レベルの印象形成は、話者のアイデンティティ²⁶の解読と相互作用するかもしれない。

プロトコル

上海外国語大学言語学研究所の倫理委員会は、以下の実験計画を承認しました。この研究では、すべての参加者からインフォームドコンセントが得られました。

1. オーディオライブラリの準備と検証

オーディオの録音と編集
1. 以前の英語版を作成する標準的な手順に従って中国語のボーカルデータベースを作成し、必要に応じてChina¹¹の文脈に合わせて適応させます。ここでの実験では、判断、意図、事実の3種類の語用論的意図を含む123の文を使用しました。これを行うには、既存の英語ステートメントコーパス¹¹ を参照し、ローカライズされたシナリオを追加してローカライズされた中国語バージョンを作成します。
2. 24人の話者(女性12人)を募集し、これらの文章を中立的で、疑わしい、自信に満ちた韻律で表現し、過去の録音タスク^11,24の特定の指示を参照し、適応させます。
  1. ここでは、上海外国語大学から24人の標準的な北京語話者(女性12人、男性12人)を参加させ、北京語の習熟度が普通話能力テストで87から91のスコアを通じて実証されました。男性の参加者は平均24.55±2.09歳、教育期間は18.55±1.79歳、平均身長は174.02±20.64cmでした。女性の平均年齢は22.30歳±2.54歳で、教育年齢は18.20歳±2.59歳、平均身長は165.24±11.42cmでした。言語聴覚障害や神経障害、精神障害を報告した人はいませんでした。
3. スピーカーに各テキストを2回繰り返してもらいます。ソフトウェアPraat48,000でSampレート²⁷ Hz。Praatが故障して録音損失を引き起こす可能性があるため、ストリームが10分を超えないようにしてください。
4. 長いオーディオストリームをPraatを使用して、文ごとにクリップに編集します。同じテキストが 2 回繰り返されるため、目的の韻律を最もよく表すバージョンをターゲット文として選択します。
オーディオ選択
1. オーディオライブラリを 70 dB に、サンプリングレートを 41,000 Hz に Praat スクリプト²⁸ でノーマライズします。これを行うには、Praatを開き、サウンドファイルをロードして、オブジェクトウィンドウで選択します。[変更] メニューに移動し、[ スケール強度] を選択し、設定ウィンドウで [新しい平均強度 (dB SPL)] を 70 に設定し、[ OK ] をクリックして正規化を適用します。
2. 48人の独立したリスナーを募集し、各オーディオを信頼度に関する1つの7リッカートスケールで評価します:まったくない1、非常に自信がある¹¹の7。各文が12人の評価者によって評価されていることを確認してください。
3. 指定されたしきい値に適したオーディオを選択するには、1つの主要な原則があります:自信のある意図を持つオーディオの平均評価が疑わしい意図を持つオーディオよりも高いことを確認します。これらのしきい値が、同じ生物学的性別の 12 人の話し手間で一貫していることを確認します。たとえば、これらの話し手が 2 つの文を表現し、それぞれが自信に満ちた韻律と疑わしい韻律を持つ場合、評価には大きな違いが観察されます。
4. 現在の実験計画では、4 つのオーディオブロック、合計 480 のオーディオクリップを使用し、各ブロックには 120 のオーディオを含めます。
  1. 24人の話し手を6人ずつの4つのグループに分け、男性の2つのグループと女性の2つのグループに分け、各グループは同じ生物学的性別の話し手で構成されます。
  2. 各グループについて、(同じテキストの)知覚評価に基づいてオーディオクリップを選択し、平均信頼度評価が各文の疑わしい評価よりも高くなるようにします。これらの4つのブロックは、次の点で異なります:1)結合された6人の話し手 - 彼らのアイデンティティは異なります。2)ブロックの半分は男性によって表現され、残りの半分は女性によって表現されます。3)各ブロックで表現されるテキストが異なる。
5. 選択プロセスを開始する前に、各スピーカーの高さデータを文書化します。この情報を使用して、スピーカーを性別と身長に基づいて4つの独立したグループに分割します。
  1. 話者は全部で24人で、男女均等に分けられています。各性別グループ内で、12人の個人を身長で並べ替えます。
6. これらの12人の個人を交互に2つのグループに分けます。たとえば、1 から 12 までの並べ替えられたリストから、個人 1、3、5、7、9、および 11 が 1 つのグループを形成し、残りの半分が 2 番目のグループを形成します。これらのグループ内で、オーディオクリップのスピーカーの選択を、その高さに基づいて一定の間隔で実行します。
  注:制御因子として身長を含めることは、話者の高さに関連する音響測定(VTLおよびF0)が話者および話者のアイデンティティ認識に影響を与えることを示唆する調査結果に基づいている²³。

2. 脳波データ収集のプログラミング

実験マトリックスの設計
1. この研究では、被験者内デザインを採用しています。トレーニングセッションを適応させながら、各科目ごとに提示されるテストセッションを準備します。4つのブロックを用意し、男性と女性のスピーカーが2つのブロックの半分を占めます。 図 1 に示すように、自信のある韻律で学習され、自信と疑わしいの両方でテストされるブロックと、疑わしい韻律で訓練され、自信と疑わしいの両方でテストされるブロックを 2 つ割り当てます。
2. 話者の識別と声の信頼性の知覚に関する既存のEEG研究を参照して、機能するスクリーニングの持続時間を決定します^22,29。参加者^30,31間のラテン正方行列で4つのブロックの順序を整理します。このようなリストを準備するには、カスタマイズされたPythonコーディングをお勧めします。ラテン方角行列のコードスニペットと、OSF³² の PsychoPy プログラムのトライアルリストを参照してください。
3. 各間隔で、同じ生物学的性別の身長シーケンスから話し手を選択します。各ブロックについて、元の 24 人の話し手から 6 人の話者を選び、話し手の報告された身長に応じて 4 つのリストにグループ化します。
4. 中国の百家名の最初の24の名前を選択します。音声を表現した24人の話し手に、Xiao(中国語でJunior)ZHAOのように姓をランダムに割り当てます。
5. すべての関連情報をスプレッドシートにまとめ、Speaker (1 から 24)、Biological Sex (男性または女性)、People Name (24 の姓から)、Confidence Level (自信があるまたは疑わしい)、Item (テキストインデックス)、Rated Confidence Level (知覚研究の平均スコア)、Sound (例: sound/1_h_c_f_56.wav)、
6. 3つのうち1つ(1、2、3)を正しく認識し、古いものと新しいもの(古いか新しいか)を正しく認識します。さらに、training_a、training_b、training_c、check、test という名前の列が追加されていることを確認します。
7. training_a_marker、training_b_marker、check_marker、testing_marker列をスプレッドシートに追加して、EEGマーカーを送信します。これらのマーカーは 3 桁でフォーマットします。つまり、数字の 1 も 001 と記述されます。
3つのセッションの構築
注:PsychoPyは、主にビルダーモードを利用してプログラムを構築することをお勧めします。ビルダーのコードコンポーネントは、プログラムをEEGデータ収集システムに接続し、FボタンとJボタンのバランスを取り、画面上で報告される精度を計算するためにさらに使用されます。
1. 何よりもまず、[ 実験設定の編集 ] アイコンをクリックし、[実験情報] セルを [参加者] と [ブロック] の 2 つのフィールドに調整します。両方のデフォルトは空白のままにします。この研究では、それぞれ4つのブロックを持つ40人の参加者のうち、4/40の参加者が特定のブロックを再度通過し(チェックセッションの精度が10/12より低い場合)、19回のやり直し回数/4ブロック×40人の参加者=11.875%のやり直し率で行われました。
2. トレーニングセッション:アイデンティティ学習を3回繰り返す
  1. 「Fixation」、「Presentation」、および「Blank」の 3 つの画面を含む Training_A という名前のループを定義します。 「Is Trials 」オプションにチェックを入れます。nReps は 1 のままにし、[選択した行] と [ランダムシード] は空白のままにします。条件を次のように記述します。
    "$"trials/{:}_training_a.xlsx".format(expInfor["参加者"]), expInfo["ブロック"])
    ここで、trials/ はフォルダの名前です。Participant は、参加者のインデックスです。ブロックは、現在のブロックのブロックのシーケンスです。
  2. [Fixation] 画面で、[Start Time] を 0、[Duration Time] を [2 (s)] に設定した [Text Component] を追加し、[ Set Every Repeat] を選択する [Text inping] ウィンドウに [+] 記号を追加します。同様に、同様のテキストコンポーネントを空白の画面に含めると、テキストセルに情報がない場合、0.5秒間続きます。
  3. [プレゼンテーション]画面で、次の操作を実行します。
    1. [Start Time] を 0 に設定し、[Stop Duration Time] を空白のままにし、[Sound] セルに [$Sound] を入力して [ Set Every Repeat] を選択した状態で [Sound] コンポーネントを追加します。 「Sync Start With」画面にチェックを入れます。
    2. 「Start Condition」セルに「Cross_for_Training_A.status == FINISHED」と入力して、別のテキストコンポーネントを追加します。[Stop Duration] セルは空白のままにします。テキストセルに$Nameが表示されます。[ 繰り返しごとに設定] を選択します。
    3. 開始条件が Training_A.status == FINISHED であるKey_Response_Training_Aを追加します。[Stop Duration] セルは空白のままにします。 ルーチンの強制終了にチェックを入れます。[許可されたキー] セルにスペースを追加します。設定には 、[定数]を選択します。
    4. Cross_for_Training_Aを追加します。[Start Time] は 0 に設定されています。「停止条件」セルは Training_A.status == FINISHED に設定されます。テキスト入力ウィンドウに + 記号を入れ、[ すべての繰り返しを設定] を選択します。
  4. Training_Aと同様の手順に従ってTraining_Bを準備します。
3. セッションの確認: 話している 3 人の参加者の名前を選択します。
  1. トレーニングセッションと同じFixation画面とBlank画面を持つCheckという名前のループを定義します。
  2. キーボードから反応を収集する機能を追加することで、トレーニングとは異なるプレゼンテーションを使用します。プレゼンテーション画面で、次の操作を行います。
    1. サウンドコンポーネントを追加し、「Checking_audio」という名前を付けます。「Start Time」を「0」に設定し、[Stop Duration] セルを空白のままにします。「サウンド」セルを「$Sound」に設定し、「Set Every Repeat」をオンにします。
    2. Show_namesという名前のテキストコンポーネントを追加し、コマンドで記述された開始条件を使用します。
      Checking_audio.status == 終了
      をクリックし、[停止時間] を空白のままにします。テキストセルを $ People_Name に設定し、[繰り返しごとに設定] をオンにします。
    3. 「キーボード」コンポーネントを追加し、「Key_Response_Check」というタイトルを付けて、「開始条件」を「Checking_audio.status == FINISHED」にし、「停止期間」を空白のままにします。許可されたキー [num_1]、[num_2]、および残りの [定数] で [ ルーチンの強制終了 ] を選択しnum_3参加者がテンキーを使用して選択にインデックスを付けることができるようにします。
    4. Cross_Checkという名前の固定を追加し、Start Timeを0、Stop ConditionにChecking_audio.status == FINISHEDと入力します。[テキスト] セルに [+] を追加すると、[繰り返しごとに設定] が選択されます。
  3. コードコンポーネントを挿入します。[実験の開始] セクションで、total_trials、current_correct、current_incorrect、current_accuracy を 0 として初期化します。Begin ルーチンで、user_input を None として定義します。[各フレーム] セクションで、キーボードからユーザーの入力を収集し、スプレッドシートファイルに格納されている正しい応答と照合し、キーコード user_key = Key_Response_Check.keys を使用して 1、2、または 3 を抽出します。次に、それを使用して、Correctly_recognize_one_out_of_threeという名前の列に格納されている1、2、または3に対して測定します。
  4. ループから抜けたら、フィードバック画面に次のメッセージが表示されることを確認します: check_feedbacks.text = f" 2 番目のステップが完了しました。\n合計 {total_trials} 個の文で話者を特定しました。\n{current_correct} 人の話者が正しく認識されました。\n{current_incorrect} 人の話者が誤って判断されました。\n全体の精度は {current_accuracy}% です。\n\n83.33% を下回っている場合、\n\n% \n上記の3つのスピーカーに再び馴染みます。\n\n要件を満たしている場合は、スペースバーを押して続行してください。
4. テストセッション:古い話し手と新しい話し手の分類
  1. 「Testing」というタイトルのループを定義します。これには、FixationとBlank(トレーニングセッションと同じ)とプレゼンテーション画面が含まれます。
  2. プレゼンテーションセクションは以下のように準備します。
    1. トレーニングセッションと同じ設定で、サウンドを再生するコンポーネントTesting_soundを追加します。「Start Condition」が「Testing_sound.status == FINISHED」のKey_response_old_newコンポーネントを追加し、「Stop Duration」を空白のままにして、「 Force End of Routine」にチェックを入れます。[許可されたキー] に f と j を含め、[ 定数] を選択します。
  3. 「Start Condition」を「Testing_sound.status == FINISHED」にして「Testing_old_new」という名前のテキストコンポーネントを追加し、「Stop Duration」を空白のままにして、「Set Every Repeat」で「Text」セルを空白のままにします。テキストは後のコードコンポーネントによって定義されます。
  4. 「Start Time」を0、「Stop Condition」を「Testing_sound.status == FINISHED」にCross_Testingを追加し、「Set Every Repeat」がオンの「Text」セルに「+」を追加します。
  5. 以下で説明するように、Code コンポーネントを追加します。
    1. [実験の開始] セクションで、試行の合計数 (total_trials_t)、正しい試行の数 (correct_trials_t)、および正しくない試行の数 (incorrect_trials_t) を初期化します。
    2. 「Begin Routine」セクションで、参加者の ID 番号 (expInfo["Participant"]) に基づいてプレゼンテーション形式を決定するための条件付きチェックから始めます。ID番号が奇数の場合は、古い刺激と新しい刺激を識別するための指示が、("Old(F) New(J)")または("New (F) 'Old (J)")のいずれかの形式で表示されていることを確認してください。
    3. このループの外側には、コードコンポーネントを含むフィードバック画面があります。各フレームセクションが次のように表示されていることを確認してください。testing_feedbacks.text = f"合計 {total_trials_t} 個の文で話者を特定しました。\n{correct_trials_t} 人の話者が正しく認識されました。\n{incorrect_trials_t} 人の話者を誤って判断しました。\n全体の精度は {accuracy_t:.2f}% です。\nスペースバーを押して、この現在の部分を終了してください。
5. 以下に説明するように、プログラムをBrainProductsシステムに接続します。
  1. マーカーを同期するには、各オーディオの開始としてマーカーを設定します。ループTraining_Aの開始前に、以下で説明するように、コードコンポーネントBegin ExperimentでEEGマーカー送信プロトコルを定義します。
    1. パラレルモジュールを含む重要なPsychoPyコンポーネントをインポートし、パラレルポートのアドレスを0x3EFCを使用して設定します。
    2. 脳波マーカーを送信するためのsendTrigger関数を確立します。この関数は、指定された triggerCode を parallel.setData(triggerCode) を使用して並列ポート経由で送信し、それが NumPy 整数であるかどうかを確認し、必要に応じて変換します。
    3. marker captureを確保するために16msの短い待ち時間を追加してから、parallel.setData(0)を使用してトリガーチャネルを0にリセットします。
  2. マーカーをEEGレコーダーに送信するには、sendTrigger()を使用します。対応する列の正確な名前を括弧で囲んで含めます。この調査では、training_a_marker、training_b_marker、check_marker、testing_markerがあり、スプレッドシートで以前に定義された列を参照します。

3. 脳波データの収集

会場の準備
メモ: データ収集を実行するために、少なくとも 2 台のコンピュータが使用可能です。1つはEEGシステムに接続すること、もう1つは行動データを収集することです。動作データ関連のコンピューターをミラーリングするために、別の画面を作成することをお勧めします。このシステムは、アンプとパッシブEEGキャップで構成されています。
1. この研究では、言語聴覚障害が報告されていない参加者を募集します。参加者が精神障害や神経障害を持っていないことを確認してください。合計43人の参加者が選ばれ、EEGマーカーのアライメントの問題により3人が除外されました。残りの40名のうち、女性が20名、男性が20名でした。女性は20.70歳±0.37歳、男性は22.20歳±0.37歳でした。彼らの教育年数は、女性が17.55±0.43歳、男性が18.75±0.38歳でした。
2. 参加者IDを割り当て、実験に参加する前の1時間以内に参加者に髪を洗って乾かすように勧めます。
3. 電解質ゲルと研磨性電解質ゲルを1:3の比率で混合し、少量の水を加えます。スプーンで容器内で混合物を均等にかき混ぜます。
4. 先端の細い綿棒と乾いたEEGキャップを準備します。
5. 参加者に椅子に快適に座ってもらい、実験者がEEGキャップを適用することを伝えます。人体に無害で脳信号の受信を強化する導電性ペーストを、綿棒を使ってキャップの穴に塗布することを説明します。
6. 実験課題に関する指示と実験のインフォームドコンセントフォームを参加者に提供します。参加者の署名をいただいた後、準備フェーズに進みます。
7. EEGキャップをアンプに接続し、アンプをEEGデータ収集コンピュータに接続します。この研究ではパッシブキャップを使用しているため、64個の電極のカラーインジケーターを確認するために追加のモニターを使用する必要があります。
8. BrainVision Recorder³³ を開き、記録パラメータを定義したカスタマイズされたワークスペースファイルをインポートします。 [モニター ]をクリックしてインピーダンスを確認します。赤から緑までのカラーバーは、設定された抵抗レベルの影響を受け、ターゲットインピーダンスは0〜10kΩの範囲です。
参加者の準備
1. 参加者に椅子に直立して座るように依頼します。参加者の頭部に適したサイズ (サイズ 54 または 56) のゲルベースの受動電極システムを選択し、電極システムが 10-20 システム^28,34 に従って正しく取り付けられていることを確認します。
2. まず、使い捨ての綿棒を導電性ペーストに浸し、キャップの穴に塗布し、参加者の頭皮にこすりつけます。EEGデータ収集コンピュータで電極の対応するインジケータが緑色に変わることは、最適なデータを正常に収集していることを示します。
3. 画面上のすべての電極の表示色が、2つの独立した側面の電極を除く緑色に変わったら(モニター画面上)、導電性ペーストを側面の電極に塗布します。左電極を参加者の左目の近く、下まぶたの領域に取り付け、右電極を右こめかみの近くに取り付けます。
4. すべての電極が緑色になったら、参加者の頭に弾性ネットをかぶせて、EEGキャップが参加者の頭に対してより確実かつ安定してフィットするようにします。
5. 参加者に有線ヘッドホン(ラボで使用される特定の空気伝導ヘッドホン)を装備します。電磁シールドドアを閉め、内外の通信を可能にするマイクを介して参加者の行動を導きます。さらに、外部モニターを通じて参加者の動きを監視します。たとえば、体を大幅に動かさないように注意喚起します。また、行動データモニターを通じて、行動タスクの参加者の進行状況を監視します。
6. 参加者に、オーディオインターフェースを介して行動収集コンピューターに接続されたイヤホンを着用するように依頼します。
実験をブロックごとに独立して実行する
1. 脳波データ収集コンピュータでBrainVision Recorderを開き、「Monitor」をクリックしてインピーダンスとStat/Resume Recordingを再確認し、記録を開始します。新しい脳波記録ファイルを作成し、それに応じて名前を付けます(例:14_2、これは参加者番号14の2番目のブロックを意味します)。
2. PsychoPyプログラムの行動実験の実験の実行(緑色のボタン)を開き、参加者のID(例:14)と対応するブロック番号(例:2)を入力し、[ OK ]をクリックして実験を開始します。
3. 参加者が行動データコンピューターのチェックフェーズを完了した後、画面に報告されたデータの精度を綿密に監視します。精度が12点満点中10点未満の場合は、テストフェーズに進む前に、必要な精度に達するまでトレーニングセッションをやり直すように参加者に依頼します。
4. 参加者がブロックのテストフェーズを完了した後、画面に報告される古い認識と新しい認識の最終的な精度に細心の注意を払ってください。精度が非常に低い場合(たとえば、50%未満)は、参加者に考えられる理由を尋ねてください。
脳波実験後
1. 参加者がすべてのブロックを完成させたら、髪を洗うように招待します。EEGキャップは、残留導電性ペーストを歯ブラシで取り除き、信号コネクタを濡らさないように注意し、ビニール袋で包んで清掃します。清掃したら、EEGキャップを換気の良い場所に吊るして乾かします。
2. EEGと行動データをポータブルハードドライブにコピーし、EEGデータと行動データが対応していることを確認します。たとえば、EEG データには 14_2.eeg と 14_2.vhdr の 2 つのファイルで命名され、行動データは 14_2.xlsx ファイルとして命名されます。

4. 脳波データ処理

注:以下の説明には、EEGデータの前処理、統計分析、およびバッチ処理のためのMATLABとRStudioを使用した視覚化が含まれます。

MATLAB による脳波データの前処理
1. EEGと行動データのマージ
  1. 参加者が必要な精度である 10/12 以上に達しない場合、タスクをやり直す必要がある可能性があり、脳波や行動データの命名に影響を与える場合 (たとえば、14_2.vhdr が 14_2(1).vhdr になる可能性がある) ことを考えると、14_2 以外の文字を削除してファイル名を標準化します。各参加者のデータを反復処理しながら、データファイルに sub、stripped_filename、.set という名前を付けます。これにより、sub14_2.set(EEG データセットへのメタデータとリンクを含む)や sub10_1.fdt (実際の EEG データを含む) などのファイルが自動的に保存されます。これにより、14_2.vhdr ファイルと 14_2.eeg ファイルの名前が sub14_2.fdt と sub14_2.set に変更されます。
  2. EEG = pop_mergeset() 関数を使用して、各参加者のデータを 1 つのファイルにマージし、ブロック 1、2、3、4 の番号順ではなく、時系列で異なるブロックデータを結合します。
  3. 複数の行動データファイルを、参加者ごとに時系列に基づいて 1 つのスプレッドシートにマージします。これは、後の同期に不可欠です。
  4. コードをカスタマイズして、EEG 信号の試行を動作信号の試行と同期させます。たとえば、testing_list = [37:108, 145:216, 253:324, 361:432] は、4 つのブロックの EEG マーカーポイントに対応します。
  5. 行動データスプレッドシートを .txt ファイルに変換し、行と列の両方にデータを含むテーブルを作成します。列名には、手順 2.1 で説明したもののほとんどが含まれます。
  6. EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1) のようなコードを使用して、EEG データに情報を追加して、EEG データの内容を再定義します。このプロセスは、各参加者の対応する脳波データと行動データをバッチ処理によってマージします。
    注: 応答値 1 と 0 は行動データから取得され、1 は正しい判断を表し、0 は誤った判断を表します。
2. EEGデータの前処理
  1. 参照および再参照^29,35については、pop_reref関数を呼び出してEEGデータをFCz電極に再参照し、各信号がFCz電極に対して計算されるようにします。pop_reref機能を使用して、脳波データを後頭皮にある両側乳様突起電極を表すチャネル28および29に再参照し、各信号が両側乳様突起に対して相対的に計算されるようにします。
  2. EEG = pop_eegfiltnew(EEG, [], 0.1, 16500, 1, [], 0) でハイパスフィルター (線形トレンドを除去するため) を設定し、EEG = pop_rmbase(EEG, [-500 0]) で -500 から 0 ミリ秒までのベースライン補正を実行します。
  3. 不良な試行を手動で検査する:EEGLABでデータをインポートした後、 プロットを選択し、 チャネルデータ(スクロール)をクリックして、値の最大値を50に設定します。
  4. 目に見える筋肉やその他の種類のアーティファクトを含むトライアルを削除し、不良電極をマークします:チャンネルの波形の上にマウスを置くと、その電極が表示されます。不良な電極をすべて記録し、EEGLABのメインページに戻り、「ツール」で 「電極の補間 」を選択し、「 データチャネルから選択」を選択し、補間が必要な電極を選択して「OK」で確認します。ファイルを新しいフォルダに保存します。
  5. EEG = pop_runica(EEG, 'extended', 1, 'pca', 30, 'interupt', 'on') で主成分分析 (PCA) を実施します。問題のある ICA を手動で拒否し、目、筋肉、チャネルノイズからアーティファクトを除去し、ファイルを保存します。
  6. pop_eegthresh機能を使用して、-75〜 + 75Hzのしきい値を設定し、極端な値34,36,37を削除します。
  7. パラメータ(3番目の入力パラメータ)を30に設定してpop_eegfiltnewを適用し、30Hzおよび³⁸未満の周波数を保持します。
  8. old_new_speaker = {'old', 'new'};same_different_prosody = {'同じ', '異なる'};Confidence_level = {'c', 'd'};および Response = {'1', '0'}。次に、これらの条件を組み合わせて、sub1_new_different_c_0のようなデータの組み合わせを作成し、txt拡張子のファイルとして保存します。
RStudioによるERPs分析
1. データを整理するには、長い形式に変換します。すべての.txtファイルを RStudio にインポートし、rbind 関数を使用して各一時データフレームを alldata に追加し、すべてのファイルデータを含む大きなデータフレームを作成します。正確を期すために、すべてのデータの行列の名前を「Time」に変更します。関数 melt を使用して、すべてのデータをワイド形式からロング形式 (Data_Long) に変換し、各観測値が 1 行を占め、関連するすべての条件とチャネル情報を含めます。
2. dplyr パッケージの filter 関数を使用して、特定の条件に一致するデータを選択します: Judgement is 1.ソースはhです。メモリは古いか新しいかのどちらかです。韻律は c または d です。
3. 電極チャネルに基づいて領域を次のように定義します:左前方(F3、F7、FC5、F5、FT7、FC3、AF7、AF3)。左中央(C3、T7、CP5、C5、TP7、CP3)。左後部(P3、P7、P5、PO7、PO3)。内側前部(Fz、AFz、FC1、FC2、F1、F2、FCz)。内側中央(CP1、CP2、Cz、C1、C2、CPz)。内側後部(Pz、O1、Oz、O2、P1、POz、P2)。右前方(FC6、F4、F8、FC4、F6、AF4、AF8、FT8)。右中央(CP6、C4、T8、CP4、C6、TP8)。右後部(P4、P8、PO4、PO8、P6)。これらの領域を前方領域、中央領域、および後領域にグループ化します。
4. 後続のデータ読み込みのためにワークスペースを保存します。保存するには、setwd();ロードするには、load() を使用します。
統計分析
1. すべての電極にわたる脳波データ分析では、データセットをフィルタリングして、Judgement が 1、Source が h、Memory が古いか新しい、Subject が空でない、Time が 400 から 850 ミリ秒の間の関連するデータポイントのみを含めます。
2. 事前定義されたマッピングに基づいて関心領域 (ROI) の名前を更新します。たとえば、左前方、内側前方、および右前方は前方用です。
3. lme4 パッケージ³⁹ の lmer を使用して、応答変数として Voltage を使用し、Subject と Channel のランダムインターセプトを含む Fixed Effects として Memory と ROI を使用して、線形混合効果モデルをデータに適合させます: fit_time_window <- lmer(Voltage ~ Memory * ROI + (1|Subject) + (1| channel), data=DATA) です。DATA を結合されたデータ、確実なデータのみのデータ、疑わしいデータのみに繰り返し置き換えます。OSF³² のコード例を参照してください。
  1. 適合モデルから解析結果を取得します: anova(fit_time_window), eta_squared(fit_time_window), emmeans(fit_time_window, specs = pairwise ~ Memory * ROI, adjust = "Tukey")
4. PzでのEEGデータ分析の場合、データセットをフィルタリングするときに、上記と同じ手順に従いますが、条件Channel == 'ChPz'も追加します。上記のプロセスを繰り返しますが、lmer(Voltage ~ Memory + (1|Subject)) 400 から 850 ms までの Pz データを解析します。
5. Pz に ERP をプロットするには (結合されたデータセット、確信度のみのデータセット、疑わしいデータセットのみを繰り返す)、データセットをフィルター処理して、Judgement が 1、Source が h、Memory が古いか新しいか、Subject が空でない関連データポイントのみを含めます。
  1. 複数の電極点 (Pz を含む) を含むベクトルを定義し、データ内のチャネル命名規則と一致するように、それらに Ch を接頭辞として付けます。[Pz out] を選択します。
  2. ERP 分析の時間枠を time_window <- c(400, 850) に指定します。対象の電極(この場合は、選択した電極をPz.ループでループ)定義し、以下で説明するようにプロットを作成します。
    1. フィルター (Channel == k) を使用して Pz 電極のデータをフィルター処理し、関連するデータポイントを分離します。
    2. interaction(current_channel_data$Memory) を使用して、メモリ条件に基づいて線種と色の相互作用係数を作成し、条件に Old と New のラベルを付けます。
    3. 関数 summarySEwithin を使用して、Voltage 測定値の経時的な要約統計量と標準誤差を計算し、メジャー変数として Voltage を、Within 変数として Time を指定します。
    4. パラメーター xmin、xmax、ymin、ymax を指定した a を使用して、指定した時間枠の背景を geom_rect に追加することにより、Pz 電極の ERP プロットを生成します。geom_ribbon の標準エラーリボンを含め、平均電圧を geom_line で描画します。プロットの外観とラベルは、scale_x_continuous、scale_y_reverse、scale_linetype_manual、scale_fill_manual、scale_color_manualなどの関数を使用してカスタマイズします。
  3. 基本テーマにtheme_minimalを使用し、テーマを使用してテキストサイズと凡例の配置をさらにカスタマイズします。
MATLAB によるトポグラフィープロット
1. データをインポートし、条件を設定し、1から40までの被験者のリストをsubject_list=1:40で定義します。古い条件と新しい条件を正しく分類するためのデータを格納するために、2つの空のセル配列を定義します: "human_timelocked_old_correct = {};human_timelocked_new_correct = {} です。科目リストをループし、各科目のデータをインポートし、条件に基づいてフィルタリングします。
2. 生の EEGLAB データからイベント情報を抽出し、応答が 1 に等しいイベントのみを選択します。ソースが h に等しい試行を選択し、それに応じてデータ構造を更新します。古い条件と新しい条件のデータを分離し、ソース h を使用した正しい試行に限定し、タイムロック分析を実行します。
  1. 古い条件と新しい条件の両方の総平均を計算します: cfg = [];grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:});grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}) です。
3. 以下で説明するように、順列テストを実行します。
  1. 指定されたレイアウトファイルを使用してネイバー設定を定義します。cfg_neigh = [];cfg_neigh.method = '距離';cfg_neigh.layout = 'path_to_layout_file';ネイバー = ft_prepare_neighbours(cfg_neigh) です。
  2. デザイン行列や統計的手法など、順列検定のパラメーターを設定します: cfg = [];cfg.method = 'モンテカルロ';cfg.statistic = 'ft_statfun_indepsamplesT';cfg.correctm = 'クラスタ';cfg.clusteralpha = 0.05;cfg.clusterstatistic = 'maxsum';cfg.minnbchan = 2;cfg.tail = 0;cfg.clustertail = 0;cfg.alpha = 0.05;cfg.numrandomization = 1000;cfg.neighbours = 隣人;cfg.design = [2*ones(1, length(human_timelocked_new_correct)) ones(1, length(human_timelocked_old_correct))];cfg.ivar = 1 です。さらに、Fieldtrip⁴⁰の使用方法については、次のリンク(https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/)を参照してください。
  3. 古い条件と新しい条件の平均データに対して統計テストを実行します (stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:})。
4. 以下で説明するように、カスタム間隔プロットを実行します。
  1. 2つの条件の差を計算します: cfg = [];cfg.operation = '減算';cfg.parameter = 'avg';grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct) です。
  2. 時間枠を定義します: time_windows = { [0.500, 0.800] % LPC}。
  3. 図を作成し、条件間の差をft_topoplotER(cfg_plot, grandavg_difference)でプロットします。

結果

古典的な新旧の効果は、テストセッションの音声内容がトレーニングセッションの音声内容と一致する場合、特に新しい話し手条件²²と比較して古い話し手条件で、Pz電極上のリスナーの脳活動の大幅な増加(300〜700ミリ秒)によって特徴付けられる。このプロトコルは、この効果の更新バージョンを明らかにします:まず、400〜850ミリ秒の間に、新しいトーカー状態と比較して、古い状態のPz電極と脳領域全体にわたるより大きな正の傾向を観察します。次に、テストセッションのスピーチ内容は、トレーニングセッションのスピーチ内容とは異なります。第三に、自信のある韻律と疑わしい韻律の条件の両方がこれらの傾向を示すと予想されます。最後に、テストセッション中に疑わしい状態では、古い/新しい影響がより顕著になります(図2)。

式による LMER 分析

lmer(電圧 ~ メモリ * ROI + (1|件名) + (1|チャンネル))

は、メモリタイプ(古いメモリタイプと新しいメモリタイプ)とROIの両方に主な影響があり、メモリとROIの間の相互作用があることを示唆しています(表1)。さらなる事後分析により、すべての脳領域において、古い状態は疑わしい状態よりも大きな正の電圧を示すことが明らかになりました(前部、中枢部、および後部領域を含む)(表2)。ベータ値を比較すると、古い/新しい影響は、前電極よりも中央電極と後電極でより顕著であったことが示唆されます:結合データセットでは、前β = 0.40、中央β = 0.63、および後β = 0.60;信頼度の高いデータセットの場合 - Anterior β = .61、Central β = .63、Posterior β = .76、疑わしいデータセットの場合 - Anterior β = .44、Central β = .87、Posterior β = .69。中央電極と後電極の関与は、疑わしい韻律状態で最も顕著でした。

式で

lmer(電圧 ~ メモリ + (1|件名))

Pz電極に新旧の効果が存在することを確認しました。Pz電極では、記憶の主効果(古いものと新しいもの)が観察されました(F(1、69341.99)= 120.46、 p < .001、 η²_p = 0.002、β = 0.425、SE = 0.039、z比= 10.98、 p < .001)。確信度のみの条件では、Pz電極で記憶の主効果(古いものと新しいもの)が観察されました(F(1、34318.32)= 5.04、 p = 0.025、 η²_p = 0.0001、β = 0.125、SE = 0.056、z比= 2.25、 p = 0.025)。疑わしいのみの条件では、Pz電極で記憶の主効果(古いか新しいか)が観察されました（F(1, 34993.20) = 317.02, p < 0.001, η²_p = 0.009, β = 0.914, SE = 0.051, z比 = 17.81, p < 0.001)。

figure-results-1738
図1:各ブロックのデータ収集のワークフロー。 (A)トレーニングでは、リスナーは声を聞き、その後に提示された名前をそれに関連付けます。3人の古い話し手を覚えておく必要があります。番組に登場した言語はもともと中国語でした。A と C は、Xiao (Junior) ZHANG などの名前を表します。(B)チェックでは、リスナーは声を聞いたときにテンキーの1、2、または3を押して話者の名前を識別し、音声のアイデンティティをXiao ZHAOなどの名前に関連付けます。(C)テストでは、リスナーは音声を聞き、古いスピーカーまたは新しいスピーカーによって話されたものとして分類します。(D) 韻律デザインで示されているように、リスナーは 3 人の話し手が自信を持ってまたは疑って表現することを学びますが、6 人の話し手が自信を持って話すか疑わしいかの両方を聞くことを学びます。バージョン A または B の外観は相互に排他的です。バージョンAが男性または女性のスピーカーと一緒に表示される場合、バージョンBは対応する女性または男性のスピーカーと一緒に表示されます。この図の拡大版を表示するには、ここをクリックしてください。

figure-results-2614
図2:新旧の効果 (A, B, C) 図は、韻律結合条件、確信値のみ、疑わしい条件について、それぞれ400msから850msまでのPz電極のERPを灰色で表示しています。(D、E、F)図は、韻律結合、確信度のみ、および疑わしい条件について、すべての電極(黒い点で示されている)にわたる古い状態と新しい状態のトポグラフィーを示しています。この図の拡大版を表示するには、ここをクリックしてください。

文脈	脳領域	F値	PR(>F)	Eta2_partial
複合	記憶	9938.98	.00	.00
	投資収益率	4.13	.02	.13
	メモリ:ROI	182.37	.00	.00
自信	記憶	7291.22	.00	.00
	投資収益率	3.60	.03	.12
	メモリ:ROI	41.94	.00	.00
疑わしい	記憶	8333.38	.00	.00
	投資収益率	4.65	.01	.15
	メモリ:ROI	290.15	.00	.00

表1: 脳領域全体の新旧の影響に関するLMER分析の結果:組み合わせたデータセット、自信のあるデータセット、疑わしいデータセット。事後分析を使用すると、p < .05 で * 有意、p < .01 で ** 有意、p < .001 で *** 有意です。

文脈	脳領域	対照	見積もる	SEの	z	p
複合	前	古い-新しい	.40	.01	43.70	.00***
	中心的	古い-新しい	.63	.01	61.74	.00***
	後の	古い-新しい	.60	.01	67.51	.00***
自信	前	古い-新しい	.61	.01	46.63	.00***
	中心的	古い-新しい	.63	.01	43.22	.00***
	後の	古い-新しい	.76	.01	59.95	.00***
疑わしい	前	古い-新しい	.44	.01	35.95	.00***
	中心的	古い-新しい	.87	.01	64.05	.00***
	後の	古い-新しい	.69	.01	57.75	.00***

表2: 脳領域全体の新旧の影響に関する事後テスト結果:組み合わせたデータセット、自信のあるデータセット、疑わしいデータセット。事後解析を使用すると、p < .001 (***) で有意です。

ディスカッション

この研究は、以前に学習した話者の身元を認識することに焦点を当てた、EEGデータの収集と分析のパイプラインを示しています。この研究では、音声内容^の違い22 と韻律^の違い10など、学習段階と認識段階の違いを取り上げます。このデザインは、代名詞や照応処理⁴¹などの心理言語学を含むさまざまな研究分野に適応できる。

トレーニングテストパラダイムは、音声学習^42,43などの特定のトピックに関する参加者の学習成果を評価するために使用される古典的な実験デザインです。このパラダイムは、参加者が特定の情報をどの程度学習したかを評価します(精度に反映されます)¹⁰。これにより、研究者は、トレーニングおよびテストフェーズで異なる韻律など、制御された実験条件下で変数を段階的に導入し、音声認識精度への影響(たとえば、VTL/F0変調音声²³、恐怖と中立¹⁰、またはこの研究における疑わしい対自信)を理解することができます。

ただし、このパラダイムには制限があります。学習環境とテスト環境の違いは、制御された学習条件がより変動するテスト条件を反映していない場合があるため、実験結果の有効性に影響を与える可能性があります。たとえば、トレーニングセッションでは、30%対70%⁴⁴などの比例差ではなく、単一の韻律を使用します。この不均衡に対処するために、より多様な学習環境を確保することで、スピーカーがリスナーと対話しながらさまざまな韻律を使用する実際のシナリオをより適切に再現できます。さらに、この研究では、複数のステージと高度なプログラミング(R Studio、MATLAB、Pythonなどのツールを使用)を含む実験計画の複雑さが、初心者にとって困難な場合があることを認識しています。

主なインサイトでは、適切な習熟とチェックフェーズの重要性が強調されています。Xu氏とArmony氏の研究は、聞き手が十分な訓練を受け、チャンスレベル¹⁰以上のチェックを行わずに、古い話し手の身元を特定するのに苦労していることを強調しています。さらに、Zaskeらは、LPCの新旧の効果は、同じテキストが繰り返されたときにのみ存在し、異なるテキストでは存在しないことを発見した²²。この研究では、チェックフェーズの実施により、異なるテキスト刺激でも新旧のERP効果の持続性が明らかになり、fMRI研究のクレーム²¹を裏付けています。この研究は、トレーニングテストベースのパラダイムでは、チェックセッションの挿入が重要であることを示唆しています。これにより、リスナーはスピーカーの音響的アイデンティティの強い印象を形成することができ、話し手を名前²³などの特定の記号に関連付けることができます。話し手の表現を十分に学ばなければ、聞き手は話者内のバリエーション¹⁰に適応するのに苦労するかもしれない。

この研究では、話者認識の拘束力のある手がかりとしての韻律の役割も観察された⁴⁵。韻律が古い話し手の認識を妨げる可能性があるという以前の見解に反して、この研究では、自信のある韻律と疑わしい韻律の条件に存在する古い/新しい効果を発見しました。この堅牢な効果は、話者認識における韻律の変調の役割を示唆しています。さらなる解析により、韻律条件による前部領域の活性化の違いが明らかになった。自信のある韻律は、疑わしい韻律と比較して、前部領域での新旧の効果のレベルが低くなりました。この知見は、自信に満ちた発話が声道の長さの延長と基本周波数の低下により、話し手の識別をより困難にし、聞き手からの注意が増大する可能性があることを示唆している^11,29。

この研究のデザインは、相貌失認や音声失認などの患者集団における認識障害に関する将来の調査に情報を提供できます^46,47。さらに、自閉症スペクトラム障害を持つ個人など、注意力が短い参加者に対応するための修正^は、研究のアクセシビリティを向上させる可能性があります。

さらに、パラダイムは話者の認識を超えて、心理言語学研究における代名詞の処理と照応的理解を調査するために拡張されています。Coopmansと^Nieuwland41は、神経振動同期パターンが照応理解における先行活性化と統合をどのように区別するかを示しており、これはこの研究のアイデンティティ関連の手がかりの調査と一致しています。この論文では、手がかりには、コミュニケーションスタイル(例えば、文字通りの文や皮肉な文)、語順(Subject-Object-Verb (SOV)、またはObject-Subject-Verb (OSV) sentence structure 44,45,49,50)、および声の表現タイプ(自信のある韻律と疑わしい韻律)が含まれます。

開示事項

開示すべき情報はありません。

謝辞

この研究は、中国自然科学基金会(助成金第31971037号)の支援を受けました。上海教育発展基金会と上海市教育委員会が支援するShuguangプログラム(助成金番号20SG31)。上海自然科学基金会(22ZR1460200);上海外国語大学(2022113001)のスーパーバイザーガイダンスプログラム。中国国家社会科学基金会の主要プログラム(助成金番号18ZDA293)。

資料

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

参考文献

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

This article has been published

Video Coming Soon

Keep me updated: