Method Article
この研究では、自信のある韻律シナリオと疑わしい韻律シナリオにおけるイベント関連の可能性の古い/新しい影響を調査するためのトレーニングテストパラダイムを導入しています。データは、Pzおよび他の電極で400〜850ミリ秒の間に強化された遅延正極成分を明らかにしています。このパイプラインでは、音声の韻律を超えた要因と、それらがキューバインディングターゲットの同定に与える影響を探ることができます。
音声ストリームから馴染みのある話者を認識することは、人間の言語コミュニケーションの基本的な側面です。しかし、聞き手が表現力豊かなスピーチで話し手のアイデンティティをどのように識別できるかは不明のままです。本研究では、記憶に基づく個々の話者識別認識アプローチと、聞き手が聞き覚えのある話者をどのように認識し、聞き慣れない話者を区別するかを監視する、付随する脳波(EEG)データ分析パイプラインを開発します。EEGデータは、音声に基づいて新旧の話者の区別中にオンライン認知プロセスをキャプチャし、脳活動のリアルタイム測定を提供し、反応時間と精度測定の限界を克服します。パラダイムは3つのステップで構成されています:リスナーは3つの声とその名前の間の関連付けを確立します(トレーニング)。リスナーは、3つの候補からの音声に対応する名前を示します(チェック中)。リスナーは、2 つの代替の強制選択タスク (テスト) で 3 つの古い話者の声と 3 つの新しい話者の声を区別します。テストでのスピーチの韻律は、自信があるか疑わしいかのどちらかでした。脳波データは、64チャンネルの脳波システムを使用して収集され、その後前処理が行われ、ERPと統計解析のためにRStudioにインポートされ、脳のトポグラフィーのためにMATLABにインポートされました。結果は、Pzおよび両方の韻律の他の広範囲の電極の400-850 msウィンドウでの新語者条件と比較して、旧話者で拡大した後期正成分(LPC)が誘発されたことを示しました。それでも、古い/新しい効果は、疑わしい韻律知覚のための中央電極と後電極で堅牢でしたが、前電極、中央電極、および後電極は自信のある韻律状態のためのものです。この研究では、この実験デザインが、さまざまなシナリオ(照応表現など)やフォナグノシアなどの患者の病状における話者固有の手がかり結合効果を調査するための参照として役立つことを提案しています。
人間の声の流れは、感情1,2、健康状態3,4、生物学的性別5、年齢6、そしてさらに重要なことに、個々の声のアイデンティティ7,8などの情報が豊富です。研究によると、人間のリスナーは、声を通じて仲間のアイデンティティを認識し、区別する強固な能力を持っており、音響空間における話者アイデンティティの平均ベースの表現をめぐる話者内の変動を克服することが示唆されている9。このような変化は、明確な語用論的意図9に対応する音響操作(基本周波数と声道の長さ、すなわちF0とVTL)、感情の韻律10、そして話し手の知った感覚を伝える声の自信11によってもたらされる。行動実験は、言語関連の操作8,12,13、音楽経験や読解能力などの参加者関連の特性14,15、後方発話や非単語16,17などの刺激関連の適応など、聞き手が話し手を認識する際のパフォーマンスに影響を与える多くの要因に焦点を当ててきました。詳細については、文献レビュー18,19をご覧ください。最近のいくつかの実験では、話者のアイデンティティ表現の個々のバリエーションが認識精度をどのように損なうかを調査しており、感情表現力の高低16、中立的な韻律と恐怖の韻律5などの側面を考慮しています。レビュー20で示唆されているように、さらなる調査のために開かれている可能性のあるシナリオ。
最初の研究ギャップについては、この研究は、話者識別の神経学的基盤が、話者内の変動がリスナーの脳活動にどのように挑戦するかをまだ完全には調査していないことを提案しています。例えば、ZäskeらによるfMRIに基づく話者認識課題では、参加者の右後上側頭回(pSTG)、右下/中前頭回(IFG/MFG)、右内側前頭回、および左尾状は、言語内容が同じか異なるかに関係なく、古い話し手と新しい話し手として正しく識別された場合、活性化の低下を示した21.しかし、Zäskeらによる以前の脳波計(EEG)研究では、話者のアイデンティティのバリエーションが異なるテキストを通じて導入された場合、この新旧の影響は観察されなかった22。具体的には、聞き手が同じテキストを表現する(つまり、変化しない言語内容のリプレイを聞く)慣れ親しんだ訓練された話し手に出くわしたときにPz電極で検出された、300〜700ミリ秒の範囲のより大きな遅延正成分(LPC)は、話し手が新しいテキストを配信したときには存在しませんでした。
Zäske et al.21による主張を支持して、この研究では、イベント関連電位(ERP)分析におけるトレーニングセッションとテストセッションの間の言語内容の違いにもかかわらず、古い/新しい効果が依然として観察される可能性があると疑っています。この理論的根拠は、異なるテキストが使用された条件下で、Zäske et al.22に新旧の効果が存在しないのは、Lavan et al.23が示唆しているように、徹底的かつ効果的なアイデンティティ学習を確保するためのトレーニングタスク中の追加のチェックセッションの欠如に起因する可能性があるという考えに由来しています。したがって、この研究の最初の目的は、この仮説を調査し、検証することです。この研究は、トレーニングテストパラダイム22にチェックセッションを追加することにより、これをテストすることを目的としています。
この研究が取り組むことを目指しているもう一つの重要な問題は、音声韻律の存在下での話者識別の堅牢性です。これまでの行動研究では、聞き手は特に異なる韻律の話し手を認識するのに苦労していることが示唆されており、これは韻律の文脈の調節的な役割を示しています。これは、聞き手がさまざまなトレーニングテストの韻律条件でパフォーマンスが低いことを示しています。この研究は、聞き手が自信に満ちた韻律または疑わしい韻律24で馴染みのある話し手を認識するように公開することにより、これをテストすることを目的としています。この研究では、観察されたERPの違いが、音声の韻律がID認識にどのように影響するかを説明するのに役立つと期待しています。
現在の研究の主な目的は、話者認識における新旧の効果の堅牢性を調査することであり、具体的には、自信のある韻律と疑わしい韻律で話し手を認識することに違いがあるかどうかを調べることです。XuとArmony10は、トレーニングテストパラダイムを使用して行動研究を行い、その結果は、聞き手が韻律の違いを克服することができず(たとえば、中立的な韻律で話し手を認識するように訓練され、恐ろしい韻律でテストされた)、偶然のレベル10よりも低い精度しか達成できないことを示唆しています。音響解析は、さまざまな感情状態を表現するスピーカーがVTL/F0変調に関連していることを示しています。たとえば、自信のある韻律は VTL が長くなり、F0 が低くなるという特徴がありますが、疑わしい韻律11,24 ではその逆が当てはまります。もう1つの証拠は、Lavanらの研究から来ています.23、これにより、リスナーは話者のVTLおよびF0の変化に適応し、話し手の平均ベースの表現を形成できることを確認しました。この研究は、行動データの観点から、聞き手は韻律全体で話し手のアイデンティティを認識する可能性が高いことを調和させています(たとえば、自信のある韻律では話し手を認識するように訓練されているが、疑わしい韻律でテストされている、準備中の別の原稿で報告されています)。しかし、話者識別の神経相関、特にZäskeらによって観察された新旧の効果の一般化可能性は不明のままです22。したがって、現在の研究では、テストのコンテキストとして、自信のある韻律と疑わしい韻律における古い/新しい効果の堅牢性を検証することに専念しています。
この研究は、新旧の影響研究における以前の研究パラダイムからの逸脱を導入しています。過去の研究では、新旧の話し手の認識が知覚にどのように影響するかに焦点を当てていましたが、この研究では、2つの信頼レベル(自信と疑わしい)をパラダイムに組み込むことでこれを拡張しました(したがって、2+2研究)。これにより、自信に満ちた韻律と疑わしい韻律の文脈における話者の認識を調査することができます。このパラダイムにより、新旧の効果の堅牢性を探求することができます。自信のある音声文脈と疑わしい音声文脈の両方における記憶効果と関心領域(ROI)の分析は、この調査の証拠として役立ちます。
全体として、この研究は、音声認識のEEG相関の理解を更新することを目的としており、EEGの新旧効果の拡大したLPCは、1)言語内容が同じでない場合でも観察可能であり、2)自信のある韻律と疑わしい韻律の存在でも観察できます。この研究では、3段階のパラダイムを通じて仮説を調査しました。まず、トレーニングフェーズでは、参加者は3つの声とそれに対応する名前の間の関連付けを確立しました。その後、チェックフェーズでは、3つの候補から音声に対応する名前を特定するタスクが課せられました。このチェックは、Lavan et al.23に倣い、トレーニングフェーズとテストフェーズのテキストが異なるときに観察されない古い/新しい影響につながった、不十分な古い話者の習熟を克服することを目的としており、6、話し手は中立的で恐ろしい韻律10の話し手を認識することができませんでした。最後に、テストフェーズでは、参加者は2つの選択肢からなる強制選択課題で、3つの古い話者の声と3つの新しい話者の声を区別し、音声の韻律は自信があるか疑わしいかとして提示されました。脳波データは、64チャンネルの脳波システムを使用して収集され、分析前に前処理が行われました。統計解析とイベント関連ポテンシャル(ERP)解析はRStudioで行い、脳トポグラフィー解析にはMATLABを利用しました。
設計詳細に関しては、本研究では、VTLに関連し、誰が話しているかの印象に影響を与える話し手の身長を制御する話者アイデンティティ学習実験を提案する23。この側面は、知覚された優位性25などの社会的印象にも影響を及ぼし、そのような高レベルの印象形成は、話者のアイデンティティ26の解読と相互作用するかもしれない。
上海外国語大学言語学研究所の倫理委員会は、以下の実験計画を承認しました。この研究では、すべての参加者からインフォームド コンセントが得られました。
1. オーディオライブラリの準備と検証
2. 脳波データ収集のプログラミング
3. 脳波データの収集
4. 脳波データ処理
注:以下の説明には、EEGデータの前処理、統計分析、およびバッチ処理のためのMATLABとRStudioを使用した視覚化が含まれます。
古典的な新旧の効果は、テストセッションの音声内容がトレーニングセッションの音声内容と一致する場合、特に新しい話し手条件22と比較して古い話し手条件で、Pz電極上のリスナーの脳活動の大幅な増加(300〜700ミリ秒)によって特徴付けられる。このプロトコルは、この効果の更新バージョンを明らかにします:まず、400〜850ミリ秒の間に、新しいトーカー状態と比較して、古い状態のPz電極と脳領域全体にわたるより大きな正の傾向を観察します。次に、テストセッションのスピーチ内容は、トレーニングセッションのスピーチ内容とは異なります。第三に、自信のある韻律と疑わしい韻律の条件の両方がこれらの傾向を示すと予想されます。最後に、テストセッション中に疑わしい状態では、古い/新しい影響がより顕著になります(図2)。
式による LMER 分析
lmer(電圧 ~ メモリ * ROI + (1|件名) + (1|チャンネル))
は、メモリタイプ(古いメモリタイプと新しいメモリタイプ)とROIの両方に主な影響があり、メモリとROIの間の相互作用があることを示唆しています(表1)。さらなる事後分析により、すべての脳領域において、古い状態は疑わしい状態よりも大きな正の電圧を示すことが明らかになりました(前部、中枢部、および後部領域を含む)(表2)。ベータ値を比較すると、古い/新しい影響は、前電極よりも中央電極と後電極でより顕著であったことが示唆されます:結合データセットでは、前β = 0.40、中央β = 0.63、および後β = 0.60;信頼度の高いデータセットの場合 - Anterior β = .61、Central β = .63、Posterior β = .76、疑わしいデータセットの場合 - Anterior β = .44、Central β = .87、Posterior β = .69。中央電極と後電極の関与は、疑わしい韻律状態で最も顕著でした。
式で
lmer(電圧 ~ メモリ + (1|件名))
Pz電極に新旧の効果が存在することを確認しました。Pz電極では、記憶の主効果(古いものと新しいもの)が観察されました(F(1、69341.99)= 120.46、 p < .001、 η²p = 0.002、β = 0.425、SE = 0.039、z比= 10.98、 p < .001)。確信度のみの条件では、Pz電極で記憶の主効果(古いものと新しいもの)が観察されました(F(1、34318.32)= 5.04、 p = 0.025、 η²p = 0.0001、β = 0.125、SE = 0.056、z比= 2.25、 p = 0.025)。疑わしいのみの条件では、Pz電極で記憶の主効果(古いか新しいか)が観察されました(F(1, 34993.20) = 317.02, p < 0.001, η²p = 0.009, β = 0.914, SE = 0.051, z比 = 17.81, p < 0.001)。
図1:各ブロックのデータ収集のワークフロー。 (A)トレーニングでは、リスナーは声を聞き、その後に提示された名前をそれに関連付けます。3人の古い話し手を覚えておく必要があります。番組に登場した言語はもともと中国語でした。A と C は、Xiao (Junior) ZHANG などの名前を表します。(B)チェックでは、リスナーは声を聞いたときにテンキーの1、2、または3を押して話者の名前を識別し、音声のアイデンティティをXiao ZHAOなどの名前に関連付けます。(C)テストでは、リスナーは音声を聞き、古いスピーカーまたは新しいスピーカーによって話されたものとして分類します。(D) 韻律デザインで示されているように、リスナーは 3 人の話し手が自信を持ってまたは疑って表現することを学びますが、6 人の話し手が自信を持って話すか疑わしいかの両方を聞くことを学びます。バージョン A または B の外観は相互に排他的です。バージョンAが男性または女性のスピーカーと一緒に表示される場合、バージョンBは対応する女性または男性のスピーカーと一緒に表示されます。 この図の拡大版を表示するには、ここをクリックしてください。
図2:新旧の効果 (A, B, C) 図は、韻律結合条件、確信値のみ、疑わしい条件について、それぞれ400msから850msまでのPz電極のERPを灰色で表示しています。(D、E、F)図は、韻律結合、確信度のみ、および疑わしい条件について、すべての電極(黒い点で示されている)にわたる古い状態と新しい状態のトポグラフィーを示しています。 この図の拡大版を表示するには、ここをクリックしてください。
文脈 | 脳領域 | F値 | PR(>F) | Eta2_partial |
複合 | 記憶 | 9938.98 | .00 | .00 |
投資 収益 率 | 4.13 | .02 | .13 | |
メモリ:ROI | 182.37 | .00 | .00 | |
自信 | 記憶 | 7291.22 | .00 | .00 |
投資 収益 率 | 3.60 | .03 | .12 | |
メモリ:ROI | 41.94 | .00 | .00 | |
疑わしい | 記憶 | 8333.38 | .00 | .00 |
投資 収益 率 | 4.65 | .01 | .15 | |
メモリ:ROI | 290.15 | .00 | .00 |
表1: 脳領域全体の新旧の影響に関するLMER分析の結果:組み合わせたデータセット、自信のあるデータセット、疑わしいデータセット。事後分析を使用すると、p < .05 で * 有意、p < .01 で ** 有意、p < .001 で *** 有意です。
文脈 | 脳領域 | 対照 | 見積もる | SEの | z | p |
複合 | 前 | 古い-新しい | .40 | .01 | 43.70 | .00*** |
中心的 | 古い-新しい | .63 | .01 | 61.74 | .00*** | |
後の | 古い-新しい | .60 | .01 | 67.51 | .00*** | |
自信 | 前 | 古い-新しい | .61 | .01 | 46.63 | .00*** |
中心的 | 古い-新しい | .63 | .01 | 43.22 | .00*** | |
後の | 古い-新しい | .76 | .01 | 59.95 | .00*** | |
疑わしい | 前 | 古い-新しい | .44 | .01 | 35.95 | .00*** |
中心的 | 古い-新しい | .87 | .01 | 64.05 | .00*** | |
後の | 古い-新しい | .69 | .01 | 57.75 | .00*** |
表2: 脳領域全体の新旧の影響に関する事後テスト結果:組み合わせたデータセット、自信のあるデータセット、疑わしいデータセット。事後解析を使用すると、p < .001 (***) で有意です。
この研究は、以前に学習した話者の身元を認識することに焦点を当てた、EEGデータの収集と分析のパイプラインを示しています。この研究では、音声内容の違い22 と韻律の違い10など、学習段階と認識段階の違いを取り上げます。このデザインは、代名詞や照応処理41などの心理言語学を含むさまざまな研究分野に適応できる。
トレーニングテストパラダイムは、音声学習42,43などの特定のトピックに関する参加者の学習成果を評価するために使用される古典的な実験デザインです。このパラダイムは、参加者が特定の情報をどの程度学習したかを評価します(精度に反映されます)10。これにより、研究者は、トレーニングおよびテストフェーズで異なる韻律など、制御された実験条件下で変数を段階的に導入し、音声認識精度への影響(たとえば、VTL/F0変調音声23、恐怖と中立10、またはこの研究における疑わしい対自信)を理解することができます。
ただし、このパラダイムには制限があります。学習環境とテスト環境の違いは、制御された学習条件がより変動するテスト条件を反映していない場合があるため、実験結果の有効性に影響を与える可能性があります。たとえば、トレーニングセッションでは、30%対70%44などの比例差ではなく、単一の韻律を使用します。この不均衡に対処するために、より多様な学習環境を確保することで、スピーカーがリスナーと対話しながらさまざまな韻律を使用する実際のシナリオをより適切に再現できます。さらに、この研究では、複数のステージと高度なプログラミング(R Studio、MATLAB、Pythonなどのツールを使用)を含む実験計画の複雑さが、初心者にとって困難な場合があることを認識しています。
主なインサイトでは、適切な習熟とチェックフェーズの重要性が強調されています。Xu氏とArmony氏の研究は、聞き手が十分な訓練を受け、チャンスレベル10以上のチェックを行わずに、古い話し手の身元を特定するのに苦労していることを強調しています。さらに、Zaskeらは、LPCの新旧の効果は、同じテキストが繰り返されたときにのみ存在し、異なるテキストでは存在しないことを発見した22。この研究では、チェックフェーズの実施により、異なるテキスト刺激でも新旧のERP効果の持続性が明らかになり、fMRI研究のクレーム21を裏付けています。この研究は、トレーニングテストベースのパラダイムでは、チェックセッションの挿入が重要であることを示唆しています。これにより、リスナーはスピーカーの音響的アイデンティティの強い印象を形成することができ、話し手を名前23などの特定の記号に関連付けることができます。話し手の表現を十分に学ばなければ、聞き手は話者内のバリエーション10に適応するのに苦労するかもしれない。
この研究では、話者認識の拘束力のある手がかりとしての韻律の役割も観察された45。韻律が古い話し手の認識を妨げる可能性があるという以前の見解に反して、この研究では、自信のある韻律と疑わしい韻律の条件に存在する古い/新しい効果を発見しました。この堅牢な効果は、話者認識における韻律の変調の役割を示唆しています。さらなる解析により、韻律条件による前部領域の活性化の違いが明らかになった。自信のある韻律は、疑わしい韻律と比較して、前部領域での新旧の効果のレベルが低くなりました。この知見は、自信に満ちた発話が声道の長さの延長と基本周波数の低下により、話し手の識別をより困難にし、聞き手からの注意が増大する可能性があることを示唆している11,29。
この研究のデザインは、相貌失認や音声失認などの患者集団における認識障害に関する将来の調査に情報を提供できます46,47。さらに、自閉症スペクトラム障害を持つ個人など、注意力が短い参加者に対応するための修正は、研究のアクセシビリティを向上させる可能性があります。
さらに、パラダイムは話者の認識を超えて、心理言語学研究における代名詞の処理と照応的理解を調査するために拡張されています。CoopmansとNieuwland41は、神経振動同期パターンが照応理解における先行活性化と統合をどのように区別するかを示しており、これはこの研究のアイデンティティ関連の手がかりの調査と一致しています。この論文では、手がかりには、コミュニケーションスタイル(例えば、文字通りの文や皮肉な文)、語順(Subject-Object-Verb (SOV)、またはObject-Subject-Verb (OSV) sentence structure 44,45,49,50)、および声の表現タイプ(自信のある韻律と疑わしい韻律)が含まれます。
開示すべき情報はありません。
この研究は、中国自然科学基金会(助成金第31971037号)の支援を受けました。上海教育発展基金会と上海市教育委員会が支援するShuguangプログラム(助成金番号20SG31)。上海自然科学基金会(22ZR1460200);上海外国語大学(2022113001)のスーパーバイザーガイダンスプログラム。中国国家社会科学基金会の主要プログラム(助成金番号18ZDA293)。
Name | Company | Catalog Number | Comments |
64Ch Standard BrainCap for BrainAmp | Easycap GmbH | Steingrabenstrasse 14 DE-82211 | https://shop.easycap.de/products/64ch-standard-braincap |
Abrasive Electrolyte-Gel | Easycap GmbH | Abralyt 2000 | https://shop.easycap.de/products/abralyt-2000 |
actiCHamp Plus | Brain Products GmbH | 64 channels + 8 AUX | https://www.brainproducts.com/solutions/actichamp/ |
Audio Interface | Native Instruments GmbH | Komplete audio 6 | https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/ |
Foam Eartips | Neuronix | ER3-14 | https://neuronix.ca/products/er3-14-foam-eartips |
Gel-based passive electrode system | Brain Products GmbH | BC 01453 | https://www.brainproducts.com/solutions/braincap/ |
High-Viscosity Electrolyte Gel | Easycap GmbH | SuperVisc | https://shop.easycap.de/products/supervisc |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved