В нашем исследовании рассматривается, как иностранный акцент повлиял на идентификацию говорящего. Мы сосредоточимся на просодических характеристиках, основанных на основной частоте, которая представляет собой высоту голоса, продолжительность и качество голоса. Наша цель — понять, как эти особенности влияют на суждения слушателей в голосовых рядах.
Все больше внимания уделяется и исследованиям производительности автоматического распознавания говорящих, что применяет автоматизацию к рабочему процессу судебного сравнения говорящих. Тем не менее, эта информация похожа на черный ящик, о котором судмедэксперты сообщают полиции, судьям и присяжным. Системы автоматического распознавания диктора на основе классических методик, таких как модели GMM, UBM и живые актеры.
Также существуют нейронные исследования, основанные на искусственном интеллекте. Мы предлагаем автоматизированный поток с сохранением лингвистической информации, пропущенной системами автоматического распознавания речи. Наш протокол использует комбинированный слуховой и акустический подход для криминалистического сравнения речи при установлении стран, где была разработана наука, но с использованием автоматизированных инструментов для извлечения широкого спектра акустических особенностей, а также для выполнения процедур акустического сходства.
Для начала запишите языковую транскрипцию для каждого аудиофайла в формате TXT. Добавьте теги к паре файлов TXT и WAV с одинаковыми именами. Создайте папку для каждого языка L1, L2.
Убедитесь, что все пары файлов одного и того же языка находятся в одной папке. Откройте веб-интерфейс принудительного выравнивателя Munich Automatic Segmentation, перетащите каждую пару файлов WAV и TXT из папки в пунктирный прямоугольник в файлах. Нажмите кнопку «Загрузить», чтобы загрузить файлы в выравниватель.
В меню параметров службы для данных L1 L2 на английском языке выберите grapheme to phoneme to phone to slogable для имени конвейера и English-US для языка. Оставьте стандартные параметры формата вывода и сохраните все. Установите флажок «Выполнить», чтобы принять условия использования.
Нажмите кнопку запуска веб-сервиса, чтобы запустить загруженные файлы в выравнивателе. После обработки файлов нажмите кнопку «Загрузить как zip-файл», чтобы загрузить файлы текстовой сетки. Извлечение текстовых файлов сетки для последующей перестройки в программном обеспечении для фонетического анализа.
Получите доступ и загрузите скрипт для PRAAT VVUnitAligner. Убедитесь, что все пары файлов одного языка и скрипт VVUnitAligner находятся в одной папке. Откройте программу для фонетического анализа.
В окне объекта нажмите кнопку Praat и откройте скрипт Praat, чтобы загрузить скрипт. Нажмите кнопку «Выполнить», затем выберите язык «Английский-США». Теперь на кнопке сегментации блоков выберите «Автоматически».
Установите флажок «Сохранять файлы текстовой сетки», чтобы автоматически сохранять вновь созданные файлы текстовой сетки. Нажмите кнопки «ОК» и «Бег» для перестановки фонетических единиц. С данного сайта загрузите скрипт извлечения речевых ритмов для автоматического извлечения просодических акустических особенностей.
Создайте новую папку и добавьте скрипт извлечения ритма речи вместе со всеми файлами текстовой сетки аудио на всех языках. Откройте программу для фонетического анализа. В окне объекта нажмите кнопку Praat и откройте скрипт Praat, чтобы загрузить скрипт.
Затем нажмите кнопку «Выполнить» один раз. Отметьте опцию параметров качества голоса, чтобы сохранить выходной файл VQ для качества голоса. Теперь отметьте опцию лингвистической цели, чтобы выбрать язык.
Затем отметьте опцию единиц измерения, чтобы выбрать элементы F0 в полутонах. Задайте значения порогового значения F0, включая минимальное и максимальное пороговые значения. Нажмите OK, а затем выполните команду run для автоматического извлечения акустических особенностей.
Для выполнения обобщенных аддитивных моделей, непараметрического статистического анализа необходимо ввести указанную команду и выгрузить таблицу, содержащую извлеченные акустические особенности, в среду R. Наконец, нажмите Enter для выполнения. Скорость речи снижалась быстрее у L1 L2 English по сравнению у L1 L2 BP, у которых были менее крутые склоны из-за более высокой длительности слогов и меньшей вариативности.
Локальное мерцание оставалось относительно стабильным для носителей бразильского языка, L1 BP и L2 английского, несмотря на увеличивающуюся вариабельность длительности слога. Частота пауз была выше у носителей L2 BP, с более длительными паузами по сравнению с носителями L1 English, L1 BP и L2 English. Скорость артикуляции влияла так же, как и скорость речи, с более низкими показателями, связанными с более высокой когнитивной лингвистической нагрузкой и вариативностью слогов.
Стандартное отклонение длительности слога уменьшалось по мере увеличения скорости речи на всех языковых уровнях. Варко слогов уменьшалось для L1 BP и L2 BP с увеличением вариабельности F0 и скорости речи, в то время как для L1 английского и L2 английского он увеличивался. Стандартное отклонение согласных показало меньшую вариабельность в L1 BP по мере увеличения темпа речи или длительности паузы по сравнению с английским языком L1.
Стандартное отклонение для гласных и согласных следовало модели снижения для L1 BP и L2 BP с увеличением просодических особенностей, в то время как оно уменьшалось, а затем ослабевало для L1 английского и L2 английского. После подготовки четырех голосовых составов для английского языка и BP, получите аудиофайлы от выбранных спикеров и разложите их по папкам для конкретного языка. Случайным образом выберите шесть голосовых фрагментов на языках L1 English или L1 BP. Затем выберите один голосовой блок на английском языке L2 или L2 BP из одного из шести голосовых блоков.
Получите доступ и загрузите скрипт для Praat Create Lineup. Перед запуском сценария убедитесь, что эталонный голос L2, фольги L1 и целевой голос L1 помещены в одну папку. Откройте программу для фонетического анализа.
В окне объекта нажмите кнопку Praat и откройте скрипт Praat, чтобы загрузить скрипт. Затем нажмите кнопку «Выполнить», чтобы выполнить сценарий создания состава. В среде R для выполнения теста Краскела-Уоллеса введите указанную команду.
Затем загрузите таблицу, содержащую баллы суждений слушателей, и нажмите Enter. Затем для постфактум теста Данна введите следующую команду и нажмите Enter. Получите доступ к скрипту Python и загрузите его по адресу: Acoustic Similarity Cosine Euclidean.
Убедитесь, что загруженный сценарий сохранен в той же папке, что и набор данных голосовой линии. Нажмите кнопку «Открыть файл», чтобы вызвать сценарий, затем нажмите кнопку «Выполнить» и запустите без кнопок отладки, чтобы выполнить сценарий. Наконец, проведите тесты на сходство голоса на основе акустических особенностей.
В первой линейке голосов BP третий голос был оценен как целевой голос, без существенной разницы между третьим и четвертым голосом. Во втором голосовом ряду BP не было обнаружено существенной разницы между целевым голосом 3 и фольгой 4. Как косинусоидное сходство, так и евклидово расстояние показали сильную корреляцию между третьей фольгой и целевым голосом в первой линии АД.
Во второй линейке БП оба показателя сходства сильно коррелировали между четвертой фольгой и целью.