Nossa pesquisa examina como um sotaque estrangeiro influenciou a identificação do falante. Nós nos concentramos em características prosódicas com base na frequência fundamental, que é o tom da voz, a duração e a qualidade da voz. Nosso objetivo é entender como esses recursos influenciam os julgamentos dos ouvintes nas escalações de voz.
Há um foco e pesquisas crescentes sobre o desempenho do reconhecimento automático de alto-falantes, que aplica a automação ao fluxo de trabalho de comparação forense de alto-falantes. No entanto, a informação é como uma caixa preta para os cientistas forenses relatarem à polícia, juízes e jurados. Sistemas de reconhecimento automático de alto-falantes baseados em técnicas clássicas, como modelos GMM, UBM e atores ao vivo.
Há também pesquisas neurais baseadas em inteligência artificial. Propomos um fluxo automatizado preservando as informações linguísticas perdidas pelos sistemas automáticos de reconhecimento de fala. Nosso protocolo usa uma abordagem auditiva e acústica combinada para comparação forense da fala ao estabelecer os países onde a ciência foi desenvolvida, mas usando ferramentas automatizadas para extrair uma ampla gama de características acústicas, bem como para executar procedimentos de similaridade acústica.
Para começar, escreva a transcrição linguística de cada arquivo de áudio em um formato de arquivo TXT. Marque o par de arquivos TXT e WAV com o mesmo nome. Crie uma pasta para cada idioma L1, L2.
Certifique-se de que todos os pares de arquivos do mesmo idioma estejam na mesma pasta. Acesse a interface web do alinhador forçado de segmentação automática de Munique, arraste e solte cada par de arquivos WAV e TXT da pasta para o retângulo tracejado nos arquivos. Clique no botão de upload para carregar os arquivos para o alinhador.
No menu de opções de serviço, para dados em inglês L1 L2, selecione grafema para fonema para mouse para telefone para sílaba para nome do pipeline e inglês-EUA para idioma. Mantenha as opções padrão para o formato de saída e mantenha tudo. Marque a caixa de opção de execução para aceitar os termos de uso.
Clique no botão executar serviço da Web para executar os arquivos carregados no alinhador. Depois que os arquivos forem processados, clique no botão baixar como arquivo zip para baixar os arquivos de grade de texto. Extraia os arquivos de grade de texto para posterior realinhamento no software de análise fonética.
Acesse e baixe o script para PRAAT VVUnitAligner. Certifique-se de que todos os pares de arquivos do mesmo idioma e o script VVUnitAligner estejam na mesma pasta. Abra o software de análise fonética.
Na janela do objeto, clique em Praat e abra o script Praat para carregar o script. Clique no botão Executar e selecione o idioma como inglês-EUA. Agora, no botão de segmentação de blocos, selecione automático.
Marque a opção salvar arquivos de grade de texto para salvar automaticamente os arquivos de grade de texto recém-gerados. Clique nos botões ok e executar para realinhar as unidades fonéticas. No site fornecido, baixe o script do extrator de ritmo de fala para extração automática de recursos acústicos prosódicos.
Crie uma nova pasta e adicione o script do extrator de ritmo de fala junto com todos os arquivos de grade de texto de áudio de todos os idiomas. Abra o software de análise fonética. Na janela do objeto, clique em Praat e abra o script Praat para carregar o script.
Em seguida, clique no botão Executar uma vez. Marque a opção de parâmetros de qualidade de voz para salvar o arquivo de saída VQ para qualidade de voz. Agora marque a opção de destino linguístico para escolher o idioma.
Em seguida, marque a opção de unidade para escolher os recursos F0 em semitons. Defina os valores para o limite F0, incluindo limites mínimo e máximo. Clique em OK, seguido de executar para a extração automática de recursos acústicos.
Para executar modelos aditivos generalizados, análise estatística não paramétrica, digite o comando indicado e carregue a planilha contendo os recursos acústicos extraídos no ambiente R. Por fim, pressione enter para executar. A velocidade de fala diminuiu mais rapidamente para L1 L2 inglês em comparação com L1 L2 BP, que teve declives menos acentuados devido à maior duração da sílaba e menor variabilidade.
O shimmer local permaneceu relativamente estável para falantes brasileiros, L1 BP e L2 English, apesar do aumento da variabilidade da duração da sílaba. A taxa de pausa foi maior para falantes de L2 BP, com pausas mais longas em comparação com falantes de inglês L1, L1 BP e L2. A velocidade de articulação foi afetada de forma semelhante à velocidade de fala, com taxas mais baixas associadas a maior carga linguística cognitiva e variação de sílabas.
O desvio padrão da duração da sílaba diminuiu à medida que a velocidade da fala aumentou em todos os níveis de linguagem. O varco de sílabas diminuiu para L1 BP e L2 BP com o aumento da variabilidade F0 e da velocidade de fala, enquanto aumentou para o inglês L1 e o inglês L2. O desvio padrão das consoantes mostrou menor variabilidade na L1 BP à medida que a velocidade de fala ou a duração da pausa aumentavam em comparação com o inglês L1.
O desvio padrão para vogais e consoantes seguiu um padrão de aumento de queda para L1 BP e L2 BP, com características prosódicas crescentes, enquanto diminuiu e depois atenuou para L1 inglês e L2 inglês. Depois de preparar quatro alinhamentos de voz para inglês e BP, obtenha os arquivos de áudio dos alto-falantes selecionados e organize-os em pastas específicas do idioma. Selecione aleatoriamente seis partes de voz em inglês L1 ou BP L1. Em seguida, escolha um pedaço de voz em inglês L2 ou BP L2 de um dos seis pedaços de voz.
Acesse e baixe o script para Praat Create Lineup. Antes de executar o script, certifique-se de que a voz de referência L2, as folhas L1 e a voz de destino L1 sejam colocadas na mesma pasta. Abra o software de análise fonética.
Na janela do objeto, clique em Praat e abra o script Praat para carregar o script. Em seguida, clique em executar para executar o script de criação de programação. No ambiente R, para executar o teste de Kruskal-Wallace, digite o comando indicado.
Em seguida, carregue a planilha contendo as pontuações dos julgamentos dos ouvintes e pressione enter. Em seguida, para o teste post-hoc de Dunn, digite o seguinte comando e pressione enter. Acesse e baixe o script Python, Acoustic Similarity Cosine Euclidean.
Certifique-se de que o script baixado seja salvo na mesma pasta que o conjunto de dados de alinhamento de voz. Clique no botão abrir arquivo para chamar o script e, em seguida, clique nos botões executar e executar sem depuração para executar o script. Por fim, realize testes de similaridade de voz com base em características acústicas.
Na linha de voz BP um, a voz foil três foi julgada como a voz alvo, sem diferença significativa entre a folha três e a voz alvo quatro. Na linha de voz BP dois, nenhuma diferença significativa foi encontrada entre a voz alvo três e a folha quatro. Tanto a similaridade do cosseno quanto a distância euclidiana mostraram uma forte correlação entre o foil três e a voz-alvo na linha BP um.
Na linha dois da BP, ambas as métricas de similaridade se correlacionaram fortemente entre a folha quatro e o alvo.