Notre recherche examine comment un accent étranger a influencé l’identification du locuteur. Nous nous concentrons sur les caractéristiques prosodiques basées sur la fréquence fondamentale, qui est la hauteur, la durée et la qualité de la voix. Notre objectif est de comprendre comment ces fonctionnalités influencent les jugements des auditeurs dans les alignements vocaux.
L’attention et la recherche sur les performances de la reconnaissance automatique des locuteurs sont de plus en plus nombreuses, ce qui applique l’automatisation au flux de travail de comparaison des locuteurs médico-légaux. Cependant, l’information est comme une boîte noire que les scientifiques médico-légaux peuvent rapporter à la police, aux juges et aux jurés. Systèmes de reconnaissance automatique des locuteurs basés sur des techniques classiques telles que GMM, modèles UBM et acteurs en direct.
Il existe également des recherches neuronales basées sur l’intelligence artificielle. Nous proposons un flux automatisé préservant les informations linguistiques manquées par les systèmes de reconnaissance automatique de la parole. Notre protocole utilise une approche auditive et acoustique combinée pour comparer la parole médico-légale tout en établissant les pays où la science a été développée, mais en utilisant des outils automatisés pour extraire un large éventail de caractéristiques acoustiques ainsi que pour exécuter des procédures de similarité acoustique.
Pour commencer, rédigez la transcription linguistique de chaque fichier audio dans un format de fichier TXT. Balisez la paire de fichiers TXT et WAV avec le même nom. Créez un dossier pour chaque langue L1 et L2.
Assurez-vous que toutes les paires de fichiers de la même langue se trouvent dans le même dossier. Accédez à l’interface Web de Munich Automatic Segmentation aligner forcé, glissez-déposez chaque paire de fichiers WAV et TXT du dossier vers le rectangle pointillé dans les fichiers. Cliquez sur le bouton de téléchargement pour télécharger les fichiers sur l’aligneur.
Dans le menu des options de service, pour les données anglaises L1 L2, sélectionnez graphème à phonème à souris à téléphone à syllabe pour nom de pipeline et anglais-US pour langue. Conservez les options par défaut pour le format de sortie et conservez tout. Cochez la case de l’option d’exécution pour accepter les conditions d’utilisation.
Cliquez sur le bouton Exécuter le service Web pour exécuter les fichiers téléchargés dans l’aligneur. Une fois les fichiers traités, cliquez sur le bouton Télécharger en tant que fichier zip pour télécharger les fichiers de grille de texte. Extrayez les fichiers de la grille de texte pour un réalignement ultérieur dans un logiciel d’analyse phonétique.
Accédez et téléchargez le script pour PRAAT VVUnitAligner. Assurez-vous que toutes les paires de fichiers de la même langue et le script VVUnitAligner se trouvent dans le même dossier. Ouvrez le logiciel d’analyse phonétique.
Dans la fenêtre de l’objet, cliquez sur Praat et ouvrez le script Praat pour charger le script. Cliquez sur le bouton Exécuter, puis sélectionnez la langue Anglais-États-Unis. Maintenant, à partir du bouton de segmentation des morceaux, sélectionnez automatique.
Cochez l’option Enregistrer les fichiers de grille de texte pour enregistrer automatiquement les fichiers de grille de texte nouvellement générés. Cliquez sur les boutons OK et Exécuter pour réaligner les unités phonétiques. À partir du site donné, téléchargez le script d’extraction du rythme de parole pour l’extraction automatique des caractéristiques acoustiques prosodiques.
Créez un nouveau dossier et ajoutez le script d’extraction de rythme de parole avec tous les fichiers de grille de texte audio de toutes les langues. Ouvrez le logiciel d’analyse phonétique. Dans la fenêtre de l’objet, cliquez sur Praat et ouvrez le script Praat pour charger le script.
Cliquez ensuite une fois sur le bouton Exécuter. Cochez l’option des paramètres de qualité vocale pour enregistrer le fichier de sortie VQ pour la qualité vocale. Cochez maintenant l’option linguistique cible pour choisir la langue.
Cochez ensuite l’option d’unité pour choisir les caractéristiques F0 en demi-tons. Définissez les valeurs du seuil F0, y compris les seuils minimum et maximum. Cliquez sur OK, puis sur Exécuter pour l’extraction automatique des caractéristiques acoustiques.
Pour effectuer des modèles additifs généralisés, des analyses statistiques non paramétriques, tapez la commande indiquée et téléchargez la feuille de calcul contenant les caractéristiques acoustiques extraites dans l’environnement R. Enfin, appuyez sur Entrée pour exécuter. Le débit de parole a diminué plus rapidement pour l’anglais L1 L2 par rapport à l’anglais L1 L2, qui avait des pentes moins raides en raison de la durée plus longue des syllabes et de la variabilité plus faible.
Le scintillement local est resté relativement stable pour les locuteurs brésiliens, L1 BP et L2 anglais, malgré la variabilité croissante de la durée des syllabes. Le taux de pause était plus élevé pour les locuteurs de L2 BP, avec des pauses plus longues par rapport aux locuteurs de L1 anglais, L1 BP et L2 anglais. Le taux d’articulation était affecté de la même manière que le taux de parole, avec des taux plus faibles associés à une charge linguistique cognitive plus élevée et à une variation des syllabes.
L’écart-type de la durée de la syllabe diminuait à mesure que le débit de parole augmentait à tous les niveaux de langue. Le Varco des syllabes a diminué pour L1 BP et L2 BP avec l’augmentation de la variabilité F0 et du débit de parole, tandis qu’il a augmenté pour l’anglais L1 et l’anglais L2. L’écart-type des consonnes a montré une variabilité plus faible de la BP L1 à mesure que le débit de parole ou la durée de la pause augmentaient par rapport à l’anglais L1.
L’écart-type pour les voyelles et les consonnes a suivi un modèle de montée en baisse pour L1 BP et L2 BP, avec des caractéristiques prosodiques croissantes, tandis qu’il a diminué puis s’est atténué pour l’anglais L1 et l’anglais L2. Après avoir préparé quatre listes vocales pour l’anglais et le BP, récupérez les fichiers audio des haut-parleurs sélectionnés et rangez-les dans des dossiers spécifiques à la langue. Sélectionnez au hasard six morceaux de voix en anglais L1 ou en BP L1. Choisissez ensuite un morceau de voix en anglais L2 ou en BP L2 parmi l’un des six morceaux de voix.
Accédez et téléchargez le script de Praat Create Lineup. Avant d’exécuter le script, assurez-vous que la voix de référence L2, les feuilles L1 et la voix cible L1 sont placées dans le même dossier. Ouvrez le logiciel d’analyse phonétique.
Dans la fenêtre de l’objet, cliquez sur Praat et ouvrez le script Praat pour charger le script. Cliquez ensuite sur Exécuter pour exécuter le script de création de lineup. Dans l’environnement R, pour effectuer le test de Kruskal-Wallace, tapez la commande indiquée.
Téléchargez ensuite la feuille de calcul contenant les scores des jugements des auditeurs et appuyez sur Entrée. Ensuite, pour le test de Dunn post-hoc, tapez la commande suivante et appuyez sur Entrée. Accédez et téléchargez le script Python, Similarité Acoustique Cosinus Euclidienne.
Assurez-vous que le script téléchargé est enregistré dans le même dossier que le jeu de données de la liste de voix. Cliquez sur le bouton Ouvrir le fichier pour appeler le script, puis sur les boutons Exécuter et Exécuter sans débogage pour exécuter le script. Enfin, effectuez des tests de similarité vocale basés sur les caractéristiques acoustiques.
Dans la première ligne vocale de BP, la troisième voix de feuille a été jugée comme la voix cible, sans différence significative entre la troisième feuille et la quatrième voix cible. Dans la deuxième série de voix BP, aucune différence significative n’a été observée entre la voix cible trois et la quatrième feuille. La similitude cosinusoïdale et la distance euclidienne ont montré une forte corrélation entre la troisième feuille et la voix cible dans la première ligne de BP.
Dans la deuxième gamme de BP, les deux mesures de similarité étaient fortement corrélées entre le fleuret quatre et la cible.