يدرس بحثنا كيف أثرت اللهجة الأجنبية على تحديد هوية المتحدث. نحن نركز على الميزات العروضية بناء على التردد الأساسي ، وهو درجة الصوت والمدة وجودة الصوت. هدفنا هو فهم كيفية تأثير هذه الميزات على أحكام المستمعين في التشكيلات الصوتية.
هناك تركيز وبحث متزايد في أداء التعرف التلقائي على مكبر الصوت ، والذي يطبق الأتمتة على سير عمل مقارنة مكبرات الصوت الشرعية. ومع ذلك ، فإن المعلومات تشبه الصندوق الأسود لعلماء الطب الشرعي لإبلاغ الشرطة والقضاة والمحلفين. تعتمد أنظمة التعرف التلقائي على السماعات على التقنيات الكلاسيكية مثل GMM ونماذج UBM والممثلين المباشرين.
هناك أيضا أبحاث عصبية تعتمد على الذكاء الاصطناعي. نقترح تدفقا آليا يحافظ على المعلومات اللغوية التي تفوتها أنظمة التعرف التلقائي على الكلام. يستخدم بروتوكولنا نهجا سمعيا وصوتيا مشتركا لمقارنة الكلام الشرعي أثناء تحديد البلدان التي تم تطوير العلم فيها ، ولكن باستخدام أدوات آلية لاستخراج مجموعة واسعة من الميزات الصوتية وكذلك لتشغيل إجراءات التشابه الصوتي.
للبدء ، اكتب النسخ اللغوي لكل ملف صوتي بتنسيق ملف TXT. ضع علامة على زوج ملفات TXT و WAV بنفس الاسم. قم بإنشاء مجلد لكل لغة L1 وL2.
تأكد من أن جميع أزواج الملفات من نفس اللغة موجودة في نفس المجلد. قم بالوصول إلى واجهة الويب الخاصة ب Munich Automatic Segmentation ، قم بسحب وإسقاط كل زوج من ملفات WAV و TXT من المجلد إلى المستطيل المتقطع في الملفات. انقر فوق الزر تحميل لتحميل الملفات إلى التقويم.
في قائمة خيارات الخدمة، بالنسبة لبيانات اللغة الإنجليزية L1 L2، حدد الرسم البياني إلى الصوت إلى الماوس إلى الهاتف إلى مقطع لفظي لاسم خط الأنابيب والإنجليزية-الأمريكية للغة. احتفظ بالخيارات الافتراضية لتنسيق الإخراج واحتفظ بكل شيء. حدد مربع خيار التشغيل لقبول شروط الاستخدام.
انقر فوق الزر تشغيل خدمة الويب لتشغيل الملفات التي تم تحميلها في التقويم. بعد معالجة الملفات ، انقر فوق الزر تنزيل كملف مضغوط لتنزيل ملفات الشبكة النصية. استخرج ملفات الشبكة النصية لإعادة المحاذاة لاحقا في برنامج التحليل الصوتي.
قم بالوصول إلى البرنامج النصي ل PRAAT VVUnitAligner وتنزيله. تأكد من أن جميع أزواج الملفات من نفس اللغة والبرنامج النصي VVUnitAligner موجودة في نفس المجلد. افتح برنامج التحليل الصوتي.
من نافذة الكائن، انقر فوق Praat وافتح البرنامج النصي Praat لتحميل البرنامج النصي. انقر فوق زر التشغيل ، ثم حدد اللغة الإنجليزية - الأمريكية. الآن ، من زر تجزئة القطع ، حدد تلقائي.
حدد خيار حفظ ملفات الشبكة النصية لحفظ ملفات الشبكة النصية التي تم إنشاؤها حديثا تلقائيا. انقر فوق الزرين موافق والتشغيل لإعادة محاذاة الوحدات الصوتية. من الموقع المحدد ، قم بتنزيل البرنامج النصي لمستخرج إيقاع الكلام للاستخراج التلقائي للميزات الصوتية العروضية.
قم بإنشاء مجلد جديد وأضف البرنامج النصي لمستخرج إيقاع الكلام مع جميع ملفات شبكة النص الصوتي بجميع اللغات. افتح برنامج التحليل الصوتي. من نافذة الكائن، انقر فوق Praat وافتح البرنامج النصي Praat لتحميل البرنامج النصي.
ثم انقر فوق الزر "تشغيل" مرة واحدة. تحقق من خيار معلمات جودة الصوت لحفظ ملف الإخراج VQ لجودة الصوت. تحقق الآن من خيار الهدف اللغوي لاختيار اللغة.
ثم تحقق من خيار الوحدة لاختيار ميزات F0 في أنصاف النغمات. قم بتعيين قيم الحد F0، بما في ذلك الحد الأدنى والحد الأقصى. انقر فوق موافق ، متبوعا بتشغيل للاستخراج التلقائي للميزات الصوتية.
لإجراء نماذج الإضافة المعممة، التحليل الإحصائي غير المعلمي، اكتب الأمر المشار إليه وقم بتحميل جدول البيانات الذي يحتوي على الميزات الصوتية المستخرجة في بيئة R. أخيرا ، اضغط على Enter للتنفيذ. انخفض معدل الكلام بسرعة أكبر للغة الإنجليزية L1 L2 مقارنة ب L1 L2 BP ، والتي كانت منحدرات أقل انحدارا بسبب ارتفاع مدة المقاطع وانخفاض التباين.
ظل الوميض المحلي مستقرا نسبيا للمتحدثين البرازيليين ، L1 BP و L2 الإنجليزية ، على الرغم من زيادة تباين مدة المقاطع. كان معدل الإيقاف المؤقت أعلى للمتحدثين L2 BP ، مع فترات توقف أطول مقارنة بالمتحدثين باللغة الإنجليزية L1 و L1 BP و L2. تأثر معدل النطق بالمثل مثل معدل الكلام بمعدلات أقل مرتبطة بارتفاع الحمل اللغوي المعرفي وتباين المقاطع.
انخفض الانحراف المعياري لمدة المقطع مع زيادة معدل الكلام عبر جميع مستويات اللغة. انخفض فاركو المقاطع ل L1 BP و L2 BP مع زيادة تباين F0 ومعدل الكلام بينما زاد بالنسبة للغة الإنجليزية L1 و L2 الإنجليزية. أظهر الانحراف المعياري للحروف الساكنة تباينا أقل في L1 BP حيث زاد معدل الكلام أو مدة التوقف المؤقت مقارنة باللغة الإنجليزية L1.
اتبع الانحراف المعياري للحروف المتحركة والحروف الساكنة نمط ارتفاع السقوط ل L1 BP و L2 BP ، مع زيادة السمات العروضية ، بينما انخفض ثم خفف ل L1 English و L2 الإنجليزية. بعد إعداد أربع مجموعات صوتية لكل من اللغة الإنجليزية و BP ، احصل على الملفات الصوتية من المتحدثين المحددين ورتبها في مجلدات خاصة باللغة. حدد عشوائيا ستة أجزاء صوتية باللغة الإنجليزية L1 أو L1 BP. ثم اختر جزءا صوتيا واحدا في L2 English أو L2 BP من إحدى الأجزاء الصوتية الستة.
قم بالوصول إلى البرنامج النصي ل Praat Create Lineup وتنزيله. قبل تشغيل البرنامج النصي ، تأكد من وضع الصوت المرجعي L2 ورقائق L1 والصوت المستهدف L1 في نفس المجلد. افتح برنامج التحليل الصوتي.
من نافذة الكائن، انقر فوق Praat وافتح البرنامج النصي Praat لتحميل البرنامج النصي. ثم انقر فوق تشغيل لتنفيذ البرنامج النصي لإنشاء تشكيلة. في بيئة R ، لإجراء اختبار Kruskal-Wallace ، اكتب الأمر المشار إليه.
ثم قم بتحميل جدول البيانات الذي يحتوي على درجات أحكام المستمعين واضغط على Enter. ثم لاختبار Dunn اللاحق ، اكتب الأمر التالي واضغط على Enter. قم بالوصول إلى برنامج Python النصي وتنزيله ، Acoustic Similarity Cosine Euclidean.
تأكد من حفظ البرنامج النصي الذي تم تنزيله في نفس المجلد مثل مجموعة بيانات مجموعة بيانات التشكيلة الصوتية. انقر فوق الزر "فتح الملف" لاستدعاء البرنامج النصي ، ثم انقر فوق تشغيل ، وقم بتشغيل بدون تصحيح الأزرار لتنفيذ البرنامج النصي. أخيرا ، قم بإجراء اختبارات تشابه الصوت بناء على الميزات الصوتية.
في تشكيلة صوت BP الأولى ، تم الحكم على صوت الرقائق ثلاثة على أنه الصوت المستهدف ، مع عدم وجود فرق كبير بين الرقائق ثلاثة والصوت المستهدف أربعة. في التشكيلة الصوتية الثانية من BP ، لم يتم العثور على فرق كبير بين الصوت المستهدف الثالث والرقائق الأربعة. أظهر كل من تشابه جيب التمام والمسافة الإقليدية ارتباطا قويا بين الرقائق ثلاثة والصوت المستهدف في تشكيلة BP الأولى.
في تشكيلة BP الثانية ، يرتبط كلا مقياسي التشابه ارتباطا وثيقا بين الرقائق أربعة والهدف.