أنظمة التعرف على الكلام

makhlouf · 25 أغسطس 2019، 8:54م

مقدمة

حين تتصل بإحدى الشركات الكبرى في وقتنا الحاضر، لا يرد عليك شخصٌ بل يجيب بدلًا عنه تسجيلٌ صوتيٌّ آليٌّ ويرشدك إلى ضغط أزرارٍ محددةٍ تنقلك إلى قائمة الخيارات، إلا أن بعض الشركات ذهبت إلى أبعد من ذلك حيث باستطاعتك نطق بعض الكلمات كأوامر للحصول على غايتك.

إن النظام الذي يجعل هذه الأشياء ممكنةً هو أحد برامج التعرف على الكلام speech recognition program، ويُسمّى نظام الهاتف الآلي automated phone system.

يمكن أيضًا استخدام خاصية التعرف على الكلام في المنازل ومقرات العمل، حيث تُمكّن هذه البرمجيات المستخدمين على نطاقٍ واسعٍ من إعطاء الأوامر للحواسيب وتحويل الكلام إلى نصٍّ يُكتب كملفٍ في محرّر النصوص أو مستند نصٍّ في البريد الإلكتروني إضافةً إلى إمكانية الوصول إلى الأوامر الوظيفية مثل فتح ملفات أو الوصول إلى قوائم بواسطة أوامر صوتيةٍ.

من جهةٍ أخرى فإن ذوي الاحتياجات الخاصة ممن لا يستطيعون الكتابة يعتمدون على أنظمة التعرف على الكلام، فعند فقدان المستخدم القدرة على استخدام يديه، أو كان يعاني من ضعفٍ في النظر وليس من الممكن استخدام لوحة مفاتيح بريل (Braille).

فهذا النظام يسمح لنا باستخدام تعبيرٍ شخصيٍّ عن طريق أوامر صوتيةٍ إضافةً إلى التحكم في العديد من المهام الحاسوبية.

الهدف من أنظمة التعرف على الكلام

تهدف أنظمة التعرف على الكلام إلى تمكين الحاسوب من فهم الكلام المنطوق الذي يدلي به متحدث عادي، حيث يقوم نظام التعرف باستقبال الكلمات أو الجمل المنطوقة من خلال مايكرفون او أي جهاز إدخال مماثل ثم يحول هذه الكلمات إلى نصوص مكتوبة أو أوامر حاسوبية تسهل معالجتها والوصول إلى مقاصدها حسب مجال التطبيق.

تحويل الكلام إلى بيانات

يجب على الحاسوب القيام بعدّة خطواتٍ معقدةٍ من أجل تحويل الكلام إلى نصٍ مقروءٍ أو أوامر حاسوبيةٍ.

عندما تبدأ بالكلام فإنك تقوم بخلق اهتزازاتٍ في الهواء، ويقوم المحول التناظري إلى الرقمي (analog-to-digital converter (ADC بتحويل هذه الأمواج التناظرية إلى بياناتٍ رقميةٍ يستطيع الحاسوب التعامل معها، وللقيام بعملية أخذ العينات الرقمية للصوت تؤخَذ مستوياتٌ محددةٌ للأمواج عبر فواصل متساويةٍ ومتواترةٍ ثم يقوم هذا النظام بترشيح الصوت الرقمي لإزالة الضجيج غير المرغوب به.

وفي بعض الأحيان يقوم بتقسيمه إلى حزمٍ مختلفةٍ من الترددات frequency (التردد هو الطول الموجي لأمواج الصوت، يُسمع من قبل البشر بطبقاتٍ صوتيةٍ مختلفةٍ). إضافةً إلى معالجة الصوت وضبطه بمستوىً ثابتٍ.

وبما إن الأشخاص عادةً لا يتكلمون بنفس السرعة لذا يجب ضبط الصوت ليطابق قالب عينات الصوت المخزَّن سابقًا في ذاكرة النظام.

مشاكل أنظمة التعرف على الكلام :
1- التباين الواضح في طرق الكلام وهو ناتج عن اتساع اختلاف المتكلم من حيث النبرات , اللهجات …الخ
2- معدل الكلام يتغير من شخص لأخر وهذا ناتج عن السلوك فالاختلاف في المعدل خطير جدا في حد ذاته فالسرعة في المعدل أشبه بحذف الفونيم .
3- الكلمة او العبارة المتحدث بها شخص واحد تختلف من مرحلة لأخرى ويكون الاختلاف ي حالات المرض , الإرهاق ,.الإجهاد .
4- الأدوات الصوتية وطرق استخدامها مؤثرة في اختلاف الأصوات من حيث موقع المتحدث بالنسبة للميكرفون ونوعية أجهزة التسجيل

مراحل التعرف على الكلام

تبدأ رحلة الكلام الموجه إلى الحاسب من فم المتكلم الذي يدلي بحديثة من خلال الميكرفون متصل بالحاسوب.

بعد ذلك يتحول الكلام إلى شارات كهربائية متصلة . وبما أن الحاسوب جهاز رقمي يصعب التعامل مع الشارات الكهربائية المتصلة مباشرة فانه يتم تحويل هذه الشارات إلى شارات رقمية متقطعة Discrete Digital signal.

الشارات الرقمية الناتجة تمر بعدة مراحل قبل بدء عملية التعرف تشمل العمليات :

1- المعالجة الأولية Pre-processing
2- المطابقة Recognition
3- الاتصال أو التواصل Communication

أنواع أنظمة التعرف على الكلام

نظام نص إلى كلام : و دورهُ تحويل اللغة العادية إلى كلام…
نظام التعرف على الكلام : و هو عملية تحويل إشارات الكلام إلى سلسلة من الكلمات أو نص…
نظام ترجمة الآلة : و عَمَلَهُ ترجمة النص أو الكلام من واحدة من اللغات إلى لغة أخرى/ مثل موقع ترجمة جوجل بالكتابة و الصوت…

لنا عودة إلى الموضوع ان شاء الله
المراجع:
https://www.ye1.org/forum/threads/386110/
https://nasainarabic.net/main/articles/view/high-tech-gadgets-speech-recognition

mosaab.laboune · 21 أغسطس 2019، 6:36م

شكرا على الافادة أخي @makhlouf مقال رائع

YaserAlnajjar · 25 أغسطس 2019، 12:40م

مقال رائع يا اسماعيل!

عمل برمجيات تعمل بالصوت هي الثورة القادمة في عالم البرمجة

يوجد API متكاملة من شركة أمازون فيها خدمات Alexa

بإمكانك بها عمل تطبيق يعمل بالصوت تقول له: “اجلب لي برجر من KFC” وهو يقوم بارسال الطلب على المطعم مباشرة

هي مثل الخيال العلمي، لكن في السنوات القادمة أؤمن بأنها البرمجيات القادمة

makhlouf · 25 أغسطس 2019، 1:03م

بالفعل يا استاذ
يتجهون نحو التحكم في الحاسوب عن طريق الصوت فبدل استعمال الفأرة و لوحة المفاتيح نستعمل الكلام او الاوامر الصوتية للقيام بذلك.
سنحاول الدخول في المجال إذا استطعنا إلى ذلك سبيلا.

Alhakem · 25 أغسطس 2019، 10:12م

تكنولوجيا تتطور بشكل سريع من يوم لأخر من جانب تسهل علينا الحياة ومن الجانب الأخر قد تجعلها جحيم إذا تم إسائة إستخدامها.

مقال رائع ي إسماعيل شكراً لك

amoula · 27 أغسطس 2019، 1:47م

مقال رائع اسماعيل شكرا جزيلا لك