خورازمية جديدة تجعل الحاسوب قادر على قراءة الشفاه

استطاعت هيلين بير وزميلها (ريتشارد هارفي- Richard Harvey) عمل خوارزمية جديدة لقراءة الشفاه، والتي يمكنها تحسين قدرة الحاسوب على التمييز بين الكلمات التي تتشابه في حركة نطقها على الشفاه، كمثال لذلك لدينا الحروف الهجائية (p،b،m) جميعها تخرجها الشفاه بنفس الشكل، وقدّم الباحثون السابق ذكرهم خوارزميتهم الجديدة لقراءة الشفاه في المؤتمر الدولي لمعالجة الإشارات والكلام والصوتيات لجمعية مهندسي الكهرباء والإلكترونيات IEEE (International Conference on Acoustics, speech, and signal processing) في شانغهاي في الصين.

يمكن استخدام تلك الخوارزمية التي يمكنها قراءة الشفاه بكفاءة، في أغراض أخرى غير غرض تحكيم مباريات كرة القدم، يمكن استخدامها في حل ألغاز الجرائم الجنائية، ويمكن استخدامها في تحليل حوادث السيارات وحوادث الطائرات عن طريق اللقطات المسجلة مسبقًا، وذلك طبقًا لكلام هيلين بير، ويمكن استخدام الخوارزمية في مساعدة الصم والبكم، ويمكن استخدامها أيضًا في دبلجة الأفلام السينمائية.

تكمن مهمّة قراءة الشفاه أو التعرف على الكلام بالرؤية (visual speech recognition)، بالتعرف على الحركات والأشكال التي يصدرها الفم ومن ثم تحويلها إلى كلمات، ويُعدُّ الأمر أكثر تحديًا وأكثر تعقيدًا من التعرف على الكلام المسموع (Audio speech recognition) الأكثر شيوعًا حاليًا؛ وذلك بسبب أن الفم يشكّل حوالي من (10- 14) شكل يسمون فيزيمات (Visemes) بينما تمتلك لغة الكلام (50) صوتًا مختلفًا تُسمّى صوتيات (phonemes) لذلك يمكن ربط الفيزيم (viseme) الواحد بأكثر من صوت (phoneme).

هذا وطوّرت هيلين بير وهارفي خوارزمية جديدة من خوارزميات تعلم الآلة (machine learning)، والتي يمكنها بدقة ربط الفيزيم الواحد بصوت محدد، ويتم تدريب الخوارزمية من خلال خطوتين، في الخطوة الأولى يتم تدريب الحاسوب على ربط الفيزيم بكل الصوتيات التي تخصه، وفي الخطوة الثانية يتم مضاعفة الفيزيم إلى عددٍ من النسخ مساوٍ لعدد الصوتيات التي تخصه ثم يتم تدريب كل نسخة فيزيم على تمييز صوت واحد فقط من هذه الصوتيات.

تم استخراج البيانات التي استخدمت في تدريب الخوارزمية من تسجيلات مرئية وصوتية لـ(12) متحدثٍ (7 رجال و5 نساء)، وتحتوي التسجيلات على (200) جملة، واستخدمت هيلين بير خوارزمية شهيرة من خوارزميات الرؤية بالحاسب لاستخراج صور لحركات أفواه المتحدثين، ثم ربطت هذه الصور بالفيزيمات المناسبة لها، وربطت التسجيلات المسموعة بالصوتيات المناسبة لها، ثم استخدمت جميع هذه البيانات في تدريب الخوارزمية.

وتستطيع الخوارزمية التعرف على (25%) من الأصوات بشكل صحيح، ويعتبر ذلك تحسنًا عن الخوارزميات السابقة، حيث جعلت الخوارزمية قراءة حركة الشفاه تتحسن بقيمة (5%) عن الطرق السابقة، وتقول هيلين بير أن ذلك يعتبر تقدمًا ملحوظًا جدًا مقارنةً بالأنظمة التي تم صنعها سابقًا للتعرف على الكلام.