قالت شركة بريطانية ناشئة للتعرف على الكلام إن تقنية التعرف على الصوت الخاص بها كانن أفضل من أداء شركات التكنولوجيا الكبرى مثل جوجل وأمازون في فهم أصوات الأشخاص السود، وفقا لتقرير البوابة العربية للأخبار التقنية.
وأوضحت شركة Speechmatics أن نظامها يتمتع بمعدل دقة إجمالي يبلغ 83 في المئة للأصوات الأمريكية من أصل أفريقي. وهذا أعلى من مايكروسوفت (73%) وأمازون (69%) وجوجل (69%) وآبل (55%)، وفقًا لبحث نشرته جامعة ستانفورد في عام 2020.
وقارن بحث جامعة ستانفورد نتائج شركات التكنولوجيا الكبرى في مدى دقة برامج التعرف على الكلام في فهم الأمريكيين الأفارقة، علاوة على ذلك ارتكبت أنظمة أمازون وجوجل ومايكروسوفت وآبل ما يقرب من ضعف عدد الأخطاء عند تفسير الكلمات التي يتحدثها الأمريكيون من أصل أفريقي مقارنة بالبيض، وفقًا لباحثين في جامعة ستانفورد.
وتقول Speechmatics إن نظامها أخطأ في التعرف على الكلمات المأخوذة من أصوات السود بنسبة 17في المئة من الوقت، مقابل 31 في المئة لجوجل وأمازون.
وقال أليسون كوينيكي، المؤلف الرئيسي لدراسة ستانفورد: من الأهمية دراسة وتحسين الإنصاف في أنظمة تحويل الكلام إلى نص نظرًا لإمكانية حدوث أضرار متفاوتة للأفراد من خلال القطاعات النهائية التي تتراوح من الرعاية الصحية إلى العدالة الجنائية وأصبحت تقنية التعرف على الصوت جزء لا يتجزأ من الحياة اليومية، وذلك بفضل انتشار المساعدين الافتراضيين عبر الأجهزة الذكية مثل الهواتف ومكبرات الصوت.
وكانت شركة آبل رائدة في استخدام البرامج التي يتم تنشيطها صوتيًا عبر الأجهزة المحمولة من خلال مساعدها الرقمي سيري، بينما كانت أمازون من أوائل الشركات التي جلبت التعرف على الكلام إلى المنزل من خلال مكبرات الصوت Echo ومساعد أليكسا، التحيز فى تقنية التعرف على الصوت وأصبح الباحثون قلقين بشكل متزايد بشأن التحيز في الخوارزميات التي تدعم خدمات التعرف على الكلام هذه.
ويقول الخبراء إن العديد من برامج التعرف على الصوت يتم تدريبها على مجموعات محدودة من البيانات، مما يجعلها أقل فعالية، ويتعلق الأمر بجودة البيانات في مجموعات التدريب.
وكان هناك تحيز عنصري وتحيز جنساني وتحيز في اللهجة الإقليمية في تقنية التعرف على الكلام لفترة طويلة، وهذه التكنولوجيا لا تعمل بالطريقة نفسها مع الجميع حتى الآن.
تقول Speechmatics إنها دربت ذكاءها الاصطناعي ببيانات غير مصنفة من وسائل التواصل الاجتماعي والبودكاست، وذلك لمساعدتها في تعلم جوانب مختلفة من الكلام بما في ذلك اللهجة واللغة، علاوة على ذلك قالت الشركة إن تقنيتها مدربة على 1.1 مليون ساعة من الصوت.
ووصفت Speechmatics التطوير بأنه يمثل اختراق، وتأمل في أن تصبح شركات التكنولوجيا الأخرى أكثر شفافية بشأن الجهود المبذولة للحد من التحيز في الذكاء الاصطناعي، ونتيجة لذلك كثف عمالقة التكنولوجيا استثماراتهم في التعرف على الكلام مؤخرًا، ووافقت مايكروسوفت على الاستحواذ على شركة البرمجيات Nuance Communications مقابل 16 مليار دولار في شهر أبريل.