“التعلم العميق” للذكاء الاصطناعي.. كيف يتم تدريب الخوارزميات كي تتعرف على تصرفاتنا وتعابيرنا بدقة؟

عربي بوست
تم النشر: 2022/06/22 الساعة 06:24 بتوقيت غرينتش
تم التحديث: 2022/06/22 الساعة 06:28 بتوقيت غرينتش
تستخدم شركتا Synthesis AI وDatagen عمليات مسح ثلاثية الأبعاد للجسم بالكامل، وضمن ذلك عمليات المسح التفصيلية للوجه، وبيانات الحركة التي التقطتها أجهزة الاستشعار الموضوعة في جميع أنحاء الجسم/ Datagen

أنت تقود سيارتك، لكنك مرهق. تبدأ كتفاك بالانحناء، ورقبتك في التدلي، وينزلق جفناك إلى أسفل. وعندما يميل رأسك للأمام، تنحرف بعيداً عن الطريق وتسرع في حقل، وتصطدم بشجرة. لكن ماذا لو تعرّف نظام المراقبة في سيارتك على علامات النعاس ودفعك إلى الخروج عن الطريق والوقوف بدلاً من ذلك؟ هذا ما سيحصل الآن بالفعل، فقد أصدرت المفوضية الأوروبية تشريعات تنص على أنه اعتباراً من هذا العام، ستُزوَّد المركبات الجديدة بأنظمة لضبط السائقين المشتتين والناعسين؛ للمساعدة في تجنب الحوادث. 

والآن، يعمل عدد من الشركات الناشئة على تدريب أنظمة الذكاء الاصطناعي للتعرف على الإشارات التي تعطيها تعابير الوجه ولغة الجسد، كما يقول تقرير لصحيفة The Guardian البريطانية، فكيف يتم ذلك؟

كيف يتم تدريب الخوارزميات لكي تتعرف بدقة على تصرفاتنا؟

تقول الغارديان، إن هذه الشركات تتبع نهجاً جديداً في مجال الذكاء الاصطناعي. إذ بدلاً من تصوير آلاف السائقين الواقعيين وهم ينامون وإدخال هذه المعلومات في نموذج التعلم العميق "لتعلم" علامات النعاس، تصنع هذه الشركات الملايين من الصور الرمزية البشرية المزيفة لإعادة تمثيل علامات النعاس.

وتحدد "البيانات الضخمة" مجال الذكاء الاصطناعي لسبب ما. فلكي تُدرَّب خوارزميات التعلم العميق بدقة، تحتاج نماذج المحاكاة إلى العديد من نقاط البيانات. وهذا يخلق مشكلات لمهمة مثل التعرف على شخص ينام على عجلة القيادة، الأمر الذي سيكون صعباً ويستغرق وقتاً طويلاً لتصوير حدوثه في آلاف السيارات. وبدلاً من ذلك، بدأت الشركات في بناء مجموعات بيانات افتراضية.

تستخدم شركتا Synthesis AI وDatagen عمليات مسح ثلاثية الأبعاد للجسم بالكامل، وضمن ذلك عمليات المسح التفصيلية للوجه، وبيانات الحركة التي التقطتها أجهزة الاستشعار الموضوعة في جميع أنحاء الجسم؛ لجمع البيانات الأولية من أشخاص حقيقيين. ثم تُضَخ هذه البيانات من خلال خوارزميات تعمل على تعديل أبعاد مختلفة عدة مرات لإنشاء ملايين التصورات ثلاثية الأبعاد للبشر، التي تشبه الشخصيات في لعبة فيديو، والانخراط في سلوكيات مختلفة عبر مجموعة متنوعة من عمليات المحاكاة.

وفي حالة نوم شخص ما على عجلة القيادة، فقد يصورون شخصاً يمثل النوم ودمج ذلك مع أجهزة التقاط الحركة والرسوم المتحركة ثلاثية الأبعاد وغيرها من التقنيات المستخدمة لإنشاء ألعاب الفيديو وأفلام الرسوم المتحركة؛ لبناء المحاكاة المرغوبة. يقول ياشار بهزادي، الرئيس التنفيذي لشركة Synthesis AI: "يمكنك تعيين [السلوك المستهدف] عبر الآلاف من أنواع الأجسام والزوايا والإضاءات المختلفة، وإضافة التباين في الحركة أيضاً".

"التعلم العميق" للذكاء الاصطناعي 

يساعد استخدام البيانات التركيبية في تجنب كثير من الفوضى المرتبطة بالطريقة التقليدية لتدريب خوارزميات التعلم العميق. وعادةً، يتعين على الشركات جمع مجموعة كبيرة من اللقطات الواقعية، ثم يعكف العمال ذوو الأجور المنخفضة على تسمية كل مقطع من المقاطع بشق الأنفس. ثم تُدخَل هذه اللقطات في النموذج، الذي سيتعلم كيفية التعرف على السلوكيات.

وتتمثل المنفعة الأكبر لمنهج البيانات التركيبية في أنه أسرع وأرخص بهامش كبير. لكن هذه الشركات تزعم أيضاً أنها يمكن أن تساعد في معالجة التحيز الذي يخلق إزعاجاً كبيراً لمطوري الذكاء الاصطناعي. ومن الموثق جيداً أنَّ بعض برامج التعرف على الوجه بالذكاء الاصطناعي ضعيفة في التعرف على مجموعات سكانية معينة وتحديدها بدقة. ويبدو أنَّ هذا يرجع إلى أنَّ هذه المجموعات السكانية مُمثّلة تمثيلاً ناقصاً في بيانات التدريب؛ مما يعني أنَّ البرنامج سيخطئ على الأرجح في تحديد هؤلاء الأشخاص.

تُسلِط نيهاريكا جين، مهندسة برمجيات وخبيرة في التحيز الجنساني والعرقي في التعلم الآلي التوليفي، الضوء على المثال السيئ السمعة لميزة "اكتشاف رمشة العين" في Nikon Coolpix، التي تقدم حكماً على الوجوه الآسيوية بأنهم يرمشون أكثر من غيرهم؛ نظراً إلى أنَّ بيانات التدريب تضمنت غالبية الوجوه البيضاء. وتقول: "يجب أن يتجنب نظام مراقبة السائق الجيد الخطأ في التعرف على أعضاء مجموعة ديموغرافية معينة على أنهم نائمون أكثر من غيرهم".

والاستجابة التقليدية لهذه المشكلة هي جمع مزيد من البيانات من المجموعات المُمثّلة تمثيلاً ناقصاً في أوضاع الحياة الواقعية. لكن شركات مثل Datagen تقول إنَّ هذا لم يعد ضرورياً. إذ يمكن للشركة ببساطةٍ إنشاء مزيد من الوجوه من المجموعات الممثلة تمثيلاً ناقصاً؛ مما يعني أنها ستشكل نسبة أكبر من مجموعة البيانات النهائية. وتُحوَّل بيانات مسح الوجه ثلاثية الأبعاد الحقيقية من آلاف الأشخاص إلى الملايين من مركبات الذكاء الاصطناعي. 

يقول جيل إلباز، الشريك المؤسس لشركة Datagen: "لا يوجد تحيز مُخبّأ في البيانات، بل لديك سيطرة كاملة على العمر والجنس والعرق لنماذج الأشخاص التي تنتجها". ولا تبدو الوجوه المخيفة التي تنتج مثل أشخاص حقيقيين، لكن الشركة تدعي أنها متشابهة بدرجة كافية لتعليم أنظمة الذكاء الاصطناعي كيفية الاستجابة لأشخاص حقيقيين في سيناريوهات مماثلة.

جدل كبير وأسئلة كثيرة حول أداء هذه الأنظمة الذكية

ومع ذلك، هناك بعض الجدل حول ما إذا كانت البيانات التركيبية يمكن أن تقضي حقاً على التحيز. تقول بيرنيس هيرمان، عالمة البيانات في معهد العلوم الإلكترونية بجامعة واشنطن، إنَّ البيانات التركيبية يمكن أن تحسن قوة نماذج التعرف على الوجه في المجموعات غير الممثلة تمثيلاً ناقصاً، إلا أنها لا تعتقد أنَّ البيانات التركيبية وحدها يمكنها سد الفجوة في الأداء بين تلك المجموعات والأخرى.

وهناك فائدة إضافية لاختبار المركبات ذاتية القيادة في العوالم الافتراضية أولاً؛ وهي تقليل فرصة وقوع حوادث حقيقية خطيرة. تقول هيرمان: "أحد الأسباب الرئيسية التي تجعل القيادة الذاتية في طليعة كثير من عناصر البيانات التركيبية هي احتمالية الأخطاء. إذ يعتبر ارتكاب السيارة ذاتية القيادة خطأً بنسبة 1% من الوقت، أو حتى 0.01% من الوقت، أكثر من اللازم".

تحميل المزيد