'وجه ناطق' مُختلق من صورة ومقطع صوتي بفضل أداة من مايكروسوفت

'فاسا-1' يلتقط صورة وجه بسيطة ويسجل مقطعا صوتيا ويحولهما إلى شريط فيديو يظهر وجها يتحرك يتكلم بطريقة واقعية جدا مع انفعالات مقنعة.

سان فرانسيسكو (كاليفرونيا) - ابتكر باحثون من شركة "مايكروسوفت" أداة ذكاء اصطناعي قادرة على تحويل صورة وجه ومقطع صوتي إلى فيديو واقعي جداً لـ"وجه يتكلّم"، بحسب وثيقة نشرتها شركة التكنولوجيا الكبرى هذا الأسبوع.

وأشارت الشركة إلى أن "هدف الأداة لا يتمثل في إنشاء محتوى بقصد التضليل أو الخداع"، لافتة إلى أنّ "الاداة، وعلى غرار تقنيات إنشاء محتوى أخرى، قد تُستخدم لأهداف مسيئة وانتحال صفة أيّ كان".

ويثير النمو السريع للذكاء الاصطناعي التوليدي، الذي يتيح بسهولة إنتاج مختلف أنواع المحتوى (نصوص وصور وأصوات...) بجودة عالية جداً، مخاوف كثيرة خصوصاً في ما يتعلق بالاستغلال لأغراض الاحتيال والتضليل.

وأكّدت مايكروسوفت أن "بحثنا يركز على... الصور الرمزية الافتراضية (أفاتار)، بهدف الاستخدام الإيجابي"، مضيفة "نعارض أي سلوك يهدف إلى إنشاء محتوى مضلل أو ضار".

ولا تعتزم شركة التكنولوجيا، وهي مستثمر رئيسي في "اوبن إيه آي" مبتكرة برنامج "تشات جي بي تي"، إتاحة الأداة الجديدة أو تقديم معلومات تقنية "طالما اننا غير متأكدين من أنّ الأداة ستُستخدم بشكل مسؤول بحسب القوانين المعمول بها".

ويلتقط البرنامج المسمى "فاسا-1" (VASA-1) صورة وجه بسيطة ويسجل مقطعا صوتيا ويحولهما إلى شريط فيديو يظهر وجها يتحرك ويتكلم بطريقة واقعية جداً.

وتعمل شركات أخرى على هذه التقنية، على غرار "رَنواي" Runway، إحدى الشركات المتخصصة في الذكاء الاصطناعي التوليدي للفيديو. وأنشأ باحثون من "غوغل" برنامج ذكاء اصطناعي مسمى "فلوغر" قادر على إنشاء مقاطع فيديو واقعية لوجوه ناطقة.

وأشارت "مايكروسوفت" إلى أنّ فوائد ابتكار هذه الأداة "مثل تعزيز المساواة في مجال التعليم، ومساعدة مَن يعانون صعوبات في التواصل، وتوفير الدعم العلاجي لمَن يحتاجونه"، تبرر العمل عليها.

ويمكن استخدام الأداة لتحريك الشخصيات في أفلام الرسوم المتحركة، مما يمنح الشخصيات إحساسًا أكثر واقعية مع تعبيرات الوجه الطبيعية وحركات الرأس. كما يمكن استخدامها بنفس الطريقى آ في ألعاب الفيديو، لنفس السبب.

في المستقبل، يمكن استخدامها في الأفلام أو المسلسلات الواقعية للغاية التي تم إنشاؤها بواسطة الذكاء الاصطناعي حيث يمكن إنشاء الشخصيات من مولدات الصور ويمكن تحريكها بواسطة VASA-1، وقد لا يشعر الجمهور حتى أن الشخصيات ليست بشرًا.

لكن إلى جانب الاستخدام الإبداعي للأداة، يمكن أيضًا الاستفادة منها لإنشاء محتوى لأغراض ضارة.

ويمكن على سبيل المثال استخدامها للتزييف العميق، لتوسيع نطاق التكتيكات السيئة وإنشاء محتوى مضلل أكثر واقعية. هل تتذكرون فضيحة المكالمات الآلية التي شملت صوت بايدن لمنع الناس من التصويت قبل الانتخابات التمهيدية؟ الآن يمكن أن يكون فيديو آلي بعد المكالمة الآلية، وذلك بتعبيرات بشرية واقعية جدًا.