جنرال لواء

يمكن لبرنامج AI هذا إنشاء مقاطع فيديو مزيفة واقعية بشكل مؤقت من مقاطع صوتية


طور باحثون من جامعة واشنطن تقنية جديدة للتعلم العميق سمحت لهم بصنع مقاطع فيديو واقعية للغاية من خلال تداخل مقاطع الصوت مع مراجع الفيديو الأصلية. لقد تمكنوا من مزامنة مقاطع صوتية للرئيس الأمريكي السابق باراك أوباما مع أربعة سيناريوهات فيديو مختلفة ظهر فيها.

مزامنة محتوى الفيديو "الجامح" لإنشاء مقاطع فيديو اصطناعية ولكن واقعية

من السهل اعتبار المحاولات السابقة لمزامنة عينات الصوت مع مقاطع الفيديو مزيفة ، وغالبًا ما تكون مخيفة أو غير سارة للمشاهدة. ومع ذلك ، فإن الخوارزمية الجديدة التي طورتها جامعة واشنطن كانت قادرة على مزامنة مقاطع الصوت والفيديو بسلاسة ، والتي تغلبت على مشكلة شائعة في إنشاء مقاطع فيديو واقعية تُعرف باسم الوادي الخارق. أشار Supasorn Suwajanakorn ، المؤلف الرئيسي للورقة المنشورة ، إلى تعقيد عملية مزامنة الشفاه في مقطع فيديو.

"الناس حساسون بشكل خاص لأي مناطق من فمك لا تبدو واقعية. إذا لم تجعل الأسنان صحيحة أو يتحرك الذقن في وقت غير مناسب ، يمكن للناس اكتشافها على الفور وستبدو مزيفة. يجب أن تجعل منطقة الفم مثالية لتجاوز الوادي الخارق ".

[مصدر الصورة: جامعة واشنطن]

استخدم Suwajanakorn وفريقه من الباحثين أسلوبًا من خطوتين في صياغة مقاطع فيديو واقعية للغاية. أولاً ، كان عليهم تدريب شبكة عصبية لمعالجة مقاطع الفيديو الخاصة بشخص معين ومطابقة الأصوات الصوتية المختلفة في أشكال الفم الأساسية. ثم استخدموا تقنية من بحث سابق أجراه UW Graphics and Image Laboratory للتداخل والجمع بين أشكال الفم المحددة أعلى مقاطع الفيديو المرجعية الموجودة. كانت إحدى الحيل الأخرى التي تعلموها هي السماح بتبديل زمني صغير للسماح للشبكة العصبية بالتنبؤ بما سيقوله الموضوع. بشكل أساسي ، نجح Suwajanakorn في تطوير خوارزميات لديها القدرة على التعلم من مقاطع الفيديو الموجودة عبر الإنترنت ، أو كما وصفها الباحثون ، "في البرية".

"هناك ملايين الساعات من الفيديو الموجودة بالفعل من المقابلات ومحادثات الفيديو والأفلام والبرامج التليفزيونية ومصادر أخرى. وخوارزميات التعلم العميق هذه متعطشة للغاية للبيانات ، لذلك من الجيد أن تفعل ذلك بهذه الطريقة" ، قال القائد مؤلف.

الاستخدام المحتمل لتقنية التعلم العميق

فكر أحد الباحثين في الفريق في تطبيق من نوع الخيال العلمي للتكنولوجيا. قال Ira Kemelmacher-Shlizerman ، الأستاذ المساعد في كلية علوم الكمبيوتر والهندسة بالجامعة ، إنه يمكن استخدام الخوارزمية الجديدة للأحداث اليومية وكذلك في البيئات المستقبلية.

"التحويل الواقعي من الصوت إلى الفيديو له تطبيقات عملية مثل تحسين مؤتمرات الفيديو للاجتماعات ، بالإضافة إلى التطبيقات المستقبلية مثل القدرة على إجراء محادثة مع شخصية تاريخية في الواقع الافتراضي عن طريق إنشاء عناصر مرئية من الصوت فقط. وهذا هو نوع اختراق من شأنه أن يساعد في تمكين تلك الخطوات التالية ".

يمكن أيضًا استخدام تقنية التعلم العميق لمعالجة مشكلة الاتصال الافتراضي الشائعة حيث غالبًا ما يكون بث مقاطع الفيديو المباشرة متخلفًا ومحبطاً لتحمله. بينما يتم دفق الاتصال الصوتي عادةً في الوقت الفعلي دون تأخير.

قال ستيف سيتز ، المؤلف المشارك للصحيفة: "عندما تشاهد Skype أو Google Hangouts ، غالبًا ما يكون الاتصال مقطوعًا ودقة منخفضة وغير سارة حقًا ، ولكن غالبًا ما يكون الصوت جيدًا". وأضاف: "إذا كان بإمكانك استخدام الصوت لإنتاج فيديو عالي الجودة ، فسيكون ذلك رائعًا".

يمكن أيضًا تطوير تقنية الفريق وتعزيزها لتزويده بخوارزميات قادرة على اكتشاف ما إذا كان مقطع الفيديو أصليًا أم تم تصنيعه. إنهم يتطلعون أيضًا إلى تطوير تقنيتهم ​​حتى يتمكنوا من دراسة ومعالجة صوت الفرد والكلام باستخدام بيانات أقل. من خلال القيام بذلك ، سيتم تقليل وقت العملية إلى ساعة واحدة فقط بدلاً من حوالي 14 ساعة.

سيتم تقديم ورقة حول بحث الفريق في مؤتمر SIGGRAPH 2017 في لوس أنجلوس في 2 أغسطس 2017.

مصدر الصورة المميز: سوباسورن سواجاناكورن / يوتيوب

عبرجامعة واشنطن

راجع أيضًا: تتيح هذه التقنية الجديدة تحرير الصوت تمامًا مثل النص


شاهد الفيديو: تعلم أدوبي أليستريتور للمبتدئين:: Adobe Illustrator:: المحاضرة الثانية (شهر اكتوبر 2021).