ما هي تقنية التزييف العميق ال Deepfake وما هي آلية عملها؟

2023/07/30

ما هي تقنية التزييف العميق ال Deepfake وما هي آلية عملها وحدود إمكانياتها التي يمكن أن تستخدم لتزييف فيدوهات، صور وأصوات؟
#تنبيه رأي الشخصي كمختص في المجال في آخر المنشور:
التزييف العميق ال Deepfake هو تقنية من تقنيات الذكاء الاصطناعي الخطيرة جدا والتي تستخدم في صناعة وتزييف فيديوهات، صور وأصوات والتي يمكن تريك أشخاص يقولون أو يفعلون أشياء هم لم يقولوها أو يفعلوها أبدا في الحقيقة وممكن تصل إلى دقة عالية في ذلك مع كبر حجم الداتا المستخدمة في تدريب الخوازمية التي تعمل عليها التقنية.
دعنا نبدأ بتقنية تزييف الصوت ( Voice Deepfake ) أو ما يعرف بال (Voice cloning ) هو أيضا تقنية من تقنيات الذكاء الاصطناعي هدفها عمل خوازمية لها المقدرة لتقليد صوت شخص حقيقي. ولتقوم هذه الخوازمية بذلك لابد من تدريبها على تسجيلات الشخص المستهدف وبعد اكتمال مرحلة التدريب تصلح الخوازمية قادرة على إنتاج صوت إصطناعي ( synthetic voice ) يشابه صوت الشخص المستهدف. وللقيام بذلك يستخدم المختصين تقنيات تقنيات معالجة اللغة الطبيعية (natural language processing techniques ) مثل تقنية ال NLP عبارة عن تقنية تعلّم الآلة تمكّن أجهزة الكمبيوتر من تفسير اللغة البشرية ومعالجتها وفهمها. وتستخدم هذه التقنيات في التعرف على الميزات الصوتية المميزة لصوت الشخص المستهدف وهناك عدد كبير من الميزات الصوتيها التي يتم تحليلها منها خاصية ال pitch وهي ميزة علو وانخفاض الصوت بحيث هناك أشخاص يتميزون بالصوت العالي وآخرون بالصوت المنخفض، و يتم أيضا تحليل ميزة السرعة في طبيعة كلام الشخص المستهدف، و ايضا من هذه الميزات ميزة الإيقاع ال cadence وهي الطريقة التي يترتفع وينخفض فيها صوت الشخص المستهدف وأخيرا ودي الميزة الأهم وهي اللكنة ال Accent .
طبعا للوصول لدقة عالية لابد من وجود بيانات ضخمة لتدريب الخوازمية تسجيلات كثيرة للشخص المستهدف وأسهل طريقة للوصول لنتائج سريعة لتزييف صوت شخص هي استخدام احدى الخوازميات الموجودة اون لاين مفتوحة المصدر و عمل تقنية ال Transfer learning عليها و تدريب الخوارزمية على تسجيل بسيط يمكن للخوازمية المدربة عالية الدقة بسهولة التعرف على الميزات الصوتية وتقليدها. ولكن المشكلة هي أن اغلب الخوازميات الموجودة نعم هي عالية الدقة ولكن تم تدريبها على إما على تسجيلات باللغة الإنجليزية أو اللغة العربية الفصحى وخوارزميات مدربة على بيانات زي دي لمن تدخل ليها مقطع بالدراجية السودانية بيحصل ليها ما يعرف بال Data drifting وده بيؤدي لي هبوط حاد في دقة نتائج الخوازمية ولذلك ستجد المقطع المنتج واضح جدا انه مزيف.
طيب والحل؟ في حالة محاولة تزييف صوت شخص بلغة سودانية دارجية إستخدام تقنية ال Transfer learning لن يفيد و لن يأتي بنتائج مرضية لذا لابد من تدريب خوازمية من الصفر على داتا باستخدام مقاطع كثيرة جدا للشخص المستهدف ودي عملية مرهقة جدا لذلك تجد هناك شركة روسية تقدم هذه الخدمة لإنتاج مقاطع باللغة الإنجليزية لتزييف فيدوهات وصوت لي اي شخص بس بتكلفة 20 الف دولار للدقيقة ويعني ذلك مقطع مثل المنتشر الآن ال 5 دقائق لو كان باللغة الإنجليزية ممكن يكلفك 100 الف دولار.
خلاصة رأي الشخصي أن الصوت في الفيديو حقيقي ولكن الفيديو ممكن يكون فيديو قديم تم تركيب الصوت عليه وتعديل المزامنه وحركة الشفايف بإستخدام تقنية ال Deepfake في الفيديو لاحظت في حركة شفايف المتحدث بعض الأخطاء في المزامنة بين ما يقال وحركة الشفايف.
مع تحياتي،
م.م. محمد ع. م. صالح
باحث ومهندس ربوتات اتوماتيكية وأنظمة ذكاء إصطناعي خبيرة
لندن، المملكة المتحدة
#شير_في_الخير
#جرعة_وعي
#شير_علي_أوسع_نطاق