شبكات الخصومة التوليدية (GAN): مقدمة

نشرت: 2022-08-16

تعد شبكات الخصومة التوليدية (GANs) إحدى التقنيات الحديثة التي توفر الكثير من الإمكانات في العديد من حالات الاستخدام ، بدءًا من إنشاء صورك القديمة وزيادة صوتك إلى توفير تطبيقات متنوعة في الصناعات الطبية وغيرها.

يمكن أن تساعدك هذه التكنولوجيا المتقدمة في تشكيل منتجاتك وخدماتك. يمكن استخدامه أيضًا لتحسين جودة الصورة للحفاظ على الذكريات.

في حين أن شبكات GAN هي نعمة للكثيرين ، إلا أن البعض يجدها مثيرة للقلق.

لكن ما هي هذه التكنولوجيا بالضبط؟

في هذه المقالة ، سأناقش ماهية GAN وكيف تعمل وتطبيقاتها.

لذا ، دعنا نتعمق!

ما هي شبكة الخصومة التوليدية؟

شبكة الخصومة التوليدية (GAN) عبارة عن إطار عمل للتعلم الآلي يتكون من شبكتين عصبيتين تتنافسان لإنتاج تنبؤات أكثر دقة مثل الصور والموسيقى الفريدة والرسومات وما إلى ذلك.

تم تصميم شبكات GAN في عام 2014 من قبل عالم الكمبيوتر والمهندس ، إيان جودفيلو ، وبعض زملائه. إنها شبكات عصبية عميقة فريدة من نوعها قادرة على توليد بيانات جديدة مماثلة لتلك التي يتم تدريبهم عليها. يتنافسون في لعبة محصلتها صفر تؤدي إلى خسارة وكيل للمباراة بينما يفوز الآخر بها.

ما هي شبكة الخصومة التوليدية

في الأصل ، تم اقتراح شبكات GAN كنموذج توليدي للتعلم الآلي ، وهو التعلم غير الخاضع للإشراف بشكل أساسي. لكن شبكات GAN مفيدة أيضًا للتعلم الخاضع للإشراف الكامل والتعلم شبه الخاضع للإشراف والتعلم المعزز.

كتلتان في المنافسة في GAN هما:

المولد: إنه شبكة عصبية تلافيفية تنتج بشكل مصطنع مخرجات مشابهة للبيانات الفعلية.

المُميِّز: إنها شبكة عصبية deconvolutional تستطيع تحديد تلك المخرجات التي تم إنشاؤها بشكل مصطنع.

المفاهيم الرئيسية

لفهم مفهوم GAN بشكل أفضل ، دعنا نفهم بسرعة بعض المفاهيم المهمة ذات الصلة.

تعلم الآلة (ML)

التعلم الالي

يعد التعلم الآلي جزءًا من الذكاء الاصطناعي (AI) الذي يتضمن التعلم وبناء النماذج التي تستفيد من البيانات لتعزيز الأداء والدقة أثناء أداء المهام أو اتخاذ القرارات أو التنبؤات.

تنشئ خوارزميات ML نماذج تستند إلى بيانات التدريب ، وتتحسن بالتعلم المستمر. يتم استخدامها في مجالات متعددة ، بما في ذلك رؤية الكمبيوتر ، واتخاذ القرار الآلي ، وتصفية البريد الإلكتروني ، والطب ، والخدمات المصرفية ، وجودة البيانات ، والأمن السيبراني ، والتعرف على الكلام ، وأنظمة التوصية ، والمزيد.

نموذج مميز

نموذج مميز

في التعلم العميق والتعلم الآلي ، يعمل النموذج التمييزي كمصنف للتمييز بين مجموعة من المستويات أو فصلين.

على سبيل المثال ، التفريق بين الفواكه أو الحيوانات المختلفة.

النموذج التوليدي

في النماذج التوليدية ، تعتبر العينات العشوائية لإنشاء صور واقعية جديدة. يتعلم من الصور الحقيقية لبعض الكائنات أو الكائنات الحية لتوليد أفكاره الواقعية والمحاكية. هذه النماذج من نوعين:

أجهزة التشفير التلقائية المتغيرة: تستخدم أجهزة التشفير وأجهزة فك التشفير التي تعد شبكات عصبية منفصلة. يعمل هذا لأن صورة واقعية معينة تمر عبر مشفر لتمثيل هذه الصور كمتجهات في مساحة كامنة.

بعد ذلك ، يتم استخدام وحدة فك ترميز لأخذ هذه التفسيرات لإنتاج بعض النسخ الواقعية من هذه الصور. في البداية ، قد تكون جودة الصورة منخفضة ، لكنها ستتحسن بعد أن تصبح وحدة فك التشفير تعمل بكامل طاقتها ، ويمكنك تجاهل برنامج التشفير.

شبكات الخصومة التوليدية (GANs): كما تمت مناقشته أعلاه ، فإن GAN عبارة عن شبكة عصبية عميقة قادرة على توليد بيانات جديدة مماثلة من إدخال البيانات التي يتم توفيرها بها. يأتي ضمن التعلم الآلي غير الخاضع للإشراف ، وهو أحد أنواع التعلم الآلي التي تمت مناقشتها أدناه.

التعلم تحت الإشراف

التعلم تحت الإشراف

في التدريب الخاضع للإشراف ، يتم تدريب الآلة باستخدام بيانات جيدة التسمية. هذا يعني أنه سيتم بالفعل تمييز بعض البيانات بالإجابة الصحيحة. هنا يتم إعطاء الآلة بعض البيانات أو الأمثلة لتمكين خوارزمية التعلم الخاضع للإشراف من تحليل بيانات التدريب والحصول على نتيجة دقيقة من هذه البيانات المسمى.

تعليم غير مشرف عليه

يتضمن التعلم غير الخاضع للإشراف تدريب آلة بمساعدة البيانات التي لم يتم تصنيفها أو تصنيفها. يسمح لخوارزمية التعلم الآلي بالعمل على تلك البيانات دون توجيه. في هذا النوع من التعلم ، تتمثل مهمة الجهاز في تصنيف البيانات غير المصنفة بناءً على الأنماط والتشابهات والاختلافات مع عدم وجود تدريب مسبق على البيانات.

لذلك ، ترتبط GANs بأداء التعلم غير الخاضع للإشراف في ML. يحتوي على نموذجين يمكنهما اكتشاف الأنماط وتعلمها تلقائيًا من بيانات الإدخال. هذان النموذجان هما المولد والمميز.

دعونا نفهمهم أكثر قليلاً.

أجزاء من GAN

يتم تضمين مصطلح "الخصومة" في GAN لأنه يتكون من جزأين - المولد والمقام المتنافس. يتم ذلك لالتقاط وفحص وتكرار متغيرات البيانات في مجموعة البيانات. دعونا نحصل على فهم أفضل لهذين الجزأين من GAN.

مولد كهرباء

مولد كهرباء

المولد عبارة عن شبكة عصبية قادرة على التعلم وإنشاء نقاط بيانات مزيفة مثل الصور والصوت التي تبدو واقعية. يتم استخدامه في التدريب ويتحسن مع التعلم المستمر.

يتم استخدام البيانات التي تم إنشاؤها بواسطة المولد كمثال سلبي للجزء الآخر - المقام الذي سنراه بعد ذلك. يأخذ المولد متجهًا عشوائيًا ثابت الطول كمدخل لإنتاج عينة الإخراج. يهدف إلى تقديم المخرجات قبل أداة التمييز بحيث يمكنها تصنيف ما إذا كانت حقيقية أم مزيفة.

يتم تدريب المولد على هذه المكونات:

  • نواقل المدخلات الصاخبة
  • شبكة مولد لتحويل المدخلات العشوائية إلى مثيل البيانات
  • شبكة مميِّز لتصنيف البيانات المتولدة
  • خسارة المولد لمعاقبة المولد لأنه يفشل في خداع أداة التمييز

يعمل المولد مثل اللص لتكرار وإنشاء بيانات واقعية لخداع أداة التمييز. يهدف إلى تجاوز العديد من عمليات الفحص التي يتم إجراؤها. على الرغم من أنه يمكن أن يفشل بشكل رهيب في المراحل الأولية ، إلا أنه يستمر في التحسن حتى ينتج عنه العديد من البيانات الواقعية عالية الجودة ويمكنه تجنب الاختبارات. بعد الحصول على هذه القدرة ، يمكنك استخدام المولد فقط دون الحاجة إلى أداة تمييز منفصلة.

مميز

مميز

المُميِّز هو أيضًا شبكة عصبية يمكنها التفريق بين الصورة المزيفة والحقيقية أو أنواع البيانات الأخرى. مثل المولد ، يلعب دورًا حيويًا خلال مرحلة التدريب.

إنها تتصرف مثل الشرطة للقبض على اللص (بيانات مزيفة من قبل المولد). يهدف إلى الكشف عن الصور الخاطئة والتشوهات في مثيل البيانات.

كما تمت مناقشته من قبل ، يتعلم المولد ويستمر في التحسين للوصول إلى نقطة يصبح فيها معتمداً على نفسه لإنتاج صور عالية الجودة لا تتطلب أداة تمييز. عندما يتم تمرير البيانات عالية الجودة من المولد عبر أداة التمييز ، لم يعد بإمكانه التمييز بين الصورة الحقيقية والمزيفة. لذا ، من الجيد استخدام المولد فقط.

كيف يعمل GAN؟

في شبكة الخصومة التوليدية (GAN) ، تتضمن ثلاثة أشياء:

  • نموذج توليدي لوصف طريقة إنشاء البيانات.
  • بيئة عدائية حيث يتم تدريب النموذج.
  • الشبكات العصبية العميقة كخوارزميات الذكاء الاصطناعي للتدريب.

يتم استخدام شبكتي GAN العصبيتين - المولد والمميز - للعب لعبة الخصومة. يأخذ المولد بيانات الإدخال ، مثل الملفات الصوتية ، والصور ، وما إلى ذلك ، لإنشاء مثيل بيانات مماثل أثناء قيام أداة التمييز بالتحقق من صحة مثيل البيانات هذا. سيحدد الأخير ما إذا كانت نسخة البيانات التي راجعتها حقيقية أم لا.

كيف يعمل GAN

على سبيل المثال ، تريد التحقق مما إذا كانت صورة معينة حقيقية أم مزيفة. يمكنك استخدام مدخلات البيانات التي تم إنشاؤها يدويًا لتغذية المولد. سيخلق صورًا جديدة مكررة كإخراج.

أثناء القيام بذلك ، يهدف المولد إلى اعتبار جميع الصور التي ينشئها أصلية ، على الرغم من كونها مزيفة. إنها تريد أن تخلق نتائج مقبولة للكذب وتجنب الوقوع في الأسر.

بعد ذلك ، سينتقل هذا الإخراج إلى أداة التمييز مع مجموعة من الصور من بيانات حقيقية لاكتشاف ما إذا كانت هذه الصور أصلية أم لا. يعمل بشكل عكسي على المولد بغض النظر عن مدى صعوبة محاكاته ؛ سيساعد المُميِّز في تمييز البيانات الواقعية عن البيانات المزيفة.

سيأخذ أداة التمييز البيانات المزيفة والحقيقية لإرجاع احتمال 0 أو 1. هنا ، يمثل 1 الأصالة بينما يمثل 0 مزيفًا.

هناك حلقتان للتعليقات في هذه العملية:

  • ينضم المولد إلى حلقة تغذية مرتدة باستخدام أداة تمييز
  • ينضم أداة التمييز إلى حلقة تغذية مرتدة أخرى بمجموعة من الصور الحقيقية

يعمل تدريب GAN لأن كل من المولد والمميز في التدريب. يتعلم المولد باستمرار عن طريق تمرير مدخلات خاطئة ، بينما يتعلم المميّز كيفية تحسين الاكتشاف. هنا ، كلاهما ديناميكي.

أداة التمييز هي شبكة تلافيفية قادرة على تصنيف الصور الموردة لها. إنه يعمل كمصنف ذي الحدين لتسمية الصور على أنها مزيفة أو حقيقية.

من ناحية أخرى ، يشبه المولد شبكة تلافيفية عكسية تأخذ عينات بيانات عشوائية لإنتاج الصور. ولكن ، يقوم المميّز بالتحقق من البيانات بمساعدة تقنيات الاختزال مثل max-pooling.

تحاول كلتا الشبكتين تحسين الخسارة أو الوظيفة الموضوعية المتعارضة والمختلفة في لعبة الخصومة. تمكنهم خسائرهم من الدفع ضد بعضهم البعض بشكل أكثر صعوبة.

أنواع شبكات GAN

أنواع شبكات GAN

شبكات الخصومة التوليدية هي من أنواع مختلفة تعتمد على التنفيذ. فيما يلي أنواع GAN الرئيسية المستخدمة بنشاط:

  • GAN الشرطي (CGAN): إنها تقنية تعلم عميق تتضمن معلمات شرطية محددة للمساعدة في التمييز بين البيانات الحقيقية والمزيفة. يتضمن أيضًا معلمة إضافية - "y" في مرحلة المولد لإنتاج البيانات المقابلة. أيضًا ، تتم إضافة الملصقات إلى هذا الإدخال ويتم تغذيتها إلى أداة التمييز لتمكينها من التحقق مما إذا كانت البيانات أصلية أم مزيفة.
  • Vanilla GAN: إنه نوع بسيط من شبكات GAN حيث يكون المُميِّز والمولِّد عبارة عن مفاهيم أبسط ومتعددة الطبقات. خوارزمياتها بسيطة ، وتحسن المعادلة الرياضية بمساعدة النسب التدرج العشوائي.
  • GAN التلافيفي العميق (DCGAN): إنه شائع ويعتبر أكثر تطبيقات GAN نجاحًا. يتكون DCGAN من ConvNets بدلاً من الشبكات متعددة الطبقات. يتم تطبيق ConvNets هذه دون استخدام تقنيات مثل max-pooling أو ربط الطبقات بالكامل.
  • Super Resolution GAN (SRGAN): إنه تطبيق GAN يستخدم شبكة عصبية عميقة جنبًا إلى جنب مع شبكة عدائية للمساعدة في إنتاج صور عالية الجودة. يعتبر SRGAN مفيدًا بشكل خاص في رفع مستوى الصور الأصلية منخفضة الدقة بكفاءة بحيث يتم تحسين تفاصيلها وتقليل الأخطاء إلى الحد الأدنى.
  • Laplacian Pyramid GAN (LAPGAN): إنه تمثيل خطي وقابل للانعكاس يتضمن صورًا متعددة لتمرير النطاق يتم وضعها على مسافة ثمانية مسافات مع بقايا منخفضة التردد. يستخدم LAPGAN العديد من شبكات التمييز والمولدات ومستويات هرم لابلاسيان متعددة.

يستخدم LAPGAN على نطاق واسع لأنه ينتج جودة صورة من الدرجة الأولى. يتم أخذ عينات من هذه الصور في كل طبقة هرمية أولاً ثم يتم تصغيرها في كل طبقة ، حيث يتم إعطاء الأفكار بعض الضوضاء حتى تكتسب الحجم الأصلي.

تطبيقات شبكات GAN

تُستخدم شبكات الخصومة التوليدية في مجالات مختلفة ، مثل:

علوم

تطبيقات شبكات GAN

يمكن أن توفر شبكات GAN طريقة دقيقة وأسرع لنمذجة تشكيل نفاث عالي الطاقة وإجراء تجارب فيزيائية. يمكن أيضًا تدريب هذه الشبكات لتقدير الاختناقات في أداء عمليات المحاكاة لفيزياء الجسيمات التي تستهلك موارد ثقيلة.

يمكن لشبكات GAN تسريع المحاكاة وتحسين دقة المحاكاة. بالإضافة إلى ذلك ، يمكن أن تساعد شبكات GAN في دراسة المادة المظلمة عن طريق محاكاة عدسة الجاذبية وتعزيز الصور الفلكية.

ألعاب الفيديو

ألعاب الفيديو

استفاد عالم ألعاب الفيديو أيضًا من شبكات GAN لتوسيع نطاق البيانات ثنائية الأبعاد منخفضة الدقة المستخدمة في ألعاب الفيديو القديمة. سيساعدك ذلك على إعادة إنشاء هذه البيانات إلى دقة 4K أو حتى دقة أعلى من خلال التدريب على الصور. بعد ذلك ، يمكنك اختزال البيانات أو الصور لجعلها مناسبة للدقة الحقيقية للعبة الفيديو.

قم بتوفير التدريب المناسب لنماذج GAN الخاصة بك. يمكنهم تقديم صور ثنائية الأبعاد أكثر وضوحًا ووضوحًا بجودة مذهلة مقارنة بالبيانات الأصلية مع الاحتفاظ بتفاصيل الصورة الحقيقية ، مثل الألوان.

تتضمن ألعاب الفيديو التي استفادت من شبكات GAN Resident Evil Remake و Final Fantasy VIII و IX والمزيد.

الفن والموضة

يمكنك استخدام شبكات GAN لإنشاء أعمال فنية ، مثل إنشاء صور لأفراد لم يكونوا موجودين أبدًا ، والصور الفوتوغرافية داخل الطلاء ، وإنتاج صور لعارضات أزياء غير واقعية ، وغير ذلك الكثير. يتم استخدامه أيضًا في الرسومات التي تُنشئ الظلال والرسومات الافتراضية.

دعاية

سيؤدي استخدام شبكات GAN لإنشاء الإعلانات وإنتاجها إلى توفير الوقت والموارد. كما رأينا أعلاه ، إذا كنت ترغب في بيع مجوهراتك ، يمكنك إنشاء نموذج وهمي يشبه الإنسان الفعلي بمساعدة GAN.

بهذه الطريقة ، يمكنك جعل العارضة ترتدي مجوهراتك وتعرضها لعملائك. سيوفر عليك استئجار نموذج ودفع ثمنه. يمكنك أيضًا التخلص من النفقات الإضافية مثل الدفع مقابل النقل واستئجار استوديو وترتيب المصورين وفناني الماكياج وما إلى ذلك.

سيساعدك هذا بشكل كبير إذا كنت شركة متنامية ولا يمكنك تحمل تكلفة استئجار نموذج أو استضافة بنية تحتية لتصوير الإعلانات.

التوليف الصوتي

يمكنك إنشاء ملفات صوتية من مجموعة من المقاطع الصوتية بمساعدة شبكات GAN. يُعرف هذا أيضًا باسم الصوت التوليدي. من فضلك لا تخلط بين هذا وبين أصوات Amazon Alexa أو Apple Siri أو أصوات AI الأخرى حيث يتم خياطة الأجزاء الصوتية جيدًا وإنتاجها عند الطلب.

بدلاً من ذلك ، يستخدم الصوت التوليدي الشبكات العصبية لدراسة الخصائص الإحصائية لمصدر الصوت. بعد ذلك ، يعيد إنتاج تلك الخصائص مباشرة في سياق معين. هنا ، تمثل النمذجة الطريقة التي يتغير بها الكلام بعد كل مللي ثانية.

نقل التعلم

نقل التعلم

تستخدم دراسات نقل التعلم المتقدمة شبكات GAN في مواءمة أحدث مساحات الميزات مثل التعلم المعزز العميق. لهذا الغرض ، يتم تغذية حفلات الزفاف الخاصة بالمصدر والمهمة المستهدفة للمميز لتحديد السياق. بعد ذلك ، يتم إعادة نشر النتيجة عبر المشفر. بهذه الطريقة ، يستمر النموذج في التعلم.

تشمل التطبيقات الأخرى لشبكات GAN ما يلي:

  • تشخيص فقدان البصر الكلي أو الجزئي عن طريق الكشف عن صور الجلوكوما
  • تصور التصميم الصناعي والتصميم الداخلي والملابس والأحذية والحقائب والمزيد
  • إعادة بناء ملامح وجه الطب الشرعي لشخص مريض
  • إنشاء نماذج ثلاثية الأبعاد لعنصر من صورة ، وإنتاج كائنات جديدة كسحابة نقطية ثلاثية الأبعاد ، ونمذجة أنماط الحركة في مقطع فيديو
  • اعرض مظهر شخص متغير العمر
  • زيادة البيانات مثل تحسين مصنف DNN
  • رسم المعالم المفقودة في الخريطة وتحسين طرق عرض الشوارع ونقل أنماط الخرائط والمزيد
  • إنتاج الصور واستبدال نظام البحث عن الصور وما إلى ذلك.
  • إنشاء مدخلات تحكم لنظام ديناميكي غير خطي باستخدام تباين GAN
  • تحليل آثار التغير المناخي على المنزل
  • قم بإنشاء وجه شخص من خلال أخذ صوته كمدخل
  • إنشاء جزيئات جديدة للعديد من أهداف البروتين في السرطان والتليف والالتهابات
  • تحريك الصور المتحركة من صورة عادية

هناك العديد من تطبيقات شبكات GAN في مختلف المجالات ، كما أن استخدامها آخذ في التوسع. ومع ذلك ، هناك حالات متعددة من إساءة استخدامها أيضًا. تم استخدام الصور البشرية المستندة إلى GAN في حالات الاستخدام المشؤومة مثل إنتاج مقاطع فيديو وصور مزيفة.

يمكن أيضًا استخدام شبكات GAN لإنشاء صور وملفات تعريف واقعية للأشخاص على وسائل التواصل الاجتماعي التي لم تكن موجودة على وجه الأرض. ومن الأمور الأخرى المتعلقة بإساءة استخدام GNA إنشاء مواد إباحية مزيفة بدون موافقة من الأفراد المميزين ، وتوزيع مقاطع فيديو مزيفة لمرشحين سياسيين ، وما إلى ذلك.

على الرغم من أن GNAs يمكن أن تكون نعمة في العديد من المجالات ، إلا أن إساءة استخدامها يمكن أن تكون كارثية أيضًا. ومن ثم ، يجب تطبيق المبادئ التوجيهية المناسبة لاستخدامها.

استنتاج

تعد شبكات GAN أحد الأمثلة الرائعة للتكنولوجيا الحديثة. يوفر طريقة فريدة وأفضل لتوليد البيانات والمساعدة في وظائف مثل التشخيص البصري ، وتركيب الصور ، والبحث ، وزيادة البيانات ، والفنون والعلوم ، وغير ذلك الكثير.

قد تكون مهتمًا أيضًا بـ Low Code وليس منصات التعلم الآلي للشفرات لبناء تطبيقات مبتكرة.