الرئيسية » شروحات تقنية » ماهو منشئ الصور الإحترافي DALL-E 2

ماهو منشئ الصور الإحترافي DALL-E 2

هناك فنان جديد في العالم ، ولن يقوم فقط بإحداث ثورة في مجال الفن بأكمله ، بل سيغير بشكل جذري مجالات النشر وإنشاء الإنترنت وحتى الإبداع نفسه ، سيغير الطريقة التي نفكر بها في الفن والذكاء والخيال وكل شيء

أود أن أخبرك أن هذا الفنان ليس شخص انماا هو  DALL-E 2 وهو نظام ذكاء اصطناعي جديد يمكنه إنشاء صور وفنون واقعية من خلال وصفها له 

ماهو نظام DALL-E 2

DALL- E 2 هو الإصدار الجديد من DALL -E ، المطور من شركة Open AI، وهو نموذج لغة توليدي يأخذ الجمل ويخلق صورًا أصلية بحسب الوصف المدخل اليه

قد يراودك سؤالاََ وتقول ، “هذا ليس جديدًا ؛ يحتوي Photoshop على فلاتر تجعل أي صورة تبدو وكأنها لوحة لسنوات حتى الآن ، “ليس هذا ما أتحدث عنه ، أنا أتحدث عن ذكاء اصطناعي جديد سيخلق لك لوحة من الصفر سيؤدي هذا إلى إنشاء لوحة لك من الصفر بأي أسلوب يمكن تخيله ، من الكتب المصورة إلى لوحات من الخيال العلمي و حتى من العصر القادم

كما ذكرت سابقاََ أنت لن تقوم بتزويد DALL-E 2 بصورة تكون هي المصدر لما ستنشئه هذا النظام سيخلق الصورة من الصفر 

لاستخدام هذا الذكاء الاصطناعي ، ليس عليك أن تكون خبيرًا في البرمجة أو برامج التصميم ، و لست مضطرًا إلى تعديل مجموعة من الأرقام والإعدادات ووحدات القياس  للحصول على ما تريده بالضبط ، أنت ببساطة ستخبر DALL-E 2 بما تريد أن ترسمه وستقوم هي برسمه .

ما عليك سوى إدخال عبارة نص عادي تصف ما تريده: كوخ أو دب الباندا أو العالم في المستقبل ، وسيرسم لك ما تريده بالضبط ، وسوف يفعل ذلك بأي أسلوب تريده ، وسيظهر بشكل لا يمكن تمييزه عن الرسم أو اللوحة التي تم إنشاؤها بواسطة محترف موهوب لديه سنوات من الخبرة والتدريب.

كيف يعمل نظام DALL-E 2

يعتمد نظام DALL-E 2 على أربعة مفاهيم اساسية سأقوم بتوضيحها بعد ذلك سأتابع شرح كيف يعمل DALL-E 2 على خلق الصور 

  1. CLIP: نموذج يأخذ وصف الصورة المدخل إليه على شكل أزواج “pairs ” ثم يبدأ بتكوين ما يسمى بالتمثيلات / التخيلات “العقلية” في شكل متجهات ” فيكتور” تسمى تضمين النص / الصورة
  1. Prior model: يقوم بأخذ الوصف النصي للصورة الذي تم إدخاله (CLIP text embedding) ويبدأ بخلق تصور عام / يتخيل شكل الصورة النهائي ( CLIP image embeddings)
  2. Decoder Diffusion model (unCLIP): يأخذ التصور العام الذي قام به ( CLIP image embeddings) ويقوم برسم الصورة 
  1. DALL·E 2:عبارة عن مزيج من الخطوات السابقة + نموذج فك الإنتشار (unCLIP) 
ماهو منشئ الصور الإحترافي DALL-E 2
DALL · E 2 هو مثال خاص لنموذج مكون من جزأين مصنوع من جهاز prior  ومفكك تشفير”decoder”   فمن خلال ربط كلا النموذجين يمكننا الانتقال من جملة إلى صورة. هذه هي الطريقة التي نتفاعل بها مع DALL-E 2 K، نقوم بإدخال جملة في “الصندوق الكحلي” وتخرج لك صورة محددة جيدًا.

كيف يعمل نظام DALL- E 2

إليك تفسير أكثر سهولة من بتات “التضمين – embedding” و “ونموذج فك التشفير- prior-decoder”. لفهم هذه المفاهيم بشكل أفضل ، تخيل معي التمرين التالي وقم بتحليل عملية تفكيرك أثناء التمرين 

دعنا نلعب لعبة سريعة. خذ قطعة من الورق وقلم رصاص وقم بتحليل عملية تفكيرك أثناء القيام بهذه التمارين الثلاثة:

أولاً ، تخيل أنني طلبت منك رسم مزرعة مليئة بالأشجار والنخيل هذا ما يسمى بال (CLIP text embedding) ، تصور كيف سيبدو الرسم. الصور الذهنية التي ظهرت في ذهنك الآن هي تشبيه بشري لتضمين الصورة ( CLIP image embeddings)

. أنت لا تعرف بالضبط كيف سيظهر الرسم ، لكنك تعرف الميزات الرئيسية التي يجب أن تظهر (مزرعة , أشجار ونخيل ). الانتقال من الجملة إلى الصورة الذهنية هو ما يفعله الـ (Prior model).

بعدما تكونت في ذهنك  صورة مبدئية ،يمكنك الآن البدء بالرسم (ليس بالضرورة أن يكون جيدًا!)، إن ترجمة الصور التي تدور في ذهنك إلى رسم حقيقي هو ما يفعله برنامج UnCLIP. 

يمكنك الآن إعادة رسم صورة أخرى تمامًا من نفس الوصف الذي أمليته عليك (مزرعة مليئة بالأشجار والنخيل) بميزات متشابهة ولكن بشكل نهائي مختلف تمامًا ، هذه أيضًا هي الطريقة التي يمكن بها لـ DALL-E 2 إنشاء صور أصلية مميزة من تضمين وصف صورة معينة

الآن ، انظر إلى الرسم الذي رسمته للتو، إنه نتيجة رسم هذا التعليق: (مزرعة مليئة بالأشجار والنخيل) الآن ، فكر في الميزات التي تمثل هذه الجملة بشكل أفضل (على سبيل المثال ، هناك شمس ، أو منزل ، أو خيول …) وكيف ستظهر الصورة بشكل أفضل (مثل الكائنات ، والأسلوب ، والألوان …). إن عملية ترميز سمات الجملة والصورة هي ما تفعله CLIP.

الطريقة التي يرسم بها الصور 

يمكنك ببساطة إخبارها بما تريد وبأي نمط عن طريق كتابة عبارة قصيرة ، وترسمها لك.

على مستوى أعمق ، لا ينشئ Dall-E وأنظمة الذكاء الاصطناعي الأخرى لتوليد الصور عملًا فنيًا بالطريقة نفسها التي يقوم بها الشخص  فعندما تريد أن ترسم شيئاََ لنفترض أنه مثال (مزرعة مليئة بالأشجار والنخيل)، ربما تقوم برسمه أولاً في شكل تقريبي ،  ثم يمكنك التركيز على التفاصيل وملء اللوحة تبدأ بتحديد سور المزرعة وأماكن الأشجار وتكمل الرسم حتى تحصل على اللوحه المطلوبة .

يعمل الذكاء الاصطناعي بطريقة غريبة ، فبدلاً من التركيز على جزء واحد من الصورة والعمل من هناك ، فإنه يركز على رسم الصورة بأكملها دفعة واحدة! من خلال عملية الانتشار ، حيث يبدأ بنمط من التشويش ثم عبر سلسلة من التكرارات تتحول تلك البكسلات إلى كائن يمكنك التعرف عليه.

يبدأ بملء منطقة الصورة بأكملها بظلال من اللون الرمادي ، والتي تتطور إلى أشكال ضبابية تصبح تدريجياً أكثر حدة مع مرور الوقت ، (في الواقع يقوم برسم نمطًا من البكسلات التي تبدو جيدة جدًا بحيث تبدو للعين البشرية مثل الرمادي ، ثم تزيل أي وحدات بكسل لا تبدو مثل الصورة التي قررت إنشاءها)

شيء آخر قد يكون مختلفًا أو لا يكون مختلفًا بين طريقة عمل البشر والذكاء الاصطناعي: عندما تبدأ الرسم ، من المحتمل أن يكون لديك فكرة معينة في ذهنك عن الشكل الذي يجب أن يبدو عليه ، ولكن أثناء عملك ، تبتكر القليل من الإلهام و تأخذ فكرتك العديد من التقلبات والمنعطفات مع تقدمك بحيث يكون المنتج النهائي مختلفًا كثيرًا عما كنت تتصوره في الأصل.

في المقابل ، قد تعتقد أن الذكاء الاصطناعي يعرف بالضبط ما يريد أن يفعله في اللحظة التي يبدأ فيها ولا يغير رأيه أبدًا مرة واحدة أثناء العملية ، ولكن في الواقع إنه يعمل مع تقدمه  ويبدو أنه يغير رأيه عدة مرات أثناء عمله ، ويومض عددًا من الصور المختلفة جدًا حتى يستقر أخيرًا على واحدة.

إن الذكاء الاصطناعي لا ينظر إلى الصور بالطريقة التي نقوم بها ، ولكن فقط كقيم بكسل ، ممثلة بأرقام ثنائية وأصفار منتشرة عبر الصورة بأكملها 

 ففي عملية تدريب النظام ، يحاول بشكل عشوائي مطابقة مجموعات البيانات هذه مع الوصف المناسب ، ولأنه حصل على المزيد والمزيد من المطابقات بشكل صحيح ، فقد تعلم تحديد قيم البكسل مع وصف الصورة.

لماذا يعتبر Dall-E 2 ثوريًا جدًا

تعتبر Dall-E 2 (والتقنيات المماثلة) ثورية من نواحٍ أكثر مما يمكن حصره ، إنه يفهم المفاهيم والعلاقات ، مثل الحيوانات ، والجلوس ، وركوب الخيل ، والأشياء التي من صنع الإنسان ، والمركبات ، وما إلى ذلك ، ويمكنه الجمع بينها .

 إنه ثوري بسبب عدد الأساليب التي يمكن أن ينتجها ، من الرسوم الكرتونية إلى قصص الأطفال إلى الواقعية ، إنه ثوري في قدرته على فهم طلبات اللغة الطبيعية ، إنه ثوري في الجودة المطلقة لأعماله الفنية ، وغالبًا ما لا يمكن تمييزه عن تلك التي أنشأها فنان محترف، كما أنه ثوري من حيث السرعة التي يتطور بها.

استخدامات الفن الذي يولده الذكاء الاصطناعي : 

  • يمكن استخدام مولدات الصور لتوضيح بعض كلاسيكيات الأدب.
  • يساعد في رسم مشاهد الخيال العلمي 
  • رسم قصص الأطفال و قصص الروايات
  • إنشاء صور لوسائل التواصل الاجتماعي 
  • يمكن استخدامه في إنشاء رموز الـ NFT
  • قد يساعدك مولد الصور في تصور مشاهد من الماضي أو المستقبل على سبيل المثال (مشهد من الخلافة الإسلامية أو العالم في القرن الثلاثين ) بتفاصيل حية وبالوان كاملة
  • الكثير من الناس يستخدمون مولدات الصور لتوسيع خيالهم
  • يستخدمها المصممين للاستلهام والحصول على أفكار جديدة 
  • يمكنك استخدامها لتوليد أي صورة تخطر في بالك  على سبيل المثال” حصان فضائي يرتدي قبعة مهرج”

التحديات التي تواجه الفن الذي يولده نظام  Dall-E 2

على الرغم من قوة النظام وابداعه ، إلا أنه لا يخلو من بعض التحديات 

إحدى المشكلات التي تواجهها Dall-E 2  هي الخلط بين بعض الكلمات أو العبارات على سبيل المثال ، عندما أدخلن “ثقبًا أسود داخل صندوق” ، أعاد Dall-E 2 ثقبًا كان أسودًا داخل صندوق ، بدلاً من الجسم الكوني المقصود .

يمكن أن يحدث هذا غالبًا عندما يكون للكلمة معانٍ متعددة ، أو يمكن أن يُساء فهم العبارات أو في حالة استخدام التعبيرات العامية ، هذا أمر متوقع من ذكاء اصطناعي فهو يأخذ المعنى الحرفي لكلماتك.

“هناك شيء آخر يجب التعود عليه مع النظام وهو كيفية عمل المطالبات والأساليب الفنية عندما تكتب شيئًا ما ، قد لا تكون الصورة الأولية صحيحة وبينما تتطابق تقنيًا مع طلبك ، فإنها لا تحقق تمامًا الإحساس أو الفكرة التي لديك في رأسك ، هذا قد يستغرق بعض التعود وبعض التعديلات الطفيفة 

هناك مجال آخر يمكن أن يختلط فيه Dall-E وهو “المزج المتغير” ،”إذا طلبت من النموذج رسم مكعب أحمر فوق مكعب أزرق في بعض الأحيان فإنه يتم الخلط بينه وبين القيام بالعكس. 

هل سيقضى الفن الذي ينشئه الذكاء الاصطناعي على الفنانين البشريين

هذا سؤال صعب – وفلسفي – للإجابة عليه  يعتقد بعض الناس أنه إذا قام الذكاء الاصطناعي بإنشاء صورة ، فإنه يزيل الإنسان من العملية تمامًا وبالمثل ، يعتقد الكثير من الناس أنه إذا استخدمت فلتر على صورة ما يجعل الصورة تبدو وكأنها لوحة ، فلا يمكن اعتبار ذلك أيضًا شكلاً من أشكال العمل الفني.

يكره بعض الأشخاص الأعمال الفنية التي تم إنشاؤها بواسطة الكمبيوتر ، مثل استخدام الفلاتر على الصور الفوتوغرافية ويعتبرون ذلك شكلاً من أشكال “الغش” ، مما يمنح الشخص الذي ابتكرها ميزة غير عادلة على الفنانين الآخرين الذين فعلوها “بالطريقة الصعبة” – باليد باستخدام الفرشاة والألوان.

في النهاية ، أعتقد أن المشتري هو الذي يحدد ما إذا كان شيء ما فنيًا أم لا ، سواء كان ذلك معرضًا فنيًا أو شخصًا يريد استخدام العمل الفني لبيع منتج ما ، السؤال الحقيقي هو ما إذا كان سيكون هناك العديد من مشتري الفن عندما يجعل الذكاء الاصطناعي عملية إنشاء الفن أمرًا سهلاً للغاية بحيث يمكن لأي شخص تقريبًا أن يصبح “فنانًا”.

إقرأ أيضاََ : ماهو نظام ChatGPT-3 وهل يعتبر المنافس الأقوى لجوجل

شارك مقالتنا مع الأصدقاء

Share on whatsapp
Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on email
مقالات ذات صلة :

مدونات صديقة

ترفيهات

ترفيهات هي مدونة تقدم لكم مراجعات الألعاب و ملخصات الانمي و كل ما هو جديد في عالم الترفيه والمرح

All In One Video Download

منصة واحده لها القدره على تحميل وتنزيل مقاطع الفيديو من جميع المنصات
التواصل الإجتماعي والمرئي

أحدث المقالات

التصنيفات