لو كنت تستخدم أدوات توليد الصور بالذكاء الاصطناعي، فأنت تعرف الإحساس جيداً: تكتب برومبتاً دقيقاً، تنتظر، تحصل على صورة واحدة، تُعيد المحاولة، تحصل على نتيجة مختلفة كلياً لا تشبه الأولى في الشخصية ولا الأسلوب ولا حتى الألوان.
هذه المعاناة كانت تُضيع وقت المصممين والمسوّقين والمبدعين كل يوم. وفي 21 أبريل 2026، قررت OpenAI أن تضع لها حداً.
ChatGPT Images 2.0 رسمياً: النموذج الذي يفكر قبل أن يرسم
أطلقت OpenAI رسمياً نموذجها الجديد ChatGPT Images 2.0 المبني على gpt-image-2، وهو بحق قفزة نوعية لا مجرد ترقية. الميزة الأبرز والأكثر إثارة للحديث هي القدرة على توليد ما يصل إلى 8 صور متسقة من برومبت واحد، مع الحفاظ على نفس الشخصية والأسلوب البصري والكائنات عبر الصور الثماني كلها. هذا يعني أنك تستطيع الحصول على 8 لقطات لنفس الشخصية في مواقف مختلفة، أو 8 تنويعات على نفس الإعلان، أو ألواح قصة متكاملة لمشروع واحد، كل ذلك من مدخل واحد.
لكن الأهم من هذه الميزة هو ما يقف خلفها: النموذج يملك قدرات تفكير استنتاجي حقيقية. بدلاً من القفز مباشرة إلى توليد البكسلات، يحلل النموذج البرومبت أولاً، يفهم تركيبته البصرية، ويمكنه حتى البحث في الويب لضمان الدقة البصرية، قبل أن يرسم حرفاً واحداً، وصفته OpenAI بأنه شريك تفكير بصري، وهو وصف دقيق.
ما الذي تغير فعلاً؟
تعامل النماذج السابقة مع النص داخل الصور كان كابوساً حقيقياً، قائمة مطعم بكلمات مخترعة، إنفوجرافيك بأرقام عشوائية، شريط تنقل بأزرار بلا معنى، هذه كانت علامة فارقة تفضح الصورة المولدة بالذكاء الاصطناعي على الفور. Images 2.0 أعاد كتابة هذه القاعدة كلياً.
النصوص داخل الصور أصبحت مقروءة وصحيحة ومتسقة مع السياق، بما في ذلك اللغات غير اللاتينية كاليابانية والكورية والعربية والهندية.
فوق ذلك، ارتفع الحد الأقصى للدقة إلى 2K عبر الـ API، مع دعم لنسب عرض تمتد من 3:1 للبانرات العريضة وصولاً إلى 1:3 لشاشات الهواتف الطولية، هذا يعني أن المصمم يستطيع توليد أصول بصرية جاهزة للنشر مباشرة دون تعديل يذكر.
ومن الإضافات التي لا تبدو كبيرة لكنها ضخمة في التطبيق: النموذج يفهم الفيزياء البصرية والتراتبية المنطقية للعناصر.
في الاختبارات التي أجرتها TechCrunch، نجح النموذج في فهم تعليمات بصرية معقدة كانت كل الأنظمة السابقة تفشل فيها، مثل تحديد أي عنصر فوق الآخر بشكل لا لبس فيه.
لمن هذه الميزات وما شروط الوصول؟
الخبر الجيد أن النموذج الأساسي متاح لجميع مستخدمي ChatGPT وCodex مجاناً، مع تحسينات ملموسة في جودة الصور ودقة التعليمات لكل المستخدمين، لكن الميزات المتقدمة، وفي مقدمتها توليد الـ 8 صور من برومبت واحد، ووضع التفكير، والبحث الويب خلال التوليد، مقصورة على مشتركي Plus وPro وBusiness.
أما المطورون فيمكنهم الوصول عبر الـ API تحت اسم gpt-image-2 بتسعير يقوم على التوكنز.
وفي السياق نفسه، أعلنت OpenAI أن نموذجَي DALL-E 2 وDALL-E 3 سيُتوقفان رسمياً في 12 مايو 2026، ليُصبح gpt-image-2 النموذج الافتراضي الوحيد عبر ChatGPT والـ API.
ماذا يعني هذا عملياً للمبدعين؟
للمسوّقين، توليد 8 نسخ متسقة من إعلان واحد لمنصات مختلفة كان يستغرق ساعات من العمل اليدوي، الآن هو مسألة ثوانٍ. للرسامين ومصممي القصص المصوّرة، الحصول على لوح قصة كامل بشخصيات متسقة من برومبت واحد يُزيل إحدى أكبر عقبات سير العمل.
وللمحتوى التعليمي، توليد إنفوجرافيك دقيق مقروء بلغات متعددة من تعليمة واحدة يُغيّر طريقة إنتاج المحتوى بالكامل.
القيود الموجودة: لا يزال النموذج يُخطئ في التفاصيل المعقدة كأدلة الأوريجامي، ومكعبات روبيك، والسطوح المعكوسة. والشعارات لا تُعاد بدقة بكسل في كل الحالات. لكن هذه استثناءات في سيل من الإنجازات.
ما أطلقته OpenAI يوم 21 أبريل ليس ترقية اعتيادية، إنه تعريف جديد لما يُفترض أن تفعله أداة الصور بالذكاء الاصطناعي. أن تُفكّر، أن تبحث، أن تفهم، وأن تُنتج. الفجوة بين الفكرة والصورة النهائية الجاهزة للنشر لم تكن يوماً أضيق مما هي عليه اليوم.







0 تعليق