ChatGPT Images 2.0.. ثورة جديدة تجعل الذكاء الاصطناعي يفكر قبل أن يرسم

كان هناك سؤال يؤرق كل من جرّب توليد الصور بالذكاء الاصطناعي في مرحلة ما: لماذا يفهم النموذج ما أقوله لفظياً، لكنه يُخطئ في ترجمته بصرياً؟ تطلبه إنفوغرافيك فيُعيد تخيّل البيانات، تطلبه نصاً على صورة فيكتب هراءً، تطلبه تسلسلاً بصرياً فيُغيّر الشخصيات بين كل لقطة.

كانت هذه حدود واضحة لكل أدوات توليد الصور، وفي 21 أبريل 2026، قررت OpenAI تجاوزها.

ChatGPT Images 2.0 ليس مجرد تحديث لنموذج، إنه إعادة تعريف لما يعنيه أن يُولّد الذكاء الاصطناعي صورة.

من التوليد إلى التفكير

الفارق الجوهري بين هذا النموذج وكل ما سبقه يتلخّص في كلمة واحدة: التفكير. للمرة الأولى في تاريخ OpenAI، نموذج الصور لا يقفز مباشرة إلى توليد البكسلات. بدلاً من ذلك، يستوعب البرومبت، يُحلّله، يُخطط للتركيب البصري، ويمكنه البحث في الويب للتحقق من دقة المعلومات، ثم يرسم.

وصفته OpenAI بـ "شريك التفكير البصري"، وهو وصف يعكس تحولاً حقيقياً في الفلسفة لا مجرد ترقية في الأداء.

هذه القدرة التفكيرية متاحة في ما يُعرف بـ Thinking Mode، وهي حكر على مشتركي Plus وPro وBusiness، لكن حتى في الوضع الأساسي المتاح لجميع المستخدمين بما فيهم الحساب المجاني، جاء تحسّن واضح وملموس في جودة الصور ودقة تنفيذ التعليمات مقارنةً بالنماذج السابقة.

وفي غضون 12 ساعة من إطلاقه، تصدّر النموذج قائمة Image Arena بفارق 242 نقطة، الفارق الأكبر المسجّل في تاريخ تلك المنصة.

النص داخل الصورة: الكابوس الذي انتهى

إذا كان ثمة إنجاز واحد يستحق أن يُذكر بمفرده، فهو ما حقّقه النموذج في مجال عرض النصوص داخل الصور.

منذ أن بدأت أدوات الذكاء الاصطناعي التوليدي تُنتج صوراً، ظلّ النص فيها مصدر فضيحة: كلمات مخترعة، حروف مقلوبة، أرقام عشوائية.

الآن، يُنتج ChatGPT Images 2.0 نصاً مقروءاً وصحيحاً ومُندمجاً بشكل احترافي في أي تركيبة بصرية، من غلاف مجلة بتفاصيل دقيقة كرقم العدد وتاريخ الصلاحية، إلى قائمة مطعم بأسعار وأصناف مكتوبة بشكل سليم تماماً.

والأهم من ذلك: يتعامل النموذج مع النصوص المختلطة بشكل لم يستطعه أي نموذج تجاري قبله. ملصق ياباني بأسماء منتجات لاتينية، قائمة طعام عربية بأسعار غربية، ترجمة مصطوّرة بخط عربي فوق خلفية إنجليزية، كلها سيناريوهات كانت تُفشل النماذج السابقة دائماً، وصارت اليوم تجرى بسلاسة.

ثماني صور بروح واحدة

الميزة التي أثارت أكبر قدر من الاهتمام بين المبدعين هي القدرة على توليد ما يصل إلى 8 صور من برومبت واحد مع الحفاظ على اتساق الشخصيات والأجسام والأسلوب البصري عبر الصور كلها.

قبل هذا النموذج، كان على المصور أو المصمم توليد كل صورة على حدة ثم إعادة صياغة البرومبت في كل مرة بحثاً عن الاتساق، وكان الفشل شبه مضمون. الآن، سلسلة كاملة من ألواح القصة، أو حملة إعلانية بثمانية إعلانات متناسقة، أو كتاب أطفال مصوّر بشخصية واحدة عبر كل الصفحات، كلها قابلة للإنجاز بطلب واحد.

تعدد الأساليب دون فقدان الهوية

النماذج السابقة كانت تملك "أسلوباً افتراضياً" يطغى على كل ما تُنتجه حتى حين تطلب منها شيئاً آخر.

Midjourney كانت تُعطي كل شيء نفس البريق الفني، وDALL-E كانت تُنتج كل شيء بنفس الملمس التوليدي الواضح. ChatGPT Images 2.0 يصفه مطوّروه بـ "المتعدد اللغات البصري"، يُتقن أسلوب المانجا الياباني، والتصوير الفوتوغرافي الواقعي، والفن البكسلي، والرسم بالألوان المائية، والتصاميم الجرافيكية الإعلانية، لكل أسلوب هويته المنفصلة دون أن يتلوّث بأسلوب النموذج الأساسي.

الاستخدامات العملية: من الإبداع إلى الإنتاج

ما يُميّز هذا الإطلاق عن سابقيه هو أن OpenAI لا تُقدمه كأداة فنية، بل كنظام إنتاج بصري، المصممون يمكنهم توليد نماذج أولية لواجهات المستخدم مع نصوص حقيقية قابلة للقراءة.

مؤلفو المحتوى التعليمي يمكنهم إنتاج إنفوغرافيكات دقيقة ببيانات صحيحة، فرق التسويق تستطيع إنتاج حملة كاملة بأصول متناسقة عبر أحجام ومنصات مختلفة من طلب واحد. ومطوّرو البرامج يمكنهم توليد نماذج بصرية لمنتجاتهم مباشرة من داخل بيئة Codex.

وضع التعديل متعدد الأدوار أيضاً تحسّن جذرياً: تطلب تغيير خلفية أو إزالة شخص أو تكبير نص، يُنفذ النموذج التغيير دون أن يُغيّر ما لم تطلب تغييره، وهو ما كان الإخفاق الأكبر في النماذج السابقة.

ما الذي لم يتغير؟

الصدق يستوجب الإشارة: النموذج لا يزال يُخطئ في بعض التفاصيل المعقدة كأدلة الأوريغامي ومكعبات روبيك والأسطح المعكوسة، الشعارات لا تُعاد بدقة بكسل في كل الحالات.

ووضع التفكير أبطأ من الوضع الفوري بحكم الاستدلال الإضافي الذي يقوم به. وقاعدة المعرفة تتوقف عند ديسمبر 2025، وإن كان البحث في الويب يُعوّض هذا النقص جزئياً.