ChatGPT Images 2.0.. حين يُفكر الذكاء الاصطناعي قبل أن يرسم

الوفد 0 تعليق ارسل طباعة تبليغ حذف

 

OpenAI تُطلق جيلًا جديدًا من توليد الصور بقدرات تفكير حقيقية — ثماني صور من أمر واحد ودقة 2K ونصوص عربية وآسيوية بلا أخطاء لأول مرة

قبل عامين فقط، كان المستخدمون يتندرون على صور الذكاء الاصطناعي بأصابعها الست وكلماتها المشوهة. اليوم، في 21 أبريل 2026، أعلنت OpenAI عن ChatGPT Images 2.0 — وحين طُلب من النموذج الجديد تصميم قائمة طعام لمطعم مكسيكي، خرجت النتيجة جاهزة للطباعة دون أن يلحظ أي زبون أنها من توليد آلة. هذه ليست مبالغة، بل ما رصده مراجعون استخدموا النموذج فعليًا.

من أداة توليد إلى شريك بصري يُفكر

تُقدم OpenAI نموذج Images 2.0 لا بوصفه أداة توليد بل "شريكًا بصريًا في التفكير" — نظام قادر على التفكير في المهام البصرية المعقدة والتحقق من مخرجاته وتوليد ما يصل إلى ثماني صور متماسكة من أمر واحد.

هذا التحول في التعريف ليس تسويقًا فارغًا. gpt-image-2 هو أول نموذج صور يُدمج قدرات الاستدلال من سلسلة O-series، بما يعني أنه يبحث ويخطط ويُفكر في بنية الصورة قبل توليدها — مما يجعله أول نموذج توليد صور وكيلي حقيقي في الصناعة.

عمليًا، هذا يعني أن النموذج لا يُترجم وصفًا نصيًا إلى بكسلات مباشرة، بل يُفكر أولًا: ما العلاقات المكانية المطلوبة؟ هل النص صحيح؟ هل التفاصيل الدقيقة محفوظة؟ ثم يُنتج.

ثماني صور متسقة من أمر واحد

Images 2.0 قادر على البحث في الإنترنت للحصول على معلومات آنية، وتوليد ما يصل إلى ثماني صور من أمر واحد، والتحقق من مخرجاته ذاتيًا. يمكن إنشاء الرسومات بنسب عرض متعددة وبدقة تصل إلى 2K.

الميزة الأكثر أهمية للمصممين والمبدعين هي الاتساق عبر الصور المتعددة. مع تفعيل وضع التفكير، يمكن لـImages 2.0 توليد ما يصل إلى ثماني صور دفعة واحدة من أمر واحد مع الحفاظ على تناسق الشخصيات والأشياء والأسلوب عبر جميع الإطارات. وفي أحد العروض التوضيحية، ولّد النموذج ثمانية تصاميم مختلفة لملابس صيفية لشخصية واحدة مع الحفاظ على ملامحها في كل صورة.

النصوص غير اللاتينية.. المشكلة التي حُلّت

لعل الإنجاز الأكثر أهمية لمستخدمي اللغات غير اللاتينية — ومنهم العرب — هو التحسن الجذري في عرض النصوص. يمتلك النموذج الجديد فهمًا متعدد اللغات محسّنًا وقدرة أفضل على عرض النصوص غير اللاتينية مثل اليابانية والكورية والصينية والهندية والبنغالية.

ثلاثة تحسينات جوهرية تُميّز gpt-image-2 عن سابقه: الاستدلال الوكيلي، ودقة النصوص متعددة اللغات على مستوى الحرف الواحد، وتكامل البحث على الإنترنت للتحقق من المعلومات الآنية.

هذا يعني أن تصميم إنفوجرافيك يحتوي نصوصًا عربية وإنجليزية في آنٍ واحد — وهو ما كان شبه مستحيل في الإصدارات السابقة — بات ممكنًا وقابلًا للاستخدام الفعلي.

DALL-E 3 يُتقاعد.. وعهد جديد يبدأ

DALL-E 2 وDALL-E 3 سيُتوقف عنهما في 12 مايو 2026، مما يجعل استبدالهما بجيل جديد ضرورةً تجارية واستراتيجية في آنٍ واحد. أي كود يستخدم نقطة نهاية DALL-E 3 يحتاج إلى الترحيل قبل هذا الموعد.

النموذج متاح أيضًا داخل Codex، بيئة البرمجة لدى OpenAI، مما يُتيح الإنشاء البصري في نفس مساحة العمل المستخدمة لتطوير التطبيقات وشرائح العروض التقديمية وغيرها من المخرجات.

من يصل إليه ومتى؟

ChatGPT Images 2.0 متاح على جميع خطط ChatGPT، فيما يشترط وضع التفكير الاشتراك في الخطط المدفوعة ويكون متاحًا عند اختيار نماذج Thinking وPro. واجهة برمجة التطبيقات API ستُفتح للمطورين في مطلع مايو 2026، بتسعير يتراوح بين 8 و30 دولارًا لكل مليون توكن بحسب نوع الاستخدام.

وقد تصدّر gpt-image-2 قائمة Image Arena بفارق 242 نقطة عن أقرب المنافسين في جميع الفئات — وهو رقم يعكس تقييم المستخدمين الفعليين، لا فقط الاختبارات المعيارية الرسمية.

التحول الحقيقي ليس في الدقة

ما يجعل Images 2.0 مختلفًا جوهريًا ليس فقط الدقة الأعلى أو النصوص الصحيحة — بل أن النموذج بات يُفكر في ما تحتاجه قبل أن يُنتجه. هذا يُحوّله من أداة تُنفذ أوامر إلى نظام يفهم السياق ويتحقق من النتائج ويُعيد المحاولة إذا لزم الأمر.

للمصممين ومنتجي المحتوى والمسوقين، هذا يعني شيئًا واحدًا واضحًا: المعيار الجديد لتوليد الصور بالذكاء الاصطناعي رُسم من جديد في 21 أبريل 2026.

إخترنا لك

أخبار ذات صلة

0 تعليق