אחת הבעיות המרכזיות של מחוללי תמונות בעבר הייתה היכולת לשלב טקסט. מערכות כמו DALL-E נטו לייצר מילים חסרות משמעות או שגויות, תוצאה של שיטה טכנולוגית שנקראת diffusion שבה התמונה נבנית בהדרגה מתוך רעש. בשיטה זו, אזורים קטנים כמו אותיות זכו לפחות תשומת לב ולכן נפגעו באיכות. המודל החדש מציג שיפור דרמטי בתחום הזה, עד כדי יצירת טקסטים מדויקים וברורים בתוך תמונות, גם בשפות מורכבות. אבל כאמור, עדיין לא בעברית.
OpenAI לא חשפה באופן מלא את המנגנון המדויק שמפעיל את המודל, אבל רמזה לשילוב של יכולות חשיבה הדומות למודלים שפתיים. המשמעות היא שהמערכת לא רק "מציירת", אלא מתכננת את התמונה מראש, מבינה את ההקשר, ולעיתים אף בודקת את עצמה לפני שהיא מציגה את התוצאה.
אחד החידושים המרכזיים הוא מצב פעולה המכונה Thinking שבו המודל פועל לאט יותר אבל באופן מדויק ומעמיק יותר. במצב זה הוא מסוגל ליצור סדרת תמונות עקבית מאותה הנחיה, לשמור על דמויות, סגנון ואובייקטים בין פריימים שונים, ולהפיק תוצרים כמו קומיקס מרובה תמונות או סטורי בורד שלם.
היכולת הזו משנה את האופן שבו אנשי מקצוע יכולים לעבוד. במקום להיעזר בכמה כלים שונים לעיצוב, כתיבה ועריכה, ניתן לייצר קמפיין שלם מתוך הנחיה אחת. המודל יודע ליצור גרסאות שונות לאותו תוכן, להתאים גדלים לפלטפורמות שונות, ולהפיק תוצרים לשימוש מיידי ברשתות חברתיות, אתרי אינטרנט או אפליקציות.
בתוך כך, המודל מציג שיפור משמעותי גם בהבנה של שפות שאינן לטיניות. בעבר, כתיבה ביפנית, קוריאנית או הינדית בתוך תמונה הייתה כמעט בלתי אפשרית. כעת, המערכת מצליחה לשלב טקסטים בשפות אלו בצורה מדויקת בהרבה, מה שמרחיב את השימושיות שלה לשווקים גלובליים.
איכות התמונה עצמה עלתה לרזולוציה של עד 2K עם יכולת להתמודד עם קומפוזיציות מורכבות, פרטים קטנים ואילוצים סגנוניים עדינים. מדובר בשיפור לא רק ברמת הדיוק אלא גם ברמת השליטה: המשתמש יכול להנחות את המודל בצורה מפורטת ולקבל תוצאה שמכבדת את ההנחיות במידה גבוהה בהרבה מהעבר.
עם זאת, לא מדובר במערכת מושלמת. גם בגרסה החדשה יש מגבלות, בעיקר במשימות שדורשות הבנה פיזיקלית מדויקת של העולם, כמו קיפול אוריגמי או ייצוגים מורכבים של אובייקטים תלת ממדיים. לעיתים גם עריכות חוזרות של אותה תמונה מובילות לשחיקה באיכות, תופעה שמוכרת גם ממודלים קודמים.
היבט נוסף הוא המהירות. יצירת תמונות מורכבות אינה מיידית כמו כתיבת טקסט, ולעיתים נדרשות מספר דקות לקבלת תוצאה מלאה. אבל בהשוואה ליכולות שמתקבלות, מדובר בזמן קצר יחסית.
ההשקה של Images 2.0 מגיעה על רקע תחרות גוברת בתחום, כאשר חברות טכנולוגיה נוספות משקיעות משאבים עצומים בפיתוח מודלים דומים. במקביל OpenAI מסירה בהדרגה מודלים ישנים יותר וממקדת את הפיתוח בדור החדש, מה שממחיש עד כמה התחום מתפתח במהירות.