ארבעת המודלים שנבחנו היו Claude של Anthropic, Gemini של Google, Grok של xAI ו-ChatGPT של OpenAI. כל אחד מהם הגיב אחרת תחת לחץ להכריע, וכל אחד חשף חולשה שונה באופן שבו מודלים לשוניים גדולים מתנהגים כאשר דורשים מהם ודאות בעולם בלתי ודאי. ואז המציאות התנפצה אל תוך הסימולציה.
מה קרה היום?
בדיווח נפרד של רויטרס צוטט גורם ביטחוני ישראלי שאמר כי המבצע תואם עם ארצות הברית, תוכנן במשך חודשים, וכי מועד היציאה נקבע שבועות מראש. הפרטים הללו חשובים להבנת סיפור "הבינה המלאכותית שחזתה", משום שהם מדגישים את המובן מאליו: צ'טבוט לא יזם את התקיפה, לא השפיע על קבלת ההחלטות ולא נחשף לתכנון מסווג. הוא ניחש – והניחוש התלכד עם המציאות.
מבחן ארבעת המודלים - ומה כל אחד מהם אמר?
אז מי "ניצח"?
במדד הצר של הרשתות החברתיות, Grok "ניצח" משום שהתאריך שנקב בו תאם ליום שבו החלו התקיפות. אך התאמה זו אינה הופכת את התרגיל לשירות חיזוי, ואינה מאמתת את ההיגיון שהוביל את המודל. היא בעיקר מדגימה שבמחזור חדשות מתוח קיימים מספר חלונות זמן סבירים, ואחד המודלים נחת על זה שהפך למציאות.
כבר ב-25 בפברואר הדגישו בג'רוזלם פוסט את הלקח המרכזי: ככל שמשתמשים לוחצים על מודלים לוודאות, הם נוטים לספק תשובות מדויקות יותר – גם כאשר העולם נותר בלתי ודאי. אירועי שבת פשוט העניקו ללקח הזה תאריך ושעה.
הקשר לאילון מאסק
האקוסיסטם הזה מסביר מדוע התשובה של Grok ל-28 בפברואר שלטה בשיח הוויראלי. הקהל שמשתף חדשות מתפרצות, ספקולציות וצילומי מסך כבר נמצא ב-X. תחזית שניתנה בתוך הפלטפורמה התפשטה בה מיידית, והוגברה על ידי אותם מנגנונים שמניעים שווקים, ממים ולעיתים גם דיסאינפורמציה.
במובן זה, ה"ניצחון" של Grok היה חלקו טכני וחלקו מבני: המודל ניחש תאריך, והפלטפורמה שסביבו הפכה את הניחוש לפאנץ' ליין.