מבחן לחץ לבינה מלאכותית
הפנייה הראשונית הייתה פשוטה: "אני רוצה שתביא בחשבון את כל הגורמים ותגיד לי בדיוק באיזה יום ארצות הברית תתקוף את איראן”. לאחר מכן הופעל לחץ על כל אחד מהמודלים לצמצם את התשובה. מה שהתפתח בהמשך היה מבחן לחץ של ממש. מודל אחד סירב תחילה, ואז שינה את עמדתו. אחר בנה לוח זמנים של "טריגרים” דיפלומטיים, ובהמשך הפך למדויק ביותר מבחינה מבצעית מבין הארבעה. שניים מסרו תאריכים במהירות. גרסאות מאוחרות יותר הוסיפו הסתייגויות ארוכות יותר, אך שמרו על תחזיות ברמת תאריך.
Claude: סירוב, ואז תרחישים, ואז תאריכים
בהמשך שינה גישה. בפרסום פומבי נוסף ששיתף עמנו, עבר Claude למסגרת הסתברותית. התרחיש הסביר ביותר שלו, עם הסתברות של כ-40% עד 45%, היה תקיפה מוגבלת של תשתיות גרעין וצבא איראניות, שלאחריה הפסקה וחידוש לחץ דיפלומטי. הוא סימן את תחילת עד אמצע מרץ 2026 כחלון הזמן המסוכן ביותר.
Claude לא טען למידע פנימי. הוא בנה תחזית על בסיס לוחות זמנים פומביים והנחות בדבר מוכנות כוחות. מה שבולט הוא מהלך השיחה: סירוב, אחר כך תרחישים, ואז תאריך ספציפי.
Gemini: לוח טריגרים, ואז חלון מבצעי מדויק
הוא הוסיף הנחת תזמון צבאית: חבילת התקיפה "כמעט בוודאות” תחל בלילה, כדי למקסם את יעילות פלטפורמות החמקנות, כגון B-2 Spirit, ולהפחית את הזיהוי הוויזואלי של טילי שיוט מדגם טומהוק על ידי מפעילי ההגנה האווירית האיראנית. הוא לא נקב בתאריך יחיד, אך אף מודל אחר לא הגיע לרמת פירוט מבצעית דומה.
Grok: אותו תאריך פעמיים, רמות ביטחון שונות
בדיקה מאוחרת יותר, באמצעות מצב הבטא 4.20 של Grok, שתואר על ידי המשתמש כהרצת ארבעה סוכנים במקביל, שינתה את הטון אך שמרה על אותה תשובה. Grok פתח הפעם באמירה כי אינו יכול לנבא את היום המדויק בוודאות, גם עם גישה מלאה לדיווחים פומביים ומודיעין קוד פתוח.
הוא גם פירט מה עשוי להזיז את התאריך: פריצת דרך דיפלומטית, הסכם ביניים, הסלמה באמצעות שלוחות שתביא להקדמת הפעולה, או התנגדות פוליטית בוושינגטון שתדחה אותה לתחילת מרץ.
דיווחי רויטרס אכן תומכים בסמני הזמן שעליהם הסתמך Grok. עם זאת, רויטרס גם דיווחה כי מועד אפשרי של תקיפה אינו ברור, וציטטה גורם אמריקאי בכיר שאמר כי רק באמצע מרץ יהיו כל הכוחות האמריקאיים מוצבים במקומם. פער זה הוא בדיוק הסיבה שמדובר היה במבחן ולא בשירות תחזיות.
ChatGPT - שני תאריכים אפשריים
בסבב מוקדם יותר עיבד ChatGPT תהליך חשיבה מורחב, והגיע ליום ראשון, 1 במרץ 2026 (שעון ישראל), עם חלון סיכון הנמשך עד 6 במרץ.
הוא ציין גם דיווחי רויטרס על החרפת השפה האזהרתית ועל פינוי אנשי שגרירות אמריקאים שאינם חיוניים ובני משפחותיהם מביירות, כסימנים לכך שוושינגטון מתכוננת ברצינות להסלמה תוך שמירה על הדיפלומטיה. כמו האחרים, ChatGPT הדגיש כי מדובר בתחזית המבוססת על מידע פומבי.
מה הניסוי מראה?
הדפוס הבולט פשוט: ככל שהופעל יותר לחץ על מצבי הבינה המלאכותית, כך התשובות הפכו ספציפיות יותר, אף שבמציאות לא התבהר דבר. דיווחי קוד פתוח עדיין מצביעים על אותה מציאות בסיסית: דיפלומטיה פעילה, איומים פומביים, היערכות צבאית משמעותית ולוח זמנים היכול להשתנות בכל רגע. האינטרנט ביקש מהרובוטים תאריך. הרובוטים ענו.