ה-AI שידע יותר מדי חוזר בגרסה לציבור: בעמק הסיליקון פחדו ממנו

חברת אנתרופיק השיקה את Claude Fable 5. הגישה אליו הוגדרה כמסוכנת. הגרסה הציבורית כוללת חסימות חדשות אבל החברה מודה שגם לאחר התקנת אמצעי ההגנה נותר סיכון מסוים

ד"ר איתי גל צילום: אבשלום ששוני
עקבו אחרינו
קלוד פבל 5. המודל החזק נפתח לציבור
קלוד פבל 5. המודל החזק נפתח לציבור | צילום: מעריב אונליין
3
גלריה

בחברה טוענים ששכבות הגנה חדשות מאפשרות כעת להציע חלק גדול מיכולותיו ללקוחות משלמים ולארגונים, תוך חסימת בקשות שעלולות לסייע בפיתוח נשק ביולוגי, רעלים או מתקפות מחשבים.

"מסוכן מדי לציבור"

ההשקה נערכה ב-9 ביוני 2026, כחודשיים לאחר חשיפת גרסת הניסיון של Mythos. באפריל הודיעה אנתרופיק שהמודל לא יופץ באופן נרחב, לאחר שבבדיקות הפגין יכולות חריגות באיתור חולשות אבטחה ובהפעלתן. במקום שחרור רגיל, הגישה אליו ניתנה לקבוצה מצומצמת של ארגונים שנבדקו מראש, במסגרת תוכנית Project Glasswing שנועדה להשתמש ביכולות המודל להגנת מערכות מחשב ותשתיות.

ההגדרה "מסוכן מדי לציבור" לא התייחסה לצ'אטבוט שמנסה לפגוע בעצמו במשתמשים, אלא לפער שנוצר בין כוחו הטכנולוגי לבין יכולתם של מנגנוני הבטיחות למנוע ניצול לרעה. אנתרופיק הסבירה בעבר שהיקף הנזק האפשרי של Mythos היה גדול מכדי להצדיק הפצה רגילה באותה עת, בעיקר בשל יכולותיו בתחום הסייבר.

מודלים קודמים כבר ידעו להסביר כיצד פועלות חולשות אבטחה או לכתוב קטעי קוד. Mythos התקדם מעבר לכך. לפי אנתרופיק, הוא הצליח לסרוק מערכות תוכנה, לאתר מספר רב של נקודות תורפה, לבחון דרכי ניצול שלהן ולסייע בבניית תקיפות מורכבות. החברה דיווחה שהמודל חשף אלפי חולשות בתוכנות במסגרת עבודתו עם שותפים מורשים.

הסכנה טמונה בכך שמשימות שבעבר דרשו צוות של מומחי סייבר, ידע מקצועי רב וזמן ממושך, עשויות להפוך לנגישות באמצעות הוראות רגילות בשפה טבעית. משתמש עלול לבקש מהמערכת למצוא חולשות בחבילת תוכנה, לנתח מנגנוני הגנה או לכתוב קוד שמנצל פרצה. כשהמודל מסוגל לעבוד באופן עצמאי במשך זמן רב, לתכנן רצף פעולות ולבדוק את תוצריו, הוא עשוי להקטין משמעותית את המחסום המפריד בין רעיון לתקיפה ממשית.

הגרסה שאמורה לחסום בקשות בסיכון גבוה

אנתרופיק מסרה ש-Claude Fable 5 מבוסס על אותה משפחת יכולות מתקדמת, אבל שונה מ-Mythos 5 במגבלות המוטמעות בו. הגרסה הציבורית אמורה לזהות שאלות הנוגעות לתחומים שהוגדרו בסיכון גבוה, לחסום את המודל החזק ולהעביר את הבקשה ל-Claude Opus 4.8, דגם קודם ומוגבל יותר.

החסימות נועדו לפעול לא רק מול שאלות מסוכנות וברורות, אלא גם מול ניסיונות לעקוף את הכללים באמצעות ניסוחים עקיפים. אחת הבעיות המרכזיות במערכות בינה מלאכותית היא האפשרות לבצע "פריצת הנחיות", שבה המשתמש מתחזה לחוקר, מחלק בקשה מסוכנת לשלבים קטנים או מנסח אותה כתרגיל תיאורטי.

אנתרופיק. הגנות חדשות במודל
אנתרופיק. הגנות חדשות במודל | צילום: שאטרסטוק

ניסיונות חדשים לעקוף את המגבלות צפויים להתחיל מיד

אנתרופיק מסרה שהמודל עבר בדיקות ממושכות בידי צוותים פנימיים וחיצוניים. במסגרת מבצע לאיתור חולשות הושקעו יותר מ-1,000 שעות בניסיונות למצוא דרך כללית לעקיפת ההגנות, ולדברי החברה לא נמצאה פריצה אוניברסלית שאפשרה לבטל את כל החסימות. עם זאת, גם מערכות סינון מתקדמות לא נחשבות לחסינות לחלוטין, וניסיונות חדשים לעקוף אותן צפויים להתחיל מיד עם הרחבת השימוש במודל.

במקביל ל-Fable 5 השיקה החברה את Claude Mythos 5, גרסה הכוללת פחות מגבלות בתחומי הסייבר, הביולוגיה והרפואה. היא לא זמינה לציבור הרחב, אלא רק למספר מצומצם של גופים שאושרו מראש במסגרת Project Glasswing. אנתרופיק מתכננת להרחיב בהדרגה את הגישה באמצעות תוכנית הרשאות מפוקחת, בהתאם לזהות המשתמש, מטרת השימוש ואמצעי האבטחה שלו.

אנתרופיק טוענת שבחלק ממבחני הביצועים הציג המודל שיפור של יותר מ-10% לעומת Claude Opus 4.8. עם זאת, נתוני ביצועים שמפרסמות יצרניות המודלים לא תמיד משקפים את איכות העבודה בכל משימה בעולם האמיתי, והיכולות יצטרכו להיבחן גם בידי חוקרים ומשתמשים עצמאיים.

איום הסייבר. יכולות תקיפה מתקדמות
איום הסייבר. יכולות תקיפה מתקדמות | צילום: שאטרסטוק

מחיר השימוש: 10 דולר למיליון יחידות קלט

המודל זמין ללקוחות משלמים ולארגונים באמצעות שירותי אנתרופיק ופלטפורמות הענן הגדולות. מחיר השימוש נקבע על 10 דולר למיליון יחידות קלט ו-50 דולר למיליון יחידות פלט, פי שניים ממחירו של Opus 4.8. בחברה טוענים שהעלות הגבוהה עשויה להתקזז בזכות דיוק משופר והשלמת משימות באמצעות פחות פעולות ופחות טקסט.

השקת Fable 5 ממחישה את הדילמה שמלווה את מרוץ הבינה המלאכותית. חברות הטכנולוגיה מבקשות להציע במהירות מודלים חזקים יותר, בזמן שהכלים הנדרשים לפיקוח עליהם מפותחים במקביל. במקרה של Mythos, אנתרופיק החליטה תחילה שכוחו גדול מדי להפצה ציבורית. חודשיים לאחר מכן היא משחררת גרסה מוגנת שלו, אבל משאירה את היכולות הרגישות ביותר מאחורי מנגנון הרשאות.

תגיות:
סייבר
/
בינה מלאכותית
/
AI
/
קלוד
פיקוד העורף לוגוהתרעות פיקוד העורף