ניהול תיאבון האנרגיה של ה-AI: תפקידם של המודלים הקטנים 

בעולם מוגבל באנרגיה, מודלים קומפקטיים של בינה מלאכותית הם בחירה חכמה, ומתגלים כחזית חדשה בטכנולוגיה הארגונית

מעריב אונליין - לוגו צילום: מעריב אונליין
בינה מלאכותית
בינה מלאכותית | צילום: שאטרסטוק

אי אפשר להכחיש את הפוטנציאל הטרנספורמטיבי של הבינה המלאכותית, אבל מאחורי הקלעים מסתתרת אמת מטרידה - האימון והפריסה של מודלים רבי-עוצמה, במיוחד מודלי השפה הגדולים (LLMs), דורשים כמויות עצומות של אנרגיה. עם מגבלות האנרגיה שמדינות מתחילות להטיל על מרכזי נתונים ועל רקע הגידול העצום בעומסי עבודה של בינה מלאכותית, מתכנתים, מפתחי תוכנה ועסקים מתמודדים עם מציאות חדשה, שבה מוטלת עלינו המשימה לחדש ולפתח בעולם שבו האנרגיה מוגבלת, ולנטוש את הפרדיגמה הישנה שהניחה זמינות משאבים בלתי מוגבלת.

המהלכים הרגולטוריים האחרונים בארה"ב מאותתים על שינוי בלתי הפיך לעבר מציאות שבה יעילות אנרגטית עומדת בלב תכנון תשתיות AI  ואסטרטגיית פריסה של בינה מלאכותית.  לאחר מספר שנים שבהן מדינות כמו סינגפור ומדינות האיחוד האירופי הטילו מגבלות דומות, גם מדינות בארה"ב, בהן טקסס, אורגון, דלאוור ואילינוי, מציגות כעת תקנות שנועדו להפחית את העומס של מרכזי נתונים על רשתות האנרגיה המקומיות. עבור מפתחי בינה מלאכותית, המשמעות היא אימוץ גישות חלופיות שמעדיפות יעילות אנרגטית ותשתיות מחשוב חכמות.

למרבה המזל, חדשנות בבינה מלאכותית מוכיחה שאפקטיביות לא תלויה בגודל בלבד. בעוד שמודלי השפה הגדולים משכו את מירב תשומת הלב, יותר ויותר צוותי פיתוח AI פונים למודלי שפה קטנים (SLMs) המשמשים כחלופה ממוקדת, יעילה וחסכונית במשאבים, אשר יכולה להתאים יותר לשימוש ארגוני. מודלים אלו כוללים לרוב פחות מ-10 מיליארד פרמטרים, לעומת מאות מיליארדים ואף טריליונים ב-LLMs, והם מהווים חלופות ברות קיימא בתנאים של מגבלות מחשוב, עיבוד מהיר והשהיה נמוכה. למעשה, אפילו ה-GPT-5 של OpenAI משלב מעבר דינמי בין מודלים קטנים וגדולים בהתאם למורכבות השאלה, תוך הסתמכות על מודלים קטנים למשימות פשוטות ומודלים גדולים יותר למשימות מורכבות.

ארגונים נטו בעבר לזלזל ב-SLMs, בשל חשש לביצועים נחותים ברמה הארגונית, קושי להתרחב או היעדר ידע נרחב עקב נתוני אימון צרים יותר. רבים חששו שהמודלים הללו יתגלו כחסרים בכל הנוגע לניתוח מורכב, יכולות רב-לשוניות והתמודדות יעילה עם ניואנסים ועמימות. עם זאת, רבות מהתפיסות השגויות לגבי SLMs הופרכו בשנה וחצי האחרונות.

בבסיס המעבר למודלי שפה קטנים ניצבת ההכרה ההולכת וגוברת בכך שאיכות הנתונים, ולא הכמות, היא המפתח לביצועים טובים. במקום מאגרי מידע עצומים, גולמיים ולא מסוננים, בחלקם גם כפולים או לא רלוונטיים, המודלים הקטנים מתבססים על מה שמכונה עקרונות 'יעילות נתונים', שבהם מערכי נתונים נאצרים בקפידה, תוך מחשבה על דיוק ורלוונטיות, מה שמשפר את הדיוק במשימות ממוקדות ומצמצם בזבוז אנרגיה.

למעשה, הגישה הממוקדת של פיתוח מודלי שפה קטנים ייעודיים, המאומנים על מערכי נתונים באיכות גבוהה שנאצרו בקפידה, שיפרה משמעותית את הדיוק במשימות ספציפיות, תוך הפחתת חוסר היעילות שמאפיין את המודלים הגדולים. המודלים הקטנים מצטיינים ביכולתם לעבור התאמה מהירה(fine-tuning)  וניתן לעדכן אותם בתדירות גבוהה יותר, מה שהופך אותם לגמישים ואידיאליים לסביבות דינמיות. בנוסף, SLMs מושכים ארגונים בזכות קלות הפריסה והניהול שלהם, ובשל היותם מתאימים לסביבות קצה, כמו מפעלים חכמים, שבהם יעילות אנרגטית היא גורם קריטי.

דוגמאות רבות לשימוש מוצלח במודלי שפה קטנים צצות כיום במגוון תחומים. קמעונאים משתמשים במודלים רזים יותר של בינה מלאכותית כדי להפעיל צ’אטבוטים לתמיכת לקוחות, בעוד שסמארטפונים ומכשירים לבישים המצוידים ב-SLMs מאפשרים תרגום בזמן אמת. בתחום הרפואה מאומצים המודלים כדי לתמוך ברופאים הפועלים תחת מגבלות זמן ומשאבים, זאת באמצעות ניתוח מהיר של תסמיני מטופלים, תוצאות מעבדה ומידע רפואי מגוון, המאפשר הפקת אבחנות אפשריות והצעת צעדים טיפוליים. מעבר לכך, לא רק שניתן להתאים SLMs ליישומים מגזריים ספציפיים, על בסיס ידע מעמיק ספציפי לתחום, הם גם מתבלטים בזמני ניתוח מהירים יותר, שיהוי נמוך יותר ודרישות חומרה מצומצמות, תכונות ההופכות אותם לכלים יעילים, נגישים וברי-קיימא עבור מגוון תעשיות.

לצד העלייה בפופולריות של מודלי שפה קטנים, גם מודלים ב- Open-Weights מתבססים כחלופה יעילה אנרגטית למודלי שפה גדולים. מודלים המבוססים על ארכיטקטורת Blend of Experts (MoE) מושכים מפתחים המודעים לחשיבות היעילות האנרגטית, משום שהם מפעילים רק חלק קטן מהפרמטרים שלהם בכל שלב חישוב, ובכך מפחיתים באופן דרמטי את משאבי המחשוב והאנרגיה הנדרשים לכל משימה.

כך לדוגמה, מודל עם מאה מיליארד פרמטרים עשוי להזדקק רק לחמישה מיליארד בכל פעם. ומכיוון שמודלים במשקל פתוח ניתנים לפריסה מקומית ולכיוונון לצרכים ייעודיים, הם גם מקלים על העומס האנרגטי של תשתיות הענן, ולכן מתאימים במיוחד לסביבות קצה וליישומים ארגוניים שבהם יעילות אנרגטית היא קריטית. דוגמה עדכנית היא השקת gpt-oss-20b, מודל במשקל פתוח שיכול לרוץ על חומרת משתמש רגילה עם זיכרון של 16GB בלבד. הלקחים מהשנתיים האחרונות מראים כיSLMs  יכולים להיות יעילים לא פחות מ-LLMs , זולים יותר לתפעול, ולהצליח במשימות שאינן דורשות בסיס ידע רחב במיוחד.

כדי לשרוד את השלב הבא של פיתוח הבינה המלאכותית, ארגונים יצטרכו לחייב את צוותי הבינה המלאכותית להציב את היעילות האנרגטית כעקרון יסוד ולשקול השלכות אנרגטיות בכל שלב במחזור החיים של הבינה המלאכותית, החל מניהול נתונים, דרך עיצוב ארכיטקטורת המודל ועד לפריסה בפועל. על ידי יישום חשיבה הוליסטית המבוססת על מחזור חיים שלם של אתגריIT , מפתחים יוכלו לחדד את שיטות העבודה שלהם ולהצית מחדש את היצירתיות בגל הבא של התפתחות הבינה המלאכותית.

תגיות:
בינה מלאכותית
/
AI
פיקוד העורף לוגוהתרעות פיקוד העורף