מהפכת הווידאו של הבינה המלאכותית: הטריליונים בסכנה והמדע שמאחורי הקסם

בתוך חודשים ספורים התפתחו מודלים גנרטיביים שמסוגלים לייצר וידאו ריאליסטי בלחיצת כפתור, תופעה שמסחררת את עולם הפרסום, השיווק והקריאייטיב. החברות כבר מקצצות ימי צילום

ד"ר איתי גל צילום: מעריב אונליין
מהפכת הווידאו של הבינה המלאכותית
מהפכת הווידאו של הבינה המלאכותית | צילום: AI

גדולי הבימאים וודאי לא העלו בדמיונם שיום יבוא והקלדת פסקה פשוטה תוביל ליצירת סרט שלם, לא רחוק מזה שהם יצרו על פני שנים:  מה שעד לפני כמה חודשים דמה לפנטזיה מדעית הפך למכשיר עבודה יומיומי. גוגל,  OpenAI  וספקיות סיניות משיקות מודלים שמייצרים בתוך דקות סרטונים קצרים שנראים כמו צילום חי. הווידאו הגנרטיבי כבר משולב בפרסומות, בקמפיינים פוליטיים, בהדרכות מקצועיות ואפילו בתכנים אישיים שהמשתמשים מעלים לרשתות.

בהלה קלה, אך גם סקרנות רבה, מלוות את הופעת הכלים החדשים. פרופ' עופר הדר מבית הספר להנדסת חשמל ומחשבים באוניברסיטת בן גוריון בנגב הוא מהחוקרים הבולטים בישראל הבינה המלאכותית, והוא מזהה את גודל המהפכה. לדבריו, לראשונה בהיסטוריה של המדיה ניתן ליצור וידאו מלא מתוך תיאור מילולי בלבד. "מה שאנחנו רואים עכשיו הוא שינוי קיצוני" הוא אומר. "אפשר לכתוב משפט קצר והמחשב כבר מבין איך לבנות ממנו סצנה שלמה שנראית אמיתית".

עבור הקורא שאינו עוסק במדעי המחשב, תהליך ההפקה של וידאו גנרטיבי עשוי להישמע מסתורי. אך למעשה המנגנון שעומד בבסיסו פשוט להבנה, גם אם מורכב לביצוע. המודל מקבל משפט כמו ילדה רצה על החוף בשקיעה ומפרק אותו לאלפי יחידות מספריות זעירות שמייצגות את המשמעות של כל מילה. המערכת יודעת כיצד נראית ילדה, מהי תנועה רציפה, איך נראה חוף, כיצד אור משתנה בשעת ערב וכיצד מצלמה עוקבת אחר אובייקט.

בפועל תהליך היצירה מתחיל דווקא מרעש מוחלט, כמו מסך טלוויזיה ישן שמציג שלג. המודל מנקה חלקיקי רעש בכל צעד ומכוון אותם כך שיתאימו לתיאור הטקסטואלי. בשונה מטכנולוגיות עיבוד תמונה קודמות, כאן לא מתבצע חיבור של תמונות קיימות. המערכת בונה את הסצנה מאפס. היא גם עושה זאת לאורך זמן, לא פריימים נפרדים, כך שהיא מבינה עקיבות בין תנועה לבין המשכיות. לכן סרטוני הבינה החדשים נראים כמו צילום חי ולא כמו אנימציה ממוחשבת.

פרופ' הדר מדגיש שהמהפכה אינה מסתכמת בכישרון יצירתי. היא מערערת על יסודות של אבחנה אנושית. במחקרים שביצע עם עמיתים בגרמניה נמצא כי מערכות בינה מלאכותית זיהו זיופי וידאו בדיוק מוחלט של מאה אחוזים, בעוד בני אדם זיהו רק חלק מהזיופים. "הבינה מלאכותית כבר מבינה דקויות של פנים, תאורה ותנועה ברמה שעולה על הראייה האנושית" הוא מסביר. "זה יוצר מצב שבו מאוד קשה לדעת מה אמיתי ומה נוצר בתוך מחשב".

המשמעות עמוקה במיוחד בעידן שבו הפצת וידאו נעשית בלחיצת כפתור בכל רשת חברתית. האפשרות לייצר אדם שאומר דברים שמעולם לא אמר מעוררת חשש ציבורי אמיתי. "אנחנו נכנסים למציאות שבה סצנה יכולה להיראות אותנטית לחלוטין למרות שמעולם לא התקיימה" אומר הדר. "האתגר המרכזי של המדינות הוא לייצר מסגרת שמגנה על אמון הציבור".

השאלה האם מדינות יצטרכו להתערב ברגולציה של וידאו גנרטיבי כבר אינה תאורטית. פרופ' הדר משוכנע שהדבר בלתי נמנע. "לא נעצור את הטכנולוגיה, היא חזקה מדי" הוא אומר. "אבל נצטרך סימון ברור של תוכן גנרטיבי, כללים של הסכמה, הגנה על פרטיות, ומנגנונים חזקים שימנעו מניפולציות".

לדבריו, יש שלושה מוקדי סכנה מיידיים. הראשון הוא אמון הציבור. ללא סימון קבוע של סרטונים שנוצרו בבינה מלאכותית, לא יהיה ניתן להבדיל בין תיעוד אמיתי לסצנה מומצאת. השני הוא הגנה על אנשים מפני זיוף מכפיש של דמותם. השלישי הוא שמירה על זכויות יוצרים בתקופה שבה אלגוריתמים מלאכותיים מסוגלים להעתיק סגנון אמנותי של צייר אנושי בדיוק כמעט מוחלט.

במחקר שהוא מוביל בשיתוף עם המחלקה לאמנויות באוניברסיטת בן גוריון, מפותחים כיום מנגנונים שמבדילים בין יצירה שנעזרה בהשראה לבין חיקוי עמוק של סגנון. המטרה היא לאפשר יצירה חופשית אך לשמור על אמנים אנושיים. "בינה מלאכותית לא רק יוצרת תמונות חדשות" מסביר הדר, "היא מסוגלת לחקות באופן מדויק את משיחות המכחול. יש כאן שאלה משפטית וכלכלית עמוקה".

גדילת כוחם של המודלים הגנרטיביים מעלה חשש עמוק בתעשיית ההפקות. ככל שהכלים משתכללים, התפקידים המסורתיים של צלמים, מעצבי תפאורה, אנשי תאורה, מאפרים ואפילו שחקנים עשויים להצטמצם. תהליך שהצריך פעם שבועות, צוותים גדולים ותקציב אדיר, עשוי להתבצע בתוך שעות ולערב מספר מצומצם של מומחי פרומפטים.

ועדיין, פרופ' הדר מדגיש כי ההיסטוריה מלמדת אחרת. "בכל מהפכה טכנולוגית הופיעו מקצועות חדשים" הוא אומר. "נראה פחות תפקידים טכניים, אבל יותר תפקידים שמשלבים יצירתיות עם הבנה טכנולוגית". לדבריו, בעתיד המפיקים יהיו גם מעצבי פרומפטים, עורכים מולטי תחומיים ומומחי איכות שיוכלו לבדוק עקיבות פיזיקלית של תנועה או רמת הזיות.

ההשלכות חורגות מהתעשייה היצירתית. בלי יכולת לזהות חריגות בתוכן שמופק, קשה יהיה להבטיח שהציבור מקבל מידע מהימן. לכן במעבדות בעולם ובעיקר במחקריו של הדר, נבחנות כיום שיטות למדידת איכות של וידאו גנרטיבי. המדדים הקלאסיים, שהתבססו על התאמה בין פיקסלים, מתאימים לעידן שבו התמונה הייתה משוחזרת ממקור. אך בעידן הנוכחי הווידאו מומצא, והמבחן צריך להתמקד ביכולת של הסצנה להיות יציבה, רציפה ונטולת עיוותים.

ולדי שבצוב, בן שלושים מחיפה, הפך בתוך חודשים לאחד היוצרים הבולטים בגל החדש. הוא החל להתנסות בכלים של בינה מלאכותית מתוך סקרנות טכנית ובהדרגה הבין שהוא יכול לבנות סרטונים שנראים כמו סצנות קולנועיות.

לדבריו, היתרון הגדול של מודל כמו סורה הוא דווקא בחוסר השלמות שלו. "יש משהו טבעי יותר בחוסר החלקות שלו" הוא מסביר. "שאר המודלים יוצרים דמויות שנראות כמו בובות ראווה. בסורה זה נראה יותר כמו צילום אמיתי". העלות גבוהה והוא נדרש לחשבון פרו, אך לטענתו האיכות מצדיקה את ההשקעה.

שבצוב מתאר כיצד מלאכת היצירה משתנה. במקום ימי צילום ארוכים הוא יושב מול המסך, מנסח פרומפטים מדויקים, בודק רצפים ומחבר סצנות. "זה דורש הרבה ניסוי וטעייה, אבל היום כל אחד כמעט יכול ללמוד את זה" הוא אומר. "הדבר הכי מדהים הוא שכבר עכשיו אפשר לסנכרן שפתיים לעברית. זה לא מושלם, אבל זה מתקרב לזה".

היום המודלים יכולים להפיק רק פרקי וידאו קצרים. אך המומחים בתחום בטוחים כי הגבלת האורך תיעלם תוך זמן קצר. שבצוב מעריך כי בתוך חצי שנה יופיעו מודלים שמסוגלים להפיק סרטונים של דקה או שתיים. פרופ' הדר הולך רחוק יותר. לדבריו, הדורות הבאים של הטכנולוגיה לא יתבססו על וידאו שמאוחסן בקובץ כבד. במקום זאת יישלח לצופה תיאור סמנטי קצר והמסך שלו יפיק את הסרט בזמן אמת.

"המעבר יהיה מדחיסת פיקסלים לדחיסת משמעות" הוא מסביר. "הטלוויזיה תבנה את הסצנה בבית. הצופה יוכל לשנות דמויות, לעצב את העלילה ואפילו להכניס את עצמו לסרט. הכלים האלו יכולים לפגוע, אבל הם יכולים גם להעצים. מי שילמד להשתמש בהם יוכל להוביל את עולם התוכן של העשור הקרוב. זה לא סוף היצירה האנושית, אלא תחילת עידן חדש שבו הטכנולוגיה והדמיון האנושי עובדים יחד".

העמוד שלו בטיקטוק נע בין שני עולמות שהוא מחבר ביניהם באופן טבעי. האחד הוא מתמטיקה מעשית שמסתתרת בתוך החיים שלנו, תופעות שרובנו מכירים אך לא יודעים שיש להן הסבר מספרי מדויק. השני הוא למידה על למידה, התבוננות בתהליך שבו אדם מתמודד עם אתגר חדש, עם הצלחות קטנות ועם רגעים פחות פשוטים. כאן נכנס גם הג׳אגלינג, תחום שהוא מלמד מאז גיל 15 ומשמש עבורו כלי חי ללמידה, לתרגול ריכוז ולהבנה של דפוסים.

מרגלית מספר שהוא בוחר את הנושאים לפי רגעי הוואו האישיים שלו, כאלה שגורמים לו לעצור ולהגיד לעצמו שזה פשוט מגניב. המוטו שלו הוא לעורר למידה אקטיבית, להראות שגם בתוך סרטון קצר אפשר לגלות משהו חדש, רלוונטי ולפעמים אפילו מפתיע על העולם שסביבנו.

אתם עדיין לומדים למבחנים רק מקריאת הסיכומים? הגיע הזמן להתקדם למהפכת הבינה המלאכותית, ו- NotebookLM  של גוגל עושה את זה ובגדול. מדובר באחד הכלים החדשניים ביותר שנוצרו ללמידה אישית. במקום לשבת מול עמודים ארוכים של חומר, מעלים את המסמך למערכת ונותנים לה לבצע עבורכם את העבודה הכבדה. הכלי מסכם, מחדד מושגים, מייצר שאלות חזרה וגם מאפשר לנהל עם החומר שיחה שתפרק כל נושא מורכב לרעיונות פשוטים וברורים.

אחד הפיצ'רים המרשימים הוא הפקת פודקאסט לימודי אישי. המערכת יוצרת שיחה בין שני דוברים שמסבירים את הנושא שהעליתם, שואלים שאלות, מציעים דוגמאות ומבליטים את עיקרי הדברים. זה פתרון מושלם למי שרוצה ללמוד בדרך, באוטובוס או תוך כדי הליכה.

פיצ'ר נוסף הוא יצירת אינפוגרפיקה אוטומטית מרהיבה: NotebookLM מאתר את נקודות המפתח, מעביר אותן לגרפיקה ברורה, ומאפשר להבין תהליכים, השוואות ומבנים בצורה אינטואיטיבית ומהירה. במילים אחרות, גוגל מאפשרת לכם לראשונה להפוך את הסיכומים או הספר המשעמם למשהו חי שאפשר לשוחח איתו. אפשר לבקש ניסוח פשוט, דוגמאות, תרגול לפני מבחן, בדיקת הבנה או הסבר מעמיק על חלק מסוים. הכלי מתאים במיוחד לסטודנטים, לאנשי רפואה, למרצים, ולכל מי שצריך להתמודד עם עומס מידע בזמן קצר.

תגיות:
קולנוע
/
בינה מלאכותית
פיקוד העורף לוגוהתרעות פיקוד העורף