- ד”ר טלי דקל ניצבת בחזית המחקר של generative AI ושותפה לפיתוח לומייר – מחולל הווידאו של גוגל. “אנחנו רוצים לדעת אם מכונות יכולות לאפשר לנו לראות טוב יותר את העולם”, היא אומרת
לפני שנים ספורות זה היה נשמע דמיוני לגמרי. מדי יום, מיליוני אנשים בעולם מפעילים בקלות מערכות של בינה מלאכותית יוצרת (generative AI) שמפיקות במהירות מסחררת טקסטים, תמונות וסרטונים. חלק מהתוצרים נראים כאילו הם מעשה ידי אדם, ואילו אחרים מציגים מראות שמעולם לא התקיימו.
ההתקדמות המהירה של מודלי שפה גדולים (LLM), שלאחר שנים ארוכות של פיתוח החלו לייצר טקסטים מורכבים ואמינים למדי, הפתיעה אפילו את המומחים בתחום. כתוצאה מכך, הופנה זרקור גם אל המודלים היוצרים תמונות וסרטונים – והפיתוח שלהם הואץ. כיום, מודלים אלה מסוגלים ליצור בתוך שניות סרטון מציאותי של רחוב עירוני או של סנאי מטייל על הירח, כשכל מה שנדרש הוא להזין אליהם טקסטים קצרים או להציב בפניהם תמונות בתור מקור ויזואלי. אך לצד היכולות האדירות והחששות מן הסיכונים הטמונים במחשבים בעלי עוצמות כאלה, טווח הפעולה של רשתות הלמידה העמוקה עדיין מוגבל, במיוחד בכל הקשור לווידאו, וזהו אתגר שמעסיק מדענים רבים.
אבל איך מודלים של למידה עמוקה מצליחים לבצע את הקסמים האלה? מתברר שגם למדענים הדבר אינו ברור לגמרי. מסבירה ד”ר דקל: “התחום של הבינה המלאכותית היוצרת עבר שינוי פרדיגמה. בעבר הלא רחוק, המודלים היו הרבה יותר קטנים, פשוטים ונועדו לפתור משימות ספציפיות, לרוב על ידי שימוש במידע מתויג. לדוגמה, על מנת ללמד מחשב לזהות אובייקטיבים בתמונות, היה צורך להציג בפניו אוסף תמונות שבו הם מתויגים ולהסביר לו שכאן ישנה מכונית, שם ישנו חתול וכך הלאה. כיום, המודלים גדלו והשתכללו והם מסוגלים ללמוד מכמות עצומה של מידע, ללא תיוג אנושי. המודלים לומדים ייצוג אוניברסלי של העולם החזותי שיכול לשמש למגוון משימות, ולא רק למשימה הספציפית שאליה הם אומנו מלכתחילה”. אך בעוד ששכלול יכולת הלמידה העצמית של המודלים ניכר לעין, אנחנו עדיין לא יודעים איך בדיוק הם פועלים. “חלקים ניכרים מרשתות הבינה העצבית הם ‘קופסאות שחורות’ עבורנו”, מוסיפה ד”ר דקל. האנגימה מתחדדת כשמדובר במודלים שיוצרים סרטונים, מכיוון שכל שנייה של סרטון מורכבת מכ-25 תמונות שונות, ולכן הגודל של רשתות המחשבים הנדרשות לשם כך, והאתגרים החישוביים שעמם הן מתמודדות, מתעצמים עוד יותר ביחס למודלים שיוצרים טקסטים או תמונות – וכך מתרחב גם טווח הפעולה שאינו מובן לחוקרים.
מבחינתה של ד”ר דקל, ה”קופסאות שחורות” של המודלים הן הזדמנות פורה למחקר: “תוך כדי תהליך הלימוד העצמי, המודלים צברו ידע אדיר על העולם. כחלק מהמחקר על יצירה מחדש של המציאות בכלים דיגיטליים, אנחנו מנסים להפיק תוצרים חדשים מהמודלים הקיימים כמעט בלי לשנות אותם, אלא רק על-ידי פענוח טוב יותר של דרכי הפעולה שלהם תוך ניסיון לחשוף משימות חדשות שאותן הם מסוגלים לבצע”, אומרת ד”ר דקל על המחקר שבו שותפים ד”ר שי בגון ממכון ויצמן למדע, יוני קסטן מאנבידיה והסטודנטים עומר בר טל, נרק טומניאן, מיכל גייר, רפאיל פרידמן ודנה יתים.
החוקרים במעבדה של ד”ר דקל מחפשים אחר דרכי עיבוד חכמות הכוללות פירוק התוכן למרכיבים פשוטים יותר, כמו תמונה המציגה את הרקע של הסרטון ותמונות אחרות שכל אחת מהן מוקדשות לאובייקטים המשתנים במהלך הסרטון. הפרדה זו מקלה מאוד על העריכה: במקום לעבד מספר אדיר של פיקסלים, נערכת תמונה אחת בלבד וכל הפריימים האחרים משתנים בהתאם. לדוגמה, אם צבע של שמלה משתנה בפריים אחד, המודל מבין איך לעדכן את השינוי בסרטון כולו כדי שההמשכיות תישמר. אתגר נוסף שמעסיק את החוקרים נובע מהעובדה שתוצרים רבים של המודלים אינם נראים אמינים והאובייקטים שמופיעים בהם נעים באופן שונה מכפי שהיינו מצפים על פי ניסיוננו בעולם.
במסגרת המאמצים לגרום למודלים להפיק סרטונים שבהם התנועה היא עקבית והגיונית, במעבדה של ד”ר דקל הראו איך ניתן להרחיב את היכולת של מודל שמייצר תמונה על פי טקסט – כך שיוכל גם ליצור ולערוך סרטונים. לדוגמה, הם הזינו למודל בקוד פתוח שנקרא Stable Diffusion סרטון של זאב שמסיט את ראשו מימין לשמאל, וביקשו ממנו ליצור סרטון דומה שבו מופיעה בובה סמרטוטית הדומה לזאב. בתחילה הסרטון שיצר המודל נראה מקוטע ולא אמין, אבל על-ידי זיהוי הייצוגים של המרכיבים השונים בתמונות והבנה מעמיקה יותר של ההוראות שאותן יש להזין למודל – החוקרים הצליחו לגרום ליצירה של סרטון שבו בובת הזאב נעה באופן משכנע.
באחרונה קיבלה ד”ר דקל מענק של מועצת המחקר האירופית (ERC) לחוקרים צעירים בסכום של 1.5 מיליון יורו. במסגרת המענק, היא מתכננת להתמודד עם מגבלות נוספות שמעכבות את המודלים בדרכם ליצירה ולעריכה של סרטונים. בשל המורכבות הרבה של עיבוד וידאו, ישנו פער משמעותי בין הידע שמודל כזה צבר מהסרטונים הרבים שבאמצעותם הוא התאמן, לבין המאפיינים הייחודיים של תנועה בסרטון מסוים שאותו מבקשים מהמודל ליצור. ד”ר דקל תנסה לפתח מודל שיוכל להסיק טוב יותר מהניסיון הנצבר שלו על אלפי סרטונים שונים לגבי הצרכים של סרטון אחד בודד.
ומה לגבי החששות מפני העוצמה האדירה הטמונה במודלים הממוחשבים? ד”ר דקל אומרת: “ישנו איזון עדין בין המודעות להשפעה של הטכנולוגיה, על הסיכונים הטמונים בכך, לבין הרצון לקדם אותה, וזו המחויבות שלנו לשמור על כך. ייתכן שלפעמים נדמה לציבור הרחב כאילו המודלים הם כל-יכולים, אבל זה אינו המצב כיום. המטרה המרכזית שלי בתור חוקרת היא להרחיב את האפשרויות היצירתיות שעומדות בפני כל אחד, גם מי שהם לא אנשי מקצוע, ולקדם את המדע ואת היכולת החישובית לראות את העולם”.
עוד בנושא באתר הידען: