במפגש הבכירים של כנס ChipEx2025 ערך יו"ר הכנס ומנכ"ל ASG שלמה גרדמן שיחה עם מיכאל כגן, ה-CTO של אנבידיה, שצמח באינטל ולאחר מכן במלאנוקס שנרכשה על ידי אנבידיה.
גרדמן: מייקל, אתה נולד בסנקט פטרבורג למשפחה שסבלה מרדיפות פוליטיות קשות – כיצד הרקע הזה עיצב את הגישה שלך לאתגרים אישיים ומקצועיים?
כגן: “אני נושא איתי את המורשת של סבי, שנתלה ב־1937 לאחר שסירב לוותר על עקרונותיו, ואת סיפורו של אבי, פיזיקאי דוקטורנט שנשלח לכלא למשך 11 שנה בשל ביקורת על המשטר. הבינו אותי שלא מדובר רק בטראומה אישית, אלא בשיעור לא רגיל בחוסן נפשי ובמאבק למען ערכים. מהר מאוד הבנתי שהיכולת להמשיך קדימה למרות כישלונות היא לא בחירה, אלא הכרח. בקריירה, כשמשהו לא הלך כפי שתיכננתי – דחייה, כישלון טכני או מחסור במשאבים – תמיד חיפשתי כמה צעדים קדימה כדי להבין איך להפוך את המכשול להזדמנות. המוטו שלי הפך להיות: אם משהו נראה כמו סוף העולם, זו ההזדמנות הגדולה ביותר שלך. ערך זה הוא זה שהוביל אותי לחקור רעיונות חדשניים, להקים מיזמים חדשים ואף לקחת סיכונים שבאחרים היו נרתעים מהם.”
גרדמן: בגיל 18 נדחת ממוסדות הלימוד ברוסיה בשל שמך – מה הניע אותך לבחור בדרך הבריחה לישראל, ולא לוותר על עתיד אקדמי?
כגן: “הדחייה ממוסדות ההשכלה הגבוהה ברוסיה הייתה קשה ומרגיזה. הסתכלתי סביב וראיתי שאם אלך לצבא הרוסי, אני עלול למצוא את עצמי מותש, ברוטציה אינסופית שמונעת ממני לבנות עתיד. זה הוביל אותי למחשבה שיש מקום אחר שבו אוכל להגשים את שאיפותיי – ישראל. לא הכרתי אף אחד בארץ, לא ידעתי אפילו מילה בעברית או אנגלית, אבל הייתי נחוש. הנחישות הזו ניזונה מאמונה שעולם גדול מחכה, ושכדי להצליח צריך לפעמים לקבל החלטות קיצוניות. ההגירה לישראל הייתה צעד ראשון במסע למצות את הפוטנציאל שלי: שכירת דירת חדר קטן, לימוד השפות בעזרת חברים דוברי רוסית, והסתגלות לתרבות חדשה. ערך קבלת הסיכון הזה מלווה אותי עד היום, כשאני מנתח פעולות ואסטרטגיות עסקיות מורכבות של NVIDIA.”
גרדמן: איך למדת להסתדר בטכניון ללא שליטה בעברית או אנגלית, ולפתח יכולת למידה עצמאית ברמה אקדמית גבוהה?
“ההגעה לטכניון הייתה שיא האתגר. ההרצאות התקיימו בשפה זרה לי, ולכן הייתי מסתמך על קבוצת חברים דוברי רוסית שתרגמו במילים פשוטות את החומר. עם הזמן פיתחתי שיטה: אני מאזין להרצאה פעם ראשונה כדי לתפוס את הקו הכללי, פוגש חבר שמסביר לי בעילום שם ובעיבוד מילולי, ואז קורה חיבור פנימי בין לבין. בנוסף, הייתי מגיע לספריה שעות אחר שעות, לומד מהספרים והמחברות, מתרגל בעזרת תרגילי סוף פרק, ומשחזר לעצמי את השפה הטכנית באנגלית דרך מילון. עם סיום כל סמסטר, הבנתי לא רק חומר לימודי, אלא גם צברתי מיומנות למידה מהירה בסביבה רבת מידע ושפה מורכבת—מיומנות שהיום מסייעת לי להתעדכן בטכנולוגיות חדשות ולהטמיע מידע במהירות בארגון גלובלי כמו NVIDIA.”
גרדמן: במהלך עבודתך בצוות פיתוח המעבד Intel 487 והובלת תכנון ארכיטקטורת שבבים, מה למדת על החדשנות בעיצוב חומרה וכיצד זה משפיע על אסטרטגיה טכנולוגית?
“בתקופת Intel 487 למדתי שכל הצלחה טכנית היא תוצאה של שילוב בין ראייה רחבה ותשומת לב לפרטים קטנים. המעבד 487 דרש איזון בין מהירות חישובית, צריכת אנרגיה וקומפקטיות פיזית. הבנתי שיש שתי דרכים: אחת, להמשיך לדחוס את מה שיש ולנסות לשפר בו את הביצועים, והשנייה — לצאת לגמרי מפרדיגמת העיצוב הנוכחית וליצור ארכיטקטורה שמנצל פלטפורמות חדשות, דרכי תקשורת ואופטימיזציה של זיכרון. המחקר שם הוביל אותי למסקנה שאם רק נמשיך לדחוף תוספים לחומרה נוכחית, נגיע לגבול פיזיקלי מהר. לכן למדנו לחשוב ‘במחזור הבא’ — לחשוב על פלטפורמה שלמה, ולא על שבב בודד. גישה זו הובילה בהמשך לפיתוחים ב־Mellanox ולאחר מכן לפלטפורמות AI של NVIDIA, שבהן החומרה והפרוטוקולים עובדים כיחידה אחת.”
שאלה 5: מדוע עזבת את אינטל כדי להצטרף כמייסד ל־Mellanox, ומה היו השיקולים המקצועיים והמשפחתיים שהנחו את ההחלטה?
תשובה:
“ב־1999 הייתי מנהל בפרויקט גדול באינטל, עם הצעה לנדוד לסנטה קלרה ולנהל צוות בארה״ב. באותם ימים נולדה הבת הרביעית שלי, והייתי במחלוקת בין המשך ביטחון תעסוקתי לבין הצורך ליצור משהו חדש. כשחבר לשעבר, יעל ולמן, הציע לי להצטרף לסטארט-אפ שיפתח רשת חישובית חדשה (InfiniBand), הבנתי שההזדמנות לעצב פרוטוקול שיחבר מרכזי נתונים כישות אחת היא נדירה. השיקול היה גם אישי: רציתי להישאר בישראל ליד המשפחה, וגם מקצועי: הרגשתי שאני יכול להשפיע בצורה עמוקה בהרבה סטארט-אפ קטן מאשר במגדל השן של אינטל. לקחתי שנה של חשיבה, פגישות, ודיונים עם איקרתי, אשתי, לגבי סיכונים כלכליים ותמיכה משפחתית. כשהשתכנעתי שבתוך הסטארט־אפ אצליח לממש רעיון שיקבע את עתיד התשתיות, חתמתי – ואחרי כמה שנים ראינו את Mellanox מובילה את שוק חיבורי הענן.”
גרדמן: כיצד צמח במוחך הלהט של פיתוח InfiniBand, ואיזה תפקיד שיחקה גישת ה־“Morphing Cloud” בעיצוב מרכזי הנתונים המודרניים?
כגן: “הרעיון נולד מתוך תסכול מול מגבלות התקשורת במחשוב-על. כשעבדנו ב־Intel על תהליכי סימולציה, גילינו שהקשר לשרת מירכזות ירושלים נעשה פקוק ויקר. חשבנו: מה אם נרשה למחשבים שוליים לשתף זיכרון ויכולות חישוב כאילו הם חלק ממחשב ענק אחד? כך נוצר הקונספט של “Morphing Cloud” — שינוי מצב הדינמי שבו כל יחידת חישוב מתפקדת כחלק ממערכת משותפת. בפרקטיקה, זה אומר קישוריות רשת ברוחב פס גבוה מאוד ושיהוי נמוך – המרכיבים העיקריים של InfiniBand. החזון הזה סלל את הדרך למבני ענן שבהם שרתים, זיכרון ואמצעי אחסון פועלים כיחידה אחת, מה שמאפשר כיום להריץ מודלי AI ענקיים בסקלות שלא היינו מצליחים להגיע אליהן עם ארכיטקטורת TCP/IP קונבנציונלית.”
גרדמן: כ־CTO של NVIDIA, כיצד אתה מגדיר את התפקיד של בינה מלאכותית כ"שותפה" עבורך, בהשוואה לכלי מסורתי?
כגן: “אני מביט על AI לא ככלי סטטי, אלא כישות למידה מתמשכת. בכל פעם שהמודל לא מספק את הפלט הרצוי, אני לא זורק אותו — אני מלמד אותו מחדש באמצעות דוגמאות נוספות או התאמת פרמטרים. זו אינטראקציה, תהליך שני־כיווני שבו אתה מוביל ומכוון את ה־AI. כלי סטטי, לעומת זאת, מבצע פקודה חד־פעמית. ב־AI, התהליך הוא כמו עבודה עם עמית: אתה מסביר, מתקן, נותן פידבק, והמנוע משתפר בכל סבב. גישה זו מאפשרת לנו בפיתוח שבבים ומערכות חישוב להתאים את החומרה לדרישות המודל, ולתכנת את התוכנה כך שתנצל את המשאבים הקיימים באפקטיביות מרבית. השותפות הזו מאפשרת ל־NVIDIA להעביר אסטרטגיה עסקית וטכנולוגית למרחבים חדשים ללא גבולות שהיו קיימים לפני כן.”
גרדמן: מהם האתגרים העיקריים שאתה מזהה בניהול מרכזי נתונים בסקלת ענק, במיוחד בכל הנוגע להפצה וניהול אנרגיה?
“אם בעבר בנינו מרכזי נתונים קרוב למקור כוח ולכן קרוב לעיר, היום אנחנו נדרשים לחשוב בקנה מידה גלובלי: הבעיה המרכזית היא לא רק אספקת חשמל בכמות מספקת, אלא גם הפצתו והטמעתה במקום שיכול להתמוטט מבחינה לוגיסטית. יש אזורים בעולם — למשל באוקיינוסים או באזורים מדבריים — שבהם יש עושר של אנרגיה מתחדשת שלא מנוצל. הפתרון שאני רואה הוא פריסה מבוזרת של “מצבורי” מודלים מרוחקים, בהם מאמנים את ה־AI במקומות עם אנרגיה זמינה, ואז שולחים רק משקלי המודל ונתוני ההפעלה למרכזים היותר קרובים למשתמש. כך מצמצמים תעבורת נתונים כבדה, חוסכים עלויות חשמל ותפעול, ומייעלים את הניהול הבינלאומי של המשאבים. זה דורש תכנון רשתות תקשורת חוסכות עצם, מערכות קירור חדשניות, ותשתיות תוכנה שמסנכרנות בין אתרים מרוחקים בזמן אמת.”
גרדמן: לאחר שאינטגרטת את Mellanox לתוך NVIDIA, כיצד משלימות זו את זו יכולות התשומות החומרה והתוכנה כדי לספק פלטפורמת חישוב אחודה?
קגן: “הרעיון המרכזי הוא להתייחס ל־Data Center כמחשב יחיד גדול, עם מערכת הפעלה ייעודית. מצד אחד יש לנו את מעבדי הווקטורים הגרפיים של NVIDIA שמבצעים מיליארדי חישובים במקביל, ומצד שני את רכיבי ה-BlueField של Mellanox שמנהלים את התקשורת והאבטחה ברמת הברזל. השילוב הזה מאפשר למנותבי התעבורה להעביר נתונים בתוך ובין שרתים בקצבים אסטרונומיים ובשיהוי של אלפיות השנייה. השכבה של התוכנה — SDKs, ספריות תקשורת יעילות, מערכות קירוּר מבוזרות — מפעילה את הרכיבים החומרתיים כך שהאינטגרציה תהיה חלקה ונטולת כשלים. התוצאה היא פלטפורמה שבה AI, סימולציות מדעיות ואינטליגנציה ארגונית רציפה יכולים לרוץ כעל מחשב-על אחד, בלי פשרות בין חומרה לתוכנה.”
גרדמן: לסיום, מה העיקרון המנחה אותך לאורך כל הקריירה, מיום בריחתך לישראל ועד לתפקידך הנוכחי כ־CTO של ענקית הטכנולוגיה NVIDIA?
קגן: “העיקרון שקבע את מסע חיי הוא פשוט אך עוצמתי: ‘עשה מה שצריך להיעשות.’ בכל פעם שנתקלתי במחסום, בין אם זה דחייה מגורמים אקדמיים, אתגרים טכניים בפרויקטים גדולים, או הצורך לאזן בין עבודה לחיי משפחה, חיפשתי קודם כל את הצעדים הממשיים שנדרשים כדי להתגבר. גישה זו מחייבת אחריות אישית, מנהיגות באמון ובנתינת דוגמה, וקבלת החלטות שלעיתים דורשות אומץ ולאו דווקא נובעות מנתונים טהורים. כשאנשים שואלים אותי איך הגעתי עד הלום, התשובה היא: לא היה לי מדד אחר. כשאתה מתרכז בלבצע את המשימה הנכונה – כל יתר ההצלחות נוצרות מאליהן.”קגן