מחקר: סוכני AI עלולים לצרוך פי 136 יותר אנרגיה משאילתת בינה מלאכותית רגילה

חוקרי KAIST מצאו כי סוכני בינה מלאכותית מפעילים את מודל השפה שוב ושוב, ממתינים לכלים חיצוניים ומשאירים מעבדים גרפיים יקרים ללא עבודה במשך חלק ניכר מזמן הביצוע. בתרחיש קיצוני של מיליארדי בקשות ביום, הספק מרכזי הנתונים הנדרש עשוי להתקרב ל־200 גיגה־ואט

המעבר מצ'אטבוטים המשיבים על שאלה יחידה לסוכני בינה מלאכותית שמפרקים משימות לשלבים, מפעילים כלי תוכנה ובודקים את תוצאותיהם עלול להגדיל מאוד את צריכת האנרגיה ואת עלויות התשתית. מחקר של המכון המתקדם למדע וטכנולוגיה של קוריאה, KAIST, מצא כי משימה המבוצעת באמצעות סוכן AI עשויה לצרוך עד פי 136.5 יותר אנרגיה משאילתת בינה מלאכותית גנרטיבית רגילה.

המחקר, שהוצג בסימפוזיון IEEE הבינלאומי לארכיטקטורת מחשבים בעלי ביצועים גבוהים, HPCA 2026, ניתח את התנהגותם של סוכני AI מנקודת המבט של מרכז הנתונים. החוקרים מדדו את מספר הפניות למודל השפה, זמני ההמתנה, ניצולת המעבדים הגרפיים וצריכת החשמל של כמה שיטות לביצוע משימות מורכבות. המאמר פורסם גם כהדפסה מקדימה תחת הכותרת The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective. (arXiv)

לא שאילתה אחת אלא שרשרת של הפעלות

בשירות בינה מלאכותית רגיל, המשתמש שולח בקשה ומודל השפה מייצר תשובה. סוכן AI פועל בצורה מורכבת יותר: הוא מתכנן את המשימה, מנסח בקשות משנה, מפעיל חיפוש, מחשבון או סביבת קוד, בוחן את התוצאה ולעיתים חוזר על התהליך.

כל שלב כזה עשוי לדרוש קריאה נוספת למודל השפה. מספר הפעלות המודל אינו בהכרח ידוע מראש, משום שהוא תלוי בתוצאות הביניים ובהחלטות שמקבל הסוכן במהלך המשימה.

החוקרים מכנים התנהגות זו "היגיון דינמי". בניגוד להסקה בעלת מסלול קבוע יחסית, הסוכן יוצר בזמן הביצוע גרף משתנה של פעולות חישוב, תקשורת והמתנה לכלים חיצוניים.

התוצאה היא עומס עבודה שונה מזה שעבורו תוכננו רבים ממרכזי הנתונים הנוכחיים. הביצוע אינו רצף רציף של פעולות על ה־GPU, אלא מעבר תכוף בין חישוב במודל השפה, פעילות של מעבד מרכזי, גישה לרשת, חיפוש במאגרי מידע והפעלת תוכנות.

עד פי 153.7 בזמן התגובה

לפי המחקר, ריבוי הפניות למודל וההמתנה לכלים חיצוניים עשויים להאריך את זמן התגובה עד פי 153.7 בהשוואה להסקה רגילה המבוססת על שרשרת חשיבה.

במהלך ההמתנה, המעבד הגרפי שהוקצה לבקשה אינו תמיד מסוגל לעבור ביעילות לעבודה אחרת. החוקרים מצאו שבתרחישים מסוימים נותרו יחידות ה־GPU ללא פעילות עד 54.5% מזמן הביצוע הכולל.

מדובר בבעיה כלכלית ולא רק אנרגטית. GPU המשמש להסקת מודל גדול הוא אחד הרכיבים היקרים ביותר במרכז נתונים. אם המאיץ שמור למשימה אך אינו מבצע חישוב במשך מחצית מזמן העבודה, עלות ההון אינה מתורגמת לניצולת בפועל.

עומסי סוכנים מציבים אפוא אתגר למתזמני משימות. עליהם לדעת לפנות משאבים בזמן שהסוכן ממתין לכלי חיצוני, להעביר אליהם בקשות אחרות ולהחזיר במהירות את המשימה המקורית כאשר התוצאה מגיעה — בלי לפגוע בזיכרון המטמון, בהקשר של המודל ובזמן התגובה.

348 ואט־שעה לבקשה

החוקרים בחנו תרחיש המבוסס על מודל שפה בעל 70 מיליארד פרמטרים, סדר גודל המקובל במודלים פתוחים ומסחריים גדולים. לפי החישוב שלהם, ביצוע בקשת סוכן צרך בממוצע 348.41 ואט־שעה.

הצריכה גבוהה פי 136.5 מזו של מערכת בינה מלאכותית גנרטיבית המבצעת מענה רגיל לשאלה, לפי תצורת הבדיקה שנבחרה במחקר.

המספר אינו משקף בהכרח כל סוכן AI וכל מרכז נתונים. צריכת האנרגיה תלויה בגודל המודל, בחומרה, במספר שלבי ההסקה, באורך ההקשר, בשיטת הכימות, במערכת הקירור וביעילות תוכנת ההגשה.

עם זאת, היחס הגבוה מדגים את הסיכון שבהתייחסות לסוכן כאל שאילתת צ'אט רגילה. בקשה אחת של משתמש עשויה להפעיל מאחורי הקלעים עשרות פעולות הסקה וכלים נוספים.

תרחיש של כמעט 200 גיגה־ואט

כדי להמחיש את משמעות ההתרחבות, החוקרים חישבו תרחיש שבו סוכני AI מטפלים ב־13.7 מיליארד בקשות ביום — נפח שאותו השוו להיקף החיפושים היומי בגוגל.

לפי הנחות המחקר, הפעלת עומס כזה תדרוש הספק כולל של כ־198.9 גיגה־ואט. זהו הספק רציף עצום, הגדול בסדרי גודל ממרכזי הנתונים הבודדים המתוכננים כיום, שהספקם נע בדרך כלל ממאות מגה־ואט ועד כמה גיגה־ואט.

אין לראות בתרחיש תחזית לכך שכל החיפושים בעולם אכן יוחלפו בסוכנים המשתמשים במודל של 70 מיליארד פרמטרים ובאותה שיטת ביצוע. זהו תרגיל קנה מידה שנועד להראות כי שימוש המוני בסוכנים ללא שיפור משמעותי ביעילות אינו מעשי מבחינת חשמל, קירור ותשתית.

התרחיש גם מדגיש שהמגבלה על התרחבות ה־AI עשויה לעבור מזמינות שבבים לזמינות הספק חשמלי, חיבורי רשת והקמת מרכזי נתונים.

תשואה חישובית פוחתת

החוקרים בחנו גם שיטות של הרחבת החישוב בזמן ההסקה — test-time scaling — שבהן המערכת משקיעה יותר חישוב כדי לשפר את איכות התשובה.

דוגמאות לכך הן יצירת כמה מסלולי פתרון במקביל, הוספת דוגמאות להנחיה, ביצוע ביקורת עצמית או חזרה על התהליך בכמה סבבים.

תוספת חישוב אכן יכולה לשפר את הדיוק, אך המחקר מצא כי התשואה פוחתת במהירות. כל סבב נוסף מגדיל את מספר האסימונים, זמן הביצוע וצריכת האנרגיה, בעוד שהתוספת לאיכות התוצאה נעשית קטנה יותר. (arXiv)

מבחינת מפעילי תשתיות, משמעות הדבר היא שלא מספיק להגדיר יעד ביצועים למודל. יש להחליט כמה אנרגיה, זמן ועלות מוצדקים עבור כל שיפור נוסף באיכות.

עומס עבודה חדש למרכזי הנתונים

סוכני AI משלבים כמה סוגים של פעילות:

הסקת מודל שפה על GPU או מאיץ AI;
פעולות תזמור ותכנון על מעבדים מרכזיים;
גישה לזיכרון ולמאגרי וקטורים;
תקשורת עם שירותים חיצוניים;
הרצת קוד וכלים;
המתנה לתוצאות וחזרה למודל.

המערכת אינה מוגבלת עוד למאיץ אחד או אפילו לשרת אחד. היא דומה יותר ליישום מבוזר שבו פעולות שונות דורשות חומרה שונה.

משום כך, החוקרים קוראים לתכנון משולב של מודלי הסוכנים, השבבים, תוכנת התזמון, מרכזי הנתונים ותשתיות החשמל. שיפור של אחד הרכיבים בלבד לא יפתור את הבעיה אם שאר המערכת תמשיך להשאיר מאיצים יקרים בהמתנה.

מחקרים נוספים בתחום מציעים לפצל את גרף הביצוע של סוכנים בין מערכות הטרוגניות — מעבדים מרכזיים, מאיצים מדורות שונים ורכיבים ייעודיים — ולשבץ כל פעולה בחומרה המתאימה לה. גישה כזו עשויה להפחית את עלות הבעלות הכוללת ולהאריך את השימוש בחומרה קיימת. (arXiv)

השלכות על תכנון שבבים

מבחינת תעשיית השבבים, עומסי סוכנים עשויים לשנות את סדרי העדיפויות בתכנון מאיצי AI.

במערכות אימון גדולות, המדד המרכזי הוא לרוב תפוקת פעולות חישוב מקביליות. בהפעלת סוכנים, לעומת זאת, נדרשים גם מעבר מהיר בין משימות, טיפול יעיל בבקשות קצרות ומשתנות, שיתוף זיכרון בין תהליכים והפחתת צריכת החשמל במצב המתנה.

מאיצים עתידיים עשויים להידרש לתמיכה טובה יותר בהשהיה ובהמשך של משימות, בניהול זיכרון מטמון של מודלי שפה ובשיתוף המשאב בין מספר גדול של סוכנים.

גם הקישוריות נעשית חשובה יותר. סוכן עובר בין המודל, מסדי נתונים, כלי תוכנה ושירותי רשת. זמן התקשורת בין הרכיבים עלול להיות משמעותי לא פחות מזמן החישוב עצמו.

הדבר עשוי לחזק את הביקוש לארכיטקטורות הטרוגניות, חיבורי רשת מהירים, מעבדי תשתית, זיכרון רחב פס ופתרונות תזמון המודעים למצב הסוכן.

לא כל משימה דורשת מודל ענק

דרך נוספת להפחתת הצריכה היא להימנע מהפעלת מודל גדול בכל שלב. משימות כמו בחירת כלי, בדיקת פורמט, סינון תוצאה או ביצוע החלטה פשוטה עשויות לעבור למודל קטן יותר או לרכיב תוכנה דטרמיניסטי.

מערכת סוכן יעילה יכולה לנתב כל שלב אל רמת החישוב הנדרשת: מודל גדול לשאלות מורכבות, מודל קטן לסיווג, ומעבד רגיל לפעולות שאינן דורשות למידת מכונה.

ניתן גם לבצע כמה פעולות במקביל, אך מקביליות אינה חינמית. היא עשויה לקצר את זמן התגובה במחיר של הפעלת מספר גדול יותר של מאיצים בו־זמנית. הבחירה בין זמן, עלות ואנרגיה תצטרך להיקבע בהתאם לשירות ולדרישות המשתמש.

לדברי פרופ' מינסו רו, שהוביל את המחקר, תחרותיות בעידן הסוכנים לא תימדד רק לפי מידת ה"חוכמה" של המודל, אלא גם לפי היכולת להפעיל אותו ביעילות. לדבריו, נדרש תכנון משותף של מודלי הסוכנים, תשתיות מרכזי הנתונים ומערכת החשמל.

המחקר מצביע על כך שהמעבר לבינה מלאכותית סוכנית אינו רק שינוי בתוכנה. הוא יוצר עומס עבודה חדש בעל דפוסי השהיה, ניצולת וצריכת חשמל שונים מהסקת LLM רגילה. אם הסוכנים יהפכו לשכבה מרכזית בשירותי תוכנה, השאלה כיצד להפעיל אותם ביעילות עשויה להיות חשובה לא פחות מהשאלה כיצד לשפר את יכולותיהם.

שם המאמר:
The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective

DOI:
10.1109/HPCA68181.2026.11408569