המנוע החדש של OpenAI, GPT O3, הצליח להשיג 75% הצלחה במבחן ARC-AGI, מסמן שינוי איכותני ביכולות הבינה המלאכותית ומעורר תקווה להגעה לבינה מלאכותית כללית בעשור הקרוב
הגביע הקדוש של הבינה המלאכותית – זה שכולם בעמק הסיליקון מבטיחים לנו שהוא או-טו-טו כאן – הוא "הבינה המלאכותית הכללית". קשה למצוא הגדרות שמקובלות על כולן למונח הזה, אבל קיימת הסכמה שבינה מלאכותית כללית תוכל לעשות… ובכן, הכל. או לפחות, כל מה שבן-אדם יכול לעשות עם הקילו-וחצי מוח שלו. היא תוכל לכתוב ספרות יפה ושירים, להלחין מנגינות, לייצר טבלאות אקסל, לשפוט בתחרויות יופי ועוד ועוד. מנוע אחד – שיהיה מקביל ביכולותיו למוח האנושי.
למה זה חשוב? כי בינה מלאכותית כללית כזו תוכל לשמש כרופא עבור כל אדם, בעלות אפסית. היא תוכל לספק שירותי עריכת דין וייעוץ פסיכולוגי וביטוחי לכולם. היא תוכל לחקור מדע מהר כמו המדען הטוב ביותר, להעלות רעיונות ותיאוריות שמתחרים באלו של איינשטיין ולפתח ולהנדס המצאות חדשות. היא תשנה את העולם, באמת ובתמים.
התחזיות מעמק הסיליקון, כאמור, מעודדות מאד. אולי יותר מדיי. סם אלטמן כבר הכריז שבשנת 2025 נדע איך לבנות בינה מלאכותית כללית. דריו אמודיי, מנכ"ל אנתרופיק, מאמין שנראה בינה מלאכותית כללית מוגבלת בשנת 2026. ג'ופרי הינטון, זוכה פרס נובל בפיזיקה והאיש שהזניק את תחום הבינה המלאכותית בגוגל, סבור שזה יכול לקרות כבר בחמש השנים הקרובות. ריצ'רד סוקר, מנכ"ל חברת בינה מלאכותית, טוען שנגיע תוך חמש שנים לכל היותר, לבינה מלאכותית שיכולה לבצע 80% מהמקצועות בשוק כיום.
הבעיה, כמובן, היא שלאנשי הבינה המלאכותית יש אינטרס מובנה להפריז ולהגזים בתחזיות שלהם. הם רוצים, אחרי הכל, השקעות כספיות בחברות שלהם. המשקיעים לא יבואו אליהם אם לא יתלהבו מהפוטנציאל שבבינה המלאכותית. וכך, בקיצור, נוצרת בועה. זו הסיבה שאני משתדל לשמור על ספקנות בריאה בכל פעם שאני קורא את ההשתפכויות הנלהבות של אנשי עמק הסיליקון על העתיד לבוא.
ובכל זאת, גם לספקנים קשה להתעלם מהמגמות. הבינה המלאכותית משתפרת מדי שנה, מדי חודש, מדי שבוע. ישנם ימים בהם המומחים משנים את דעתם לגבי מה שאפשרי ומה לא, בין הבוקר לערב. אבל האם באמת נגיע לרמת הבינה המלאכותית הכללית בעשור הקרוב? ואיך נדע כשזה יקרה?
הבעיה הופכת להיות קשה עוד יותר כשמבינים שבינות מלאכותיות נוטות, ובכן, לרמות. ספציפית, הן "מרמות" במבחנים מכיוון שהן מאומנות על שאלות רבות ממבחנים קודמים. כאשר הן נשאלות שאלה חדשה, הן אינן מפעילות "מחשבה" או מנתחות בהיגיון את הבעיה. הן פשוט זורקות מילים שהופיעו בפתרונות של השאלות ממבחני-העבר, וכשהן עושות זאת בסדר הנכון – הן מצליחות לעיתים קרובות לפתור גם שאלות חדשות. אבל מחשבה אמיתית, או יכולת של ממש לנתח בעיות חדשות, לא קיימת שם.
אז מה עושים?
המבחן שנועד לגלות את הבינה המלאכותית הכללית
כדי להבין טוב יותר מתי בינה מלאכותית תגיע לרמה "כללית", הוקם אתגר ARC-AGI. האתגר מתבסס על שאלות שמחייבות את הבינה המלאכותית להפעיל יכולות ששמורות לבני-אדם: היגיון בריא, ספירת מספרים, הפשטה ועוד. אלו יכולות שאפילו מנועי השפה הגדולים המתקדמים ביותר לפני שבוע, התקשו להפגין. מודל השפה הידוע בשם GPT3 – אביו הקדום של ChatGPT – הגיע לציון נכשל מהדהד במבחן הזה ב- 2020: אפס אחוזי הצלחה. ארבע שנים מאוחר יותר, הנכד שלו – GPT4-omni – הצליח לענות נכון על חמישה אחוזים מהשאלות. בקצב הזה, אפשר היה לשער שנצליח להגיע לציון טוב במבחן רק לקראת סוף המאה העשרים ואחת.
אבל זה מה שחשבנו לפני שלושה חודשים. ואז, הגרסה החדשה-דנדשה של GPT שנקראת O1, הצליחה להגיע לדיוק של 32 אחוזים. קפיצה יפה, בוודאי. למרות שיש לציין שמקימי אתגר ARC-AGI לא התרשמו יותר מדיי מהעניין. ועדיין, יפה.
ומה קרה חודשיים וחצי לאחר מכן? כלומר, בסוף השבוע האחרון?
אז הגיע GPT O3, שהצליח לענות נכון על יותר מ- 75 אחוזים מהשאלות במבחן.
והפעם, אנשי ARC-AGI כבר לא יכלו להסתיר את הפתעתם.
"זוהי פונקציית-צעד חשובה ומפתיעה ביכולות הבינה המלאכותית," כתבו אנשי ARC-AGI כשסקרו את ההתפתחות הזו. "המודל החדש של OpenAI מייצג זינוק משמעותי קדימה ביכולתה של הבינה המלאכותית להתאים את עצמה למטלות חדשות. לא מדובר רק בשיפור הדרגתי, אלא בפריצת דרך אמיתית, שמסמנת שינוי איכותני ביכולות הבינה המלאכותית בהשוואה למגבלות הקודמות…"
איך בדיוק עובד O3? מה הופך אותו למיוחד כל-כך? ובכן, התשובה האמיתית היא שאנחנו לא יודעים. כלומר, OpenAI יודעים, אבל אחרים לא. החברה לא מוכנה לחשוף עדיין איך בדיוק הוא עובד מאחורי הקלעים. הניחוש הטוב ביותר כרגע הוא שהמנוע מייצר לעצמו מרחב אפשרויות של תשובות, ואז עובר עליהן כדי לנסות לאתר את התשובה עם הסיכוי הגדול ביותר להצלחה. וכנראה שהוא יכול גם לחבר, לחסר ולהצליב בין התשובות כדי להתקרב לאמת ככל האפשר.
"אתה צריך את היכולת לעשות רקומבינציה של פונקציות להפקת תוכנה חדשה לגמרי, כשאתה מתמודד עם מטלה חדשה." מסבירים ב- ARC-AGI. למעשה, "[הבינה המלאכותית עושה] סינתזה של תוכנה. למנועי השפה הגדולים לא הייתה יכולת כזו במשך זמן רב. סדרת O של המודלים מתקנת את הבעיה."
זה לא סתם מרשים. זה מהפכני. המשמעות היא ש- O3 אמורה להיות מסוגלת להפיק פתרונות ברמה אנושית לבעיות רבות מכל הסוגים. זו עדיין לא בינה מלאכותית כללית, כנראה, אבל ברור שזה צעד בכיוון הנכון.
לא הכל מושלם… עדיין
לפני שאתם חושבים שכולנו נפעיל את המודל הזה מחר בבוקר, כדי שתדעו שעדיין עולה הרבה מאד כסף להריץ אותו. אנחנו יודעים שאפילו הרצה של מנוע O3 ברמה הנמוכה ביותר, עולה עשרים דולרים בערך. וברמה הגבוהה ביותר? שם קבלת תשובה אפילו לשאלה אחת עולה אלפי דולרים. אבל אם האלטרנטיבה היא להעסיק כמה מדענים שיעבדו שבוע כדי לספק את אותה התשובה, אז ייתכן שעדיף דווקא להעסיק את המנוע החדש.
חושבים שזו הגזמה? אבל יש גם ראיות "מהשטח". ספציפית, בתחרויות הפקת קוד, המנוע החדש מגיע לרמה שמקבילה לזו של מתכנת באחוזון העליון.
מה הוא יוכל לעשות כשהוא יעומת עם בעיות חדשות במדע? ברפואה? בהנדסה? השמים הם כבר לא הגבול. אפילו הכוכבים לא יעמדו בפנינו, כשהבינה המלאכותית דוחפת קדימה את המדע ואת הטכנולוגיה.
הדברים החשובים באמת
אפילו אם אתם חושבים שאני מגזים – ואני מודה שלפעמים יש לי נטייה להתלהב יותר מדי מטכנולוגיות חדשות – קשה להתעלם משני דברים.
ראשית, אי אפשר להתעלם מההצלחה של O3 בהתמודדות עם המבחנים. עד לפני שבוע, המבחן של ARC-AGI נחשב לאתגר הגדול והקשה ביותר עבור בינות מלאכותיות. המנוע הרגיל של OpenAI הצליח להגיע רק לחמישה אחוזי דיוק הצלחה במבחן. ופתאום, בום. קיבלנו את O3 שזינק לשבעים וחמישה אחוזי הצלחה.
שנית, וחשוב הרבה יותר, אנחנו רואים שמגמת השיפור ביכולות הבינה המלאכותית ממשיכה ולא מפסיקה לרגע. נביאי הזעם מהשנה האחרונה חזו שנגיע לקיר, ואכן חווינו מכשול: חברות הבינה המלאכותית השקיעו הון תועפות בהגדלת מודלי השפה שלהם, מתוך מחשבה שהגודל כן קובע. אפשר להבין אותן, מכיוון שהגדלת המודלים הייתה האסטרטגיה המנצחת בשש השנים האחרונות. אבל ב- 2024 נראה שכבר אי אפשר להשיג עוד הרבה פשוט מזריקת עוד כוח מחשוב על הבינות המלאכותיות.
אז כן, מכשול. ומה קרה אז?
פשוט: החברות שינו תפיסה, והתחילו לחפש דרכים חלופיות לשפר את יכולותיה של הבינה המלאכותית. והנה אנחנו רואים עכשיו את פירות העבודה הקשה שלהן. זוהי דרכה של הטכנולוגיה בשוק החופשי – להמשיך להתקדם, גם אם תחת תפיסות שונות מאלו ששירתו אותנו במקור.
הדרך לבינה המלאכותית הכללית
האם המשמעות היא שבאמת נהנה מבינה מלאכותית כללית בשנים הקרובות? אני עדיין ספקן, אבל גם לא יכול להכחיש שמגמת השיפור ביכולות הבינה המלאכותית אינה מפסיקה. אני לא מוכן להיות אופטימי כמו סם אלטמן, אבל אני גם לא יכול לשלול על הסף את האפשרות שתוך חמש שנים תהיה לנו בינה מלאכותית שיכולה לעשות… הכל. או כמעט הכל.
וזו החשיבות האמיתית של O3. בתקופה שבה המומחים התחילו לחשוב שקצב השיפור ביכולות הבינה המלאכותית התחיל לדעוך, המנוע החדש מראה לנו שיש עוד הרבה לאן להתקדם, ושרק התחלנו לגרד את פני השטח. אם נמשיך באותו קצב, הרי שכן: ייתכן שעד 2030 נגיע כבר לבינה מלאכותית כללית. כזו שיכולה לעשות הכל, במיוחד עבורנו. לחקור עבורנו, לפתח עבורנו תרופות, לעזור לנו לנקות את זיהום האוויר, המים והאדמה. ואולי, רק אולי, גם למצוא דרכים טובות יותר בהן יכולות מדינות לפתור את בעיותיהן בדרכי שלום.
טוב, אולי האחרון זה מדע בדיוני. אולי פנטזיה. אבל כל היתר כנראה אפשריים בהחלט. השאלה הייתה רק מתי נממש אותם. המנוע החדש מרמז שאולי האופטימיים צודקים, ושכל זה יקרה בקרוב מאד.