ככל שתחום הבינה המלאכותית מתקדם, קל יותר לרשתות האלה לשטות בנו ולהתחזות כדומות מאד בהתנהגותן לבני אדם. אבל כאשר אנחנו מפעילים את הכלים המתאימים, אנחנו יכולים לראות שישנה עוד דרך עד שנגיע לאלגוריתמים שמחקים בצורה מאד מדויקת התנהגות אנושית
בדו שיח עם צ’ט-בוטים, דהיינו עם רשתות המעבדות שפה, פעמים רבות נדמה שיש בן אדם מהצד השני של הצ’ט. חוקרים מאוניברסיטת בן-גוריון בנגב ואוניברסיטת קולומביה בדקו האם הרשתות הללו מבינות ומעבדות שפה כמו בני האדם ומצאו פערים מפתיעים. ממצאי המחקר התפרסמו בכתב העת היוקרתי Nature Machine Intelligence.
כשבוחנים עיבוד של משפטים בשפה האנגלית בקרב בני אדם ובקרב מערכות למידה עמוקה (רשתות נוירונים מלאכותיות), נראה שיש דמיון מפתיע בין בני האדם ובין הרשתות. נתון זה הטריד את ד”ר טל גולן מהמחלקה למדעי הקוגניציה והמוח באוניברסיטת בן-גוריון בנגב ואת מתיו סיגלמן, תלמיד מחקר מאוניברסיטת קולומביה, שכן ישנם הבדלים משמעותיים בין הרשתות השונות וכן בין הצורה בה הרשתות הללו בנויות ופועלות, לבין המוח האנושי. ״אם נבין טוב יותר את הדמיון וההבדלים בין אינטליגנציה מלאכותית ואינטליגנציה טבעית, נוכל להבין טוב יותר כיצד אנחנו עצמנו פועלים״, הסביר ד”ר גולן.
אחד הכלים המרכזיים בחקר השפה הוא בחינת המשפטים הנתפסים על ידי דוברי השפה כ-״קבילים״. למשל ״דנה אכלה כריך״ הוא משפט קביל בעברית, אך ״דנה כריך אכל״ או ״כריך אכל דנה״, אינם משפטים קבילים. בשנים האחרונות, מדענים החלו לבחון רשתות נוירונים מלאכותיות באופן דומה, ומצאו להפתעתם דמיון רב בין השיפוטים האנושיים ובין ההסתברות שרשתות נוירונים מלאכותיות מייחסות למשפטים שונים.
במחקר הנוכחי, החוקרים רצו לבחון את גבולות הדמיון בין בני האדם והרשתות. לצורך כך, הם פיתחו תוכנה שבונה זוגות של משפטים ״מעוררי מחלוקת״ בין הרשתות. בכל זוג כזה, יש משפט שרשת אחת מזהה כקביל, ואילו הרשת השנייה מזהה כבלתי קביל. המשפט השני נשפט על ידי הרשתות באופן הפוך- הרשת הראשונה מזהה אותו כבלתי קביל והרשת השנייה כקביל.
למשל, המשפט ״This is the week you have been dying״ נמצא כבלתי קביל לפי רשת מסוג GPT-2, וכקביל לחלוטין לפי רשת מסוג BERT. לעומת זאת המשפט ״That is the narrative we have been sold״ נמצא כקביל לפי GPT-2 וכבלתי קביל לפי BERT. אחרי שהחוקרים יצרו מאות זוגות של משפטים כאלה, המשפטים הוצגו ל-100 נבדקים אנושיים דוברי אנגלית, שהתבקשו לשפוט עבור כל אחד מהזוגות איזה משפט קביל יותר. במבחן שכזה, אחת הרשתות חייבת להיכשל, כיוון שהן אינן מסכימות ביניהן.
החוקרים מצאו שתחת המבחן המחמיר הזה, כל הרשתות מפגינות פערים משמעותיים בשיפוטים שלהן לעומת בני האדם. הן קיבלו משפטים לא דקדוקיים ולא הגיוניים כקבילים, ובאותו הזמן דחו משפטים דקדוקיים והגיוניים כלא קבילים. הרשת שנמצאה כדומה ביותר לבני האדם הייתה GPT-2, שלומדת על ידי ניסיון לחזות את המילה הבאה בטקסט, אותו עקרון המיושם בשלב האימון הראשון והעיקרי של צ׳ט-בוטים כגון ChatGPT.
״המחקר חושף פערים בין האופן שבו רשתות נוירונים מלאכותיות ובני אדם מעבדים שפה כתובה”, מסביר ד”ר גולן. “ככל שתחום הבינה המלאכותית מתקדם, קל יותר לרשתות האלה לשטות בנו ולהתחזות כדומות מאד בהתנהגותן לבני אדם. אבל כאשר אנחנו מפעילים את הכלים המתאימים, אנחנו יכולים לראות שישנה עוד דרך עד שנגיע לאלגוריתמים שמחקים בצורה מאד מדויקת התנהגות אנושית. ייתכן ונוכל לבנות רשתות נוירונים שמדמות באופן מדויק שיפוטים לשוניים של בני אדם רק כאשר הרשתות יממשו כישורים קוגניטיביים נוספים, כגון חישת הסביבה ובקרת תנועה, ולא רק יקראו מיליוני ספרים,” סיכם ד”ר גולן.
קבוצת המחקר כללה את: פרופסור כריסטופר בלדסנו ופרופסור ניקולאוס קריגסקורטה מהמחלקה לפסיכולוגיה של אוניברסיטת קולומביה.
מחקר זה (מס’ מענק1948004 ) מומן ע”י הקרן האמריקאית למדע ומלגת צוקרמן.
עוד בנושא באתר הידען: