בניית רובוטים דמויי אדם (הומנואידים) היא משימה מורכבת שדורשת שילוב של גישות טכנולוגיות שונות ואיסוף נתונים בקנה מידה רחב. כלים חדשים ומבוססי AI עליהם הכריזה NVIDIA בכנס ללמידת רובוטים (CoRL), כחלק מפלטפורמת GR00T לפיתוח רובוטים דמויי אדם, יסייעו לקצר את זמני הפיתוח
במהלך הכנס ללמידת רובוטים (CoRL) שמתקיים השבוע במינכן, חשפה NVIDIA כלים ותהליכי עבודה מבוססי בינה מלאכותית וסימולציה שיסייעו למפתחי רובוטים להאיץ את העבודה על רובוטים שמונעים באמצעות בינה מלאכותית, כולל רובוטים דמויי אדם (הומנואידים).
עידן הבינה המלאכותית הפיזית, שכולל רובוטים שמבינים תכונות פיזיות של סביבתם, כבר כאן והוא משנה במהירות את התעשיות בעולם. אבל בניית רובוטים דמויי אדם היא קשה ביותר, ודורשת שילוב של כמה גישות טכנולוגיות כדי לגרום לרובוטים להבין את הסביבה, לנוע וללמוד מיומנויות ביעילות כדי לפעול לצד בני אדם.
בניגוד למודלי שפה, שמשתמשים ברובם על דאטה מבוסס טקסט, רובוטיקה מבוססת פיזיקה מסתמכת על נתונים שמבוססים על אינטראקציה פיזית, שמורכב יותר לאסוף אותם בקנה מידה רחב. איסוף נתונים אלה מהעולם האמיתי לשימוש במספר רב של משימות גוזל זמן ומצריך עבודה.
כדי להפוך את המשימה הזו לקלה יותר, NVIDIA הכריזה על שש תבניות ייחודיות לתהליך הפיתוח של רובוטים דמויי אדם עבור Project GR00T. מדובר ביוזמה לפיתוח ספריות מבוססות AI, מודלים ותזרימי נתונים שייעודם להאיץ את האקוסיסטם העולמי של מפתחי רובוטים דמויי אדם. התבניות החדשות כוללות:
- GR00T-Gen – לבניית סביבות תלת-ממד מבוססות בינה מלאכותית יוצרת
- GR00T-Mimic – לתנועת רובוטים ובניית מסלולי תנועה
- GR00T-Dexterity – למיומנויות ידיים רובוטיות
- GR00T-Control – לשליטה מלאה על גוף הרובוט
- GR00T-Mobility – לניידות וניווט רובוטי
- GR00T-Preception – עבור חישה מולטי-מודאלית
"רובוטים אנושיים הם הגל הבא של Embodied AI", אמר ג'ים פאן, מנהל מחקר בכיר ל-Embodied AI ב-NVIDIA. "צוותי המחקר וההנדסה של NVIDIA משתפים פעולה בתוך החברה ועם האקוסיסטם של המפתחים שלנו כדי לבנות את פרויקט GR00T ולעזור להניע את ההתקדמות והפיתוח של מפתחי רובוטים דמויי אדם ברחבי העולם".
בנוסף, הודיעה NVIDIA על זמינות כללית של Isaac Lab – מסגרת למידה לרובוטים, בקוד פתוח, הבנויה על NVIDIA Omniverse – פלטפורמה לפיתוח יישומי סימולציה ודיגיטציה של סביבות תעשייתיות בפורמט OpenUSD. מפתחים יכולים להשתמש ב-Isaac Lab כדי לאמן ולגבש מדיניות הפעלה של רובוטים בקנה מידה רחב. האימון נעשה על ידי הדגמה, או ניסוי וטעייה בסימולציה, ונשען על עיבוד מפורט של סביבות שונות ועל חוקי הפיזיקה החלים בעולם האמיתי בשילב עם נתונים סינתטיים. על ידי שילוב הסימולציות, Isaac Lab מאפשרת לייצר כמויות אדירות של נתוני אימון, שוות ערך לאלפי חוויות בעולם האמיתי – על בסיס הדגמה אחת בלבד.
מפתחי רובוטים מסחריים מובילים, לצד מפתחי אפליקציות לרובוטים וגופי מחקר מרחבי העולם מאמצים את Isaac Lab, בהם1X, Agility Robotics, The AI Institute, Berkeley Humanoid, Boston Dynamics, Field AI, Fourier, Galbot, Mentee Robotics, Skild AI, Swiss-Mile, Unitree Robotics ו- XPENG Robotics.
כלים לפיתוח מודלים של העולם
NVIDIA חשפה גם כלים חדשים לפיתוח World Models שהם ייצוגי AI של העולם שיכולים לחזות כיצד עצמים וסביבות (תעשייתיות למשל) מגיבים לפעולות של רובוט. בניית מודלים אלה צורכת משאבי מחשוב ומערכי נתונים גדולים כאשר נדרשים אלפי שעות של נתוני תמונה או וידאו מהעולם האמיתי.
כדי להאיץ את איסוף נתוני הווידאו, הכלים החדשים שהציגה NVIDIA כוללים אתNVIDIA Cosmos Tokenizer ו-NVIDIA NeMo Curator לעיבוד וידאו. NVIDIA Cosmos Tokenizer מספק יכולות קידוד ופענוח יעילים ואיכותיים כדי לפשט את הפיתוח של ה-World Models. הם סוללים את הדרך לפיתוח יישומי בינה מלאכותית יוצרת בקנה מידה רחב במגוון תחומים חזותיים, ומספקים למפתחי רובוטיקה יכולת לפרק תמונות וסרטונים לאסימונים (tokens) באיכות גבוהה עם שיעורי דחיסה גבוהים במיוחד. NeMo Curator מספק יכולת איסוף ועיבוד וידאו מהירה עד פי 7 מאשר כלים פופולריים אחרים.
במסגרת הכנס הכריזה NVIDIA על שיתוף פעולה עם Hugging Face במטרה להאיץ את המחקר והפיתוח בקרב קהילת מפתחי הרובוטיקה בקוד פתוח. פלטפורמת ה-AI הפתוחה של Hugging Face, LeRobot, בשילוב עם פלטפורמות NVIDIA AI ו-Omniverse וטכנולוגיית Isaacשל NVIDIA, תאפשר לחוקרים ולמפתחים להוביל פיתוחים חדשים עבור מגוון רחב של תעשיות, כולל ייצור, בריאות ולוגיסטיקה. LeRobot מציעה חבילה מקיפה של כלים לשיתוף איסוף נתונים, אימון מודלים וסביבות סימולציה בעלות נמוכה.
פלטפורמת הבינה המלאכותית הפתוחה Hugging Face משרתת יותר מ-5 מיליון חוקרים ומפתחים בתחומי למידת המכונה ומציעה כלים ומשאבים לייעל פיתוח בינה מלאכותית. משתמשי Hugging Face יכולים לגשת ולכוונן את המודלים האחרונים שעברו אימון מראש ולבנות תהליכי בינה מלאכותית באמצעות ממשקי API נפוצים עם למעלה מ-1.5 מיליון מודלים, מערכי נתונים ויישומים הנגישים באופן חופשי ב-Hugging Face Hub.