החברה הסינית דיפסיק מציגה מודלים חכמים ויעילים המאתגרים את ענקי הטכנולוגיה האמריקניים כמו OpenAI ואנתרופיק
חברת הבינה המלאכותית הסינית דיפסיק (DeepSeek) מטלטלת את עולם הטכנולוגיה עם השקת מודלים חדשניים ויעילים במיוחד, המסוגלים להתחרות במוצרים מתקדמים של חברות ענק אמריקניות כמו OpenAI ואנתרופיק. המודלים הללו, אשר פותחו תוך שימוש במשאבים מוגבלים ובתקציבים נמוכים, מהווים לא פחות ממהפכה בעולם הבינה המלאכותית.
החברה הוקמה בשנת 2023 ובזמן קצר הצליחה להגיע להישגים מרשימים. "דיפסיק הצליחה לשנות את כללי המשחק בתעשייה בזכות שתי גישות חדשניות שהן פורצות דרך. מדובר לא רק במודלים יעילים יותר אלא גם בזמינות רחבה יותר לקהילת המחקר," אומר פרופ' טונגליאנג ליו, מנהל מרכז הבינה המלאכותית באוניברסיטת סידני.
מה עשתה דיפסיק?
בדצמבר האחרון השיקה דיפסיק את מודל V3, מודל שפה גדול (LLM) המציג יכולות דומות לאלו של GPT-4o מבית OpenAI ו-Claude 3.5 מבית Anthropic. מודלים אלה ידועים ביכולתם לענות על שאלות, לכתוב מאמרים, לייצר קוד ועוד. עם זאת, לרוב הם סובלים מטעויות ולעיתים ממציאים מידע.
ה-V3 של דיפסיק מתגבר על חלק מהאתגרים הללו, והוא גם חסכוני בהרבה: בעוד שהכשרת GPT-4 עלתה למעלה מ-100 מיליון דולר, פיתוח V3 עלה כ-5.58 מיליון דולר בלבד. בנוסף, במקום להשתמש בעשרות אלפי יחידות עיבוד חזקות כמו NVIDIA H100, דיפסיק השתמשה ב-2,000 יחידות עיבוד בלבד מסוג H800, שהן פחות חזקות משמעותית.
ב-20 בינואר 2025, הציגה החברה את מודל R1, המתמקד ב"חשיבה" צעד-אחר-צעד, במטרה לפתור בעיות מורכבות בצורה מתודית. מודלים מסוג זה מצטיינים במשימות הדורשות הבנה של הקשר רחב ותכנון אסטרטגי, כמו קריאה ביקורתית ותכנון פרויקטים. ה-R1 הוא למעשה גרסה משופרת של ה-V3, שעברה התאמות על בסיס טכניקת למידה מחוזקת.
ההשקה האחרונה של דיפסיק, שהתרחשה ב-28 בינואר, כללה מודל חדשני המשלב יכולות לעבודה עם תמונות וטקסט בו זמנית. יכולת זו מציבה אותו ישירות בתחרות מול המודלים המתקדמים ביותר של מתחרותיה האמריקניות.
איך עשתה זאת דיפסיק?
הסוד הגדול של דיפסיק טמון בחדשנותה להשגת יעילות מרבית. החברה פיתחה שתי טכניקות ייחודיות שמאפשרות לה להפיק תוצאות טובות יותר עם פחות משאבים:
- ספארסיות (Sparsity): מודלים של בינה מלאכותית כוללים מספר עצום של פרמטרים – ב-V3 מדובר בכ-671 מיליארד פרמטרים. אולם, רק חלק קטן מהם מופעל עבור כל קלט. דיפסיק הצליחה לזהות באילו פרמטרים יש להתמקד ולבצע הכשרה ממוקדת עליהם בלבד. הדבר צמצם משמעותית את הזמן והמשאבים הדרושים להכשרת המודל.
- דחיסת מידע בזיכרון: החברה פיתחה דרך חדשנית לדחוס את המידע הרלוונטי בצורה שמאפשרת גישה מהירה ויעילה יותר אליו במהלך הפעולה. שיטה זו חוסכת לא רק בזמן עיבוד אלא גם בעלויות תפעול.
"בזכות חדשנות בתחום הספארסיות ודחיסת מידע, דיפסיק השיגה את מה שרבים חשבו לבלתי אפשרי," מציין פרופ' ליו. "הגישה הזו היא לא רק פורצת דרך מבחינה טכנולוגית, אלא גם מנגישה את התחום לחוקרים נוספים."
משמעות המהפכה של דיפסיק
המודלים והטכניקות של דיפסיק פורסמו תחת רישיון הקוד הפתוח MIT, כך שכל אחד יכול להורידם, להשתמש בהם ואף להתאימם לצרכיו. צעד זה מעורר סערה בעולם הטכנולוגיה. בעוד שחברות רבות עלולות להיפגע, הקהילה המחקרית כולה תיהנה מהשינוי.
"עכשיו, גם חוקרים באוניברסיטאות, שמוגבלים במשאבים, יכולים להתנסות בפיתוחים מורכבים," מסביר פרופ' ליו. לדבריו, המודלים החדשים גם יוזילו את העלויות לצרכנים. במקום להשתמש בשירותי ענן יקרים, חלק מהמודלים יוכלו לפעול ישירות על מחשבים אישיים או טלפונים חכמים.
ההשפעה של דיפסיק מורגשת כבר עכשיו: מנייתה של חברת NVIDIA צנחה ב-600 מיליארד דולר, בעוד הביקוש לאפליקציית הצ'אט של דיפסיק מבוססת V3 זינק בצורה חסרת תקדים.
למרות זאת, לא ברור עדיין אם הגישה של דיפסיק תאפשר פיתוח מודלים חזקים יותר, או שתתרכז בעיקר בשיפור היעילות של המודלים הקיימים.