הממשק הקולי הוא העתיד

ן בלאיש – מנהל שיווק מוצר ב-CEVA הציג בתערוכת ChipEx2017 את השבבים שמתכננת החברה כדי לשפר את הממשקים הללו כך שיוכלו לשמש להרבה יותר יישומים מאשר כיום

ערן בלאיש, CEVA בכנס ChipEx2017

הממשק הקולי הוא כנראה הממשק האינטואיטיבי ביותר לתקשורת עם המחשב. בשנים האחרונות התפתחו מערכות שהקשר איתן נעשה באמצעות הקול.

עדיין יש צורך לפתח דורות נוספים של ממשקים קוליים משום שהנוכחיים עדיין מוגבלים. אחת החברות הפועלות בכיוון זה היא חברת CEVA הישראלית. בכנס ChipEx2017 – הכנס השנתי של תעשיית המיקרואלקטרוניקה הישראלית שנערך בתל אביב בארגון חברת ASG בשבוע החולף, הציג ערן בלאיש, מנהל שיווק מוצר ב-CEVA את האלגוריתמים החדשים של החברה. בלאיש גם זכה לאחר מכן בפרס המרצה המצטיין של הכנס.

בלאיש פתח את הרצאתו בהצגת המקום בו אנו עומדים כיום מבחינת ממשקי Voice: דגמי הסמארטפונים האחרונים של אפל ושל סמסונג נמצאים במצב של האזנה תמידית, רוב הסמארטפונים מציעים הפעלה באמצעות קול דיבור. Echo של אמזון (אלכסה) החלה את הטרנד של Far-Field conversation assistant, מצלמת GoPro Hero 5 מציעה תפעול באמצעות פקודות קוליות, מוצרי אינפוטיינמנט בשוק הרכב המופעלים באמצעות פקודות קוליות כבר נמצאים על המדף, ומוצרי שמע כמו AirPods של אפל, שממשיכה לשמור על חלוציות, כבר מציעים סיוע באמצעות שיחה קולית.

אבל עדיין, רוב המכשירים עדיין לא תמיד מאזינים. הסיבה לכך היא כמובן צריכת ההספק. אני יכולים להתגבר על בעיות אבטחה בכלים שעומדים לרשותנו אבל צוואר הבקבוק העיקרי הוא צריכת ההספק. CEVA היא מובילה עולמית בשוק ה-Always On, שמתפעלת את התחום עבור גלאקסי סמסונג באמצעות שבבי DSP, והפתרונות שלנו נמצאים על המנעד שבצדו האחד מוצרי הספק נמוך במיוחד (Ultra low power) שכוללים מכשירים מבוססי סוללה, Ultra low power e.g near-field always on voice activation, וגם שבבי האזנה-תמידית בעלי ההספק הנמוך בעולם, ובצדו השני מוצרי ביצועים גבוהים (High performance) כמו מוצרים לבית החכם הפועלים על חשמל. מוצריFar-Field עם הפעלה קולית, ופתרונות לעיבוד Multi Mic ושבבי CODEC.

כל זה קורה באמצעות שבבי CEVA –TL410 Ultra low power DSP שהם שבבי ההספק הנמוך בעולם להפעלה קולית במצב Always On, אשר כוללים מפת דרכים בעל 10 שלבים שמאפשר עבודה עם זכרונות הספק נמוך.

שבבי CEVA-X2 High performance DSP המיועדים לחישה וקישוריות ומסוגלים להתמודד עם משימות החל מאודיו דרך BT ועד עיבוד Multi-Mic. גם כאן יש מפת דרכים ארוכה בעלת 10 שלבים שתאפשר בסופו של דבר גם ניצול תדרים גבוהים.

בזכות השימוש ב-DNN (Deep Neural Network) שמייצרת שיטה חדשה לסינון רעשים התאפשרה פריצת דרך בתחום OffLine Training עם ערכות DATA עצומות, ויצירת זיהוי וסינון של אותות בזמן אמת. חיישני זיהוי דיבור של CEVA כבר נמצאים בשלב ייצור המוני, ושותפי מחקר ופיתוח עוסקים זה מכבר ביכולות מתקדמות של חישה קולית.

בנוגע ל-Near-Field אמר בלאיש כי סמסונג החליטה להכניס למכשיר הגלאקסי 7 את שבב DSPG DBMD4 שכולל את הטכנולוגיה של CEVA עבור פונקציות של הספק נמוך על אף שיש לה כבר יכולות הספק נמוך בזכות מעבד הסנאפדרגון 820 שמאפשר Always-on. הסיבה לכך היא הספק נמוך.

בנוגע לעיבוד קולי בתחום ה-Far-Field, אמר בלאיש כי כדי לעמוד באתגרים יש צורך בהתמודדות עם יותר ממקרופון אחד כולל (Hardwired) POM2PCM, וכי יש צורך ב-VAD לזיהוי פעילות קולית בהספק אולטרא-נמוך (Hardwired). כמו כן יש צורך ב-Multi-Mic Beamforming שמייצר קרניים המבודדות את הקול ומסננות רעשים, ב-AEC – Stereo acustic Echo Canceller, ב-Voice Trigger המבוסס על DNN, וב-Output recorded voice שעושה שימוש ב-Opus.

מה צופן העתיד הקרוב של ממשקי הקול?

לדברי בלאיש, בעתיד הקרוב ניתן יהיה לשלוט באמצעות פקודות קוליות בכל מכשיר. כמו כן, נוכן לקבל סיוע אישי מכל מוצר ובכל מקום, הרבה גם בזכות מיקרופונים חכמים שכוללים מעבד ויכולות זיהוי קול במעבד נוסף. כך ניתן יהיה לתת פקודות לכל מוצר צריכה. את התחום הזה מובילות וימשיכו להוביל ענקיות החיפוש והמסחר האלקטרוני ברשת. גם מוצרי IOT יעברו לממשקי קול כאופציה ראשונה בברירת מחדל, והמקרופונים החכמים יוכלו לתפעל גם את מוצרי ה-IOT הפשוטים ביותר.

כדי שיכולות ממשקי הקול ישתכללו ולא נצטרך אפילו לומר Hello Alexa"" יש צורך בשילוב יכולות של ראיית מחשב, של בינה מלאכותית שמאפשרת הבנה עמוקה של שפה ((Contextual Awareness, של דיכוי רעשים (ASR משופר) וטכנולוגיות Ultrasonic Gestures.

{loadposition content-related}