במקום לצעוק על המחשב, פשוט דברו אתו

>> פרופ' לארי רבינר מאוניברסיטת קליפורניה, מומחה עולמי בתחום זיהוי דיבור, מביא את הסרט "2001: אודיסיאה בחלל" כדוגמא מייצגת ליכולת של מחשב בן זמננו לזהות דיבור. בסרטו של סטנלי קובריק משתלט מחשב בשם "האל" על ספינת חלל ומנהל דיאלוגים עם הצוות בחללית. "אתה שואל אותי אם הטכנולוגיה כיום יכולה לתמוך בסצינה שכזאת? כמובן שכן", אומר רבינר. "אל תשכח שהסרט הוא מ-1968. אנחנו נמצאים לקראת תקופה שבה נשאל את הטלפון החכם שלנו שאלות, ונוכל לקבל תשובות. לא נצטרך להשתמש יותר במקלדת וירטואלית".

רבינר, יהודי חם, חוקר ב-at&t במשך 40 שנה ועסק רוב חייו בחקר זיהוי קול ודיבור. הוא מרצה בשתי אוניברסיטאות ואף כתב חמישה ספרים, מרביתם על תחום הקול. לישראל הוא הגיע כדי להשתתף בכנס שעורכת היום מכללת אפקה להנדסה בנושא טכנולוגיית זיהוי דיבור.

רבינר אומר כי אחד האתגרים של זיהוי דיבור במחשב הוא ניטרול רעש הרקע מהשיחה: "למחשב קשה לנהל זיהוי קול בסביבה רועשת. לבני אדם יש תכונה שעוזרת להם בזיהוי דיבור - היכולת להסתגל. אתה מדבר אנגלית, שאינה שפת האם שלך, ובכל זאת אני מסתגל למבטא שלך בתוך זמן קצר". יתרון נוסף שיש לבני אדם על מחשב, מסביר רבינר, "הוא שאנחנו יודעים לנצל את הדיאלוג לטובת הבנת השיחה. מחשב שומע משפט ולאחר מכן עוד משפט, ומנתח אותם אחד אחרי השני כאילו כל משפט נאמר בפעם הראשונה. אם, למשל, אומר במהלך הראיון שהגעתי לישראל גם כדי לחגוג יום הולדת לאשתי, אנחנו, בני אדם, נבין את ההקשר, ואו שנתייחס או שנתעלם מכך. קשה ללמד מחשב מה חלק מהשיחה ומה לא".

לדברי רבינר, "אנחנו מלמדים את המחשב דקדוק כפי שמלמדים ילדים: מהו נושא, מהו נשוא, איך בנוי משפט. אבל הלמידה מתבצעת באמצעות מודל סטטיסטי. כשאנחנו פונים למחשב הוא שומע אותנו וצריך להבין מה פירוש כל מילה ומה המשמעות של משפט שמחבר כמה מילים. לצורך כך הוא מאחסן הרבה מאוד צירופים אפשריים. כל צירוף מקבל ציון מסוים ולבסוף נבחר הצירוף הכי מתאים, בהתאם לשיחה. נניח שאתה מתקשר למערכת הטלפונית הממוחשבת של חברת תעופה ומנסה להזמין כרטיס טיסה. יוצרי המערכת הכניסו למחשב אוצר מילים רלוונטי: טיסות, תעופה, ערים, הזמנה וכו'. אבל מה קורה כשמישהו אומר למערכת 'אני רוצה להזמין טיסה לבוסטון כי זה יום הולדת של אשתי?' זה האתגר הגדול".

רבינר נזכר שלפני 20 שנה פסגת השאיפות היתה לגרום למחשבים לתמלל קול לטקסט. "הבעיה הזאת נפתרה", הוא אומר. "יש לדוגמה תוכנה בשם dragon של חברת nuance שעושה זאת. זה נחמד בתור אפליקציה, אבל כיום, כשהדור הצעיר מקליד כל כך מהר, לא בטוח שזה כל כך חשוב. המטרה היא שהמחשב יידע לשלב קול בצורה נכונה עם שאר האפליקציות. אם אתה מחפש מסעדה במפה במחשב, למשל, תוכל להצביע עם העכבר ולהגיד לו 'תמצא לי את המסעדה באזור הזה'".

"גם החיפוש בגוגל עדיין לא מושלם"

כיום טכנולוגיות זיהוי קולי נפוצות רק בשני תחומים - טלפונים סלולריים ומרכזי שירות לקוחות - אבל הן מתפשטות בהדרגה למוצרים נוספים. רבינר אומר כי טכנולוגיית זיהוי קול תתקדם עם הגידול בכוח המחשוב הזמין, בהתאם לחוק מור. "היכולת לנטרל רעשי רקע, להבין מבטא ולנהל שיחה קשורה לכוח העיבוד הזמין", הוא מסביר. "במעבדות חוקרים כבר מצליחים להגיע להישגים יפים בתחום זיהוי קול".

רבינר מזכיר כי גם החיפוש במנועי חיפוש באינטרנט לפי טקסט עדיין לא מושלם: "לא תמיד גוגל ימצא לך תשובה, גם אם תשאל אותו שאלה ברורה כמו מי זכה בבחירות בישראל ב-1984. אבל במקרים רבים גוגל יתן לך תוצאה די טובה. כך גם טכנולוגיית זיהוי קול - היא יכולה בשלב זה לתת מענה לא מושלם, אבל די טוב. והיא תלך ותשתפר".

רבינר מפתיע במקצת כשהוא מייעץ לסטארט-אפיסטים ויזמים של טכנולוגיות זיהוי דיבור לא לצפות להתעשר מהעיסוק בתחום. "אנשים לא קונים טכנולוגיה בגלל זיהוי קול, אלא מאחר שהיא עוזרת לאנשים לקבל שירות טוב יותר", טוען רבינר. "לכן השוק הפיננסי לטכנולוגיות זיהוי קול קטן. אף אחד לא ישלם לך כי המוצר שלך יכול לזהות קול או טקסט".

מה לגבי פקודות קוליות ברכב?

"בנושא הזה דווקא יש התקדמות. למשל, מיקרוסופט וניואנס משתפות פעולה במסגרת מוצר הקרוי פורד סינק, שמאפשר לנהגים להפעיל את הסלולרי ואת נגן המוסיקה שלהם ברכב באמצעות קול. אבל צריך לזכור: קול לעולם לא יוכל לשלוט במשהו קריטי ברכב. הסיבה היא שמערכות המחשב לא מושלמות, ויש מרווח של טעויות אפשרוית. בנהיגה זה יכול להיות קטלני. אז תמיד תוכל להפעיל מוסיקה, מזגן או מצלמה אחורית ברכב באמצעות קול, אבל לא לנהוג".

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

במקום לצעוק על המחשב, פשוט דברו אתו

טרם התפרסמו תגובות