בין יצרניות הטכנולוגיה המובילות בעולם בתחום זה נמצאות ניואנס, ספיץ'וורקס, יבמ ופיליפס. בארה"ב משמשת כבר היום טכנולוגיה זו באופן נרחב בעיקר ליישומים במוקדי שירות לקוחות. "לא מדובר רק בחיסכון זמן של ניווט אינסופי בסבך של תפריטים והקשות", אומר רפי נשיא, נשיא חברת טקטיקס (Tactix) הישראלית העוסקת ביישום ואינטגרציה של מערכות מסוג זה. "המשמעות היא לא רק לדבר בפה במקום לדבר באצבעות, המשמעות היא חיסכון אדיר של מאות מיליוני דולרים בשנה לחברות שמחזיקות מרכזי שירות לקוחות גדולים. מערכת כזו יכולה לחסוך יותר מ-50% מנציגי שירות הלקוחות המועסקים היום במוקדים. מחקרים הראו ששיעור השימוש במערכת הממוחשבת ללא הגעה לנציג אנושי עלה פי שניים כאשר התקשורת עם המענה הממוחשב היתה באמצעות קול, ולא הקשה".
לפי נתוני חברת המחקר קלסי גרופ, היקף השוק העולמי של טכנולוגיות זיהוי דיבור הוא כיום כ-770 מיליון דולר, והוא צפוי לגדול להיקף של 27 מיליארד דולר ב-2006. חברת המחקר DMG טוענת שתוך חמש שנים, ארגון שלא ישתמש בטכנולוגיה הזו ייחשב מיושן ובעייתי. בישראל הליך האימוץ איטי יותר. "בעברית יש אותיות ניקוד, ומאחר שהמערכת שולפת נתונים מתוך בסיס נתונים שמאורגן כטקסטים, קשה יותר לזהות את המלים", מסביר נשיא.
להערכתו, היקף מכירות טכנולוגיה זו בשוק הישראלי היום הוא לא יותר ממיליון דולר, אך בעוד כחמש שנים יגיע ל-40-30 מיליון דולר.
עם זאת, בישראל נוסדו כמה חברות וסטארט-אפים המפתחים טכנולוגיות ייחודיות לשימוש עולמי בתחום זיהוי הדיבור. חברת ארט מרמת אביב, למשל, שהוקמה ב-90', עוסקת בפיתוח טכנולוגיות זיהוי קול במכשירים סלולריים. הטכנולוגיה שלה נמצאת כבר בשימוש במכשירים של מוטורולה, סימנס, פאנאסוניק, מיצובישי ורבות אחרות.
חברת פונטיק סיסטמס הישראלית השלימה לאחרונה פיתוח גרסה עברית למנוע זיהוי קולי ייחודי אותו פיתחה. לפי הערכות בשוק, בזק עושה ניסויים בימים אלה בטכנולוגיה של פונטיק כדי ליישם אותה בעתיד במוקד מענה 144 במקום הנציגים המאיישים אותו.
את המערכות של פונטיק מיישמות בתוך ארגונים חברות כגון טקטיקס, המתאימות את מנוע הדיבור לצרכים הספציפיים של הארגון. המערכת של פונטיק תמכה עד כה בכמה ניבים של אנגלית - בריטית, קנדית, סקוטית, אירית, וכן בצרפתית ובפינית. לצורך פיתוח הגרסה העברית אספה Human Voices עבור פונטיק דוגמאות קול של יותר מ-1,700 דוברים המהווים חתך מייצג של האוכלוסייה, מבחינת מבטאים, מין, גיל וכו'. דגימות אלה משמשות את החברה להפעלת הליך אימון אוטומטי שבו למדה המערכת את אוסף הצלילים האופייני לשפה העברית.
ב-Human Voices המתמחה באיסוף דוגמאות קול עבור מערכות כאלה עובדים בעיקר בלשנים, אנשי סאונד וטכנאים. הסטארט-אפ הממוקם בכפר סירקין ביצע כבר כמה פרויקטים בקנדה, ארה"ב וקולומביה. אבל קפיצת הדרך מבחינתו ממתינה בדרום מזרח אסיה. החברה מתכננת לפתוח משרדים בהודו בחודשים הקרובים: "בהודו יש 14 שפות שונות, עם 700 ניבים שונים, וכן עשרות ניבים לשימוש בשפה האנגלית", מסביר גולן. "לכן מדובר בהזדמנות עסקית אדירה. כך גם כל דרום מזרח אסיה, שהיא היום השוק הצומח ביותר בעולם בתחום הטלקום והמחשוב. נפתחים שם מרכזי שירות לקוחות ענקיים, והדרישה למנועי זיהוי דיבור תהיה כמעט אינסופית. אנחנו מאמנים את המערכות היום לא רק על זיהוי ניבים ומבטאים שונים בשפות שונות, אלא גם לזהות את אותו משפט כאשר הוא נאמר בסביבות רעש רקע שונות - ברכב, בתחנת רכבת, במשרד וברחוב".
גם חברת פרסיי Persay הישראלית, חברה בת של קומברס, מפתחת טכנולוגיות זיהוי דיבור, אם כי בנישה קצת שונה: זיהוי הדובר הספציפי על פי זיהוי ביומטרי של קול הדובר.
ומה בעתיד? הטכנולוגיה הזו לא תהיה רק במרכזי שירות לקוחות, אלא בכל תחום כמעט: מידע על תחבורה ציבורית, מניות, בדיקת מחירים, קשר עם משרדי ממשלה, רכישת סרטים והזמנת מקומות במסעדות, טיפול בכרטיסי אשראי ועוד.
"המהפכה הכי גדולה תקרה כאשר נוכל להשתמש באינטרנט באמצעות הקול, ולא נצטרך להקליד יותר", אומר נשיא. "זה כבר לא חלום, יש פרוטוקולי אינטרנט קוליים המאפשרים זאת, ונוכל להגיע לפורטלי אינטרנט באמצעות דיבור ולקבל מהם אינפורמציה. המשמעות היא שנוכל להגיע לאינטרנט שוב דרך הטלפון הרגיל".
השוק העולמי בענף זיהוי הקול צפוי לצמוח ל-27 מילארד דולר ב-2006
גלית ימיני
13.4.2004 / 9:47