וואלה
וואלה
וואלה
וואלה

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

מדענים ישראלים משתתפים במיזם טכנולוגי בינלאומי לשימור וזיהוי טקסטים עתיקים

מאת גיא גרימלנד

29.8.2010 / 6:56

אנשי מעבדת יבמ בחיפה משתתפים יחד עם 20 מוסדות באירופה במיזם לפענוח מסמכים עתיקים באמצעים דיגטליים



>> מדענים ממעבדת המחקר של יבמ בחיפה משתתפים במיזם משותף עם יותר מ-20 מוסדות אקדמיים וגופי מחקר באירופה לשימור מסמכים מהמאה ה-15 ומתקופות מאוחרות יותר. המיזם, שנקרא impact, מיועד לפתח כלים ושיטות שיאפשרו לשמר את הטקסטים ההיסטוריים באמצעים דיגיטליים, לאפשר לגשת אליהם בחיפוש מקוון ולהבטיח את נגישותם לדורות הבאים.

מאמץ המחקר, הממומן על ידי הקהילה האירופית, הוביל לפיתוח מערכת דיגיטיזציה (ocr) העושה שימוש במחשוב קהילתי (crowd sourcing) כדי להציג שיטה חדשה לעיבוד של טקסטים היסטוריים. תוכנת הדיגיטיזציה, שפותחה במעבדת יבמ, מפחיתה באופן משמעותי את הצורך בטיפול ידני ויקר בטקסטים הסרוקים, הנובע משימוש שנעשה בעבר בגופנים מורכבים שאינם מוכרים לתוכנות בנות ימינו, כמו גם בשל השוני באוצר המלים המקובל ובמבנה השפה.



תפישת המחשוב הקהילתי מאפשרת לקבוצות גדולות של מתנדבים הפזורים ברחבי אירופה להשתתף ולתרום מזמנם לאימות הטקסטים ולתיקון שגיאות בזיהוי באמצעות מערכת אינטרנטית מקוונת. ככל שמרבים בתיקונים המערכת יודעת ללמוד ולתקן את שגיאותיה, כדי להגיע לזיהוי טוב יותר בעתיד.



בעקבות הצלחת השלבים הראשונים של הפרויקט, מרחיבות יבמ והקהילה האירופית את שיתוף הפעולה כדי לכלול בו גם ספריות לאומיות, מוסדות מחקר, אוניברסיטאות וחברות עסקיות נוספות.



טל דרורי, מנהל קבוצת עיבוד המסמכים במעבדת המחקר של יבמ בחיפה, אומר כי "פרויקט impact לא רק מעמיד לרשות גופי מחקר מרכזיים דרך לקרב אנשים אל טקסטים היסטוריים, שלא היו נגישים ולא נראו לעיני הציבור בעבר: הוא גם מאפשר להם להפוך הם עצמם לחלק ממאמץ השימור".



כדי לייעל את תהליך הבחינה יודעת המערכת להציג בפני הבודק לא רק את דף המקור הסרוק, אלא את המלה המדויקת הדורשת בחינה לעומק. כך, למשל, שילוב האותיות האנגליות "r" ו-"n", המופיעות בצמוד זו לזו, מוביל פעמים רבות לטעות בקריאה הממוחשבת, כשהמחשב מניח כי rn הן למעשה האות m. כשהמערכת מגיעה לנקודות שבהן עולה ספק לגבי הזיהוי - היא אוספת מקרים רבים כאלה שזוהו כ-m, הפזורים ברחבי הטקסט - ומציגה אותם ביחד ובסמוך למלה שאותה מנסים לפענח. כך יכול הבודק להסיק בקלות רבה יותר מסקנות לגבי הזיהוי הנכון, ולתקן מספר גדול של מקרים בפעולה בודדת.



רשימת הגופים המשתתפים בפרויקט impact כוללת, בין השאר, את הספריות הלאומיות של הולנד, בריטניה, צרפת, אוסטריה וגרמניה, הספרייה המרכזית של מדינת בוואריה שבגרמניה, הספרייה האוניברסיטאית של גטינגן, המכון ההולנדי לבלשנות, אוניברסיטת מינכן, אוניברסיטת באת', הספרייה הלאומית של צרפת, הספרייה הלאומית של ספרד והמרכז למחשוב-על בפוזנן שבפולין.



לדברי דרורי, המערכת מסוגלת גם לנתח טקסטים עתיקים בעברית אבל לא ממוקדת בכך: "יכול בהחלט להיות שמוסדות ואוניברסיטאות ישראלים יוכלו להשתמש בטכנולוגיה שפיתחנו לניתוח עברית, אבל היא בעיקר ממוקדת בשפה הלטינית".



הוא אומר כי בפרויקט הנוכחי השתתפו עשרות אנשים, ובהם שבעה חוקרים ישראלים מטעם יבמ חיפה.

טרם התפרסמו תגובות

הוסף תגובה חדשה

+
בשליחת תגובה אני מסכים/ה
    0
    walla_ssr_page_has_been_loaded_successfully