וואלה
וואלה
וואלה
וואלה

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

מדענים ישראלים משתתפים בפרויקט טכנולוגי לשימור טקסטים עתיקים

גיא גרימלנד

25.8.2010 / 13:39

המיזם חדש מסייע בשימור מסמכים היסטוריים שהמחשבים מתקשים לפענח אותם לאחר שהם נסרקים



מדענים ממעבדת המחקר של יבמ בחיפה משתתפים במיזם משותף עם יותר מ-20 מוסדות אקדמיים וגופי מחקר באירופה לשימור מסמכים מהמאה ה-15 והלאה. שם המיזם - impact - מיועד לפתח כלים ושיטות שיאפשרו לשמר את טקסטים היסטוריים באמצעים דיגיטליים, לאפשר לגשת אליהם בחיפוש מקוון ולהבטיח את נגישותם לדורות הבאים.



מאמץ המחקר, הממומן על ידי הקהילה האירופית, הוביל לפיתוח מערכת דיגיטיזציה (ocr) העושה שימוש בשיטת מחשוב קהילתי (crowd sourcing) על מנת להציג שיטה חדשה לעיבוד של טקסטים היסטוריים. תוכנת הדיגיטיזציה שפותחה במעבדת יבמ מפחיתה משמעותית את הצורך בטיפול ידני יקר בטקסטים הסרוקים, הנובע משימוש שנעשה בעבר בגופנים מורכבים שאינם מוכרים לתוכנות בנות ימינו - כמו גם בשל השוני באוצר המילים המקובל ובמבנה השפה.



תפיסת המחשוב הקהילתי מאפשרת לקבוצות גדולות של מתנדבים הפזורים ברחבי אירופה להשתתף ולתרום מזמנם לאימות זיהוי הטקסטים ולתיקון שגיאות בזיהוי באמצעות מערכת אינטרנטית מקוונת. ככל שהתיקונים האלה מתבצעים, יודעת המערכת ללמוד ולתקן את שגיאותיה, על מנת להגיע לזיהוי טוב יותר בעתיד.



בעקבות הצלחת השלבים הראשונים של הפרוייקט מרחיבות יבמ והקהילה האירופית את שיתוף הפעולה, על מנת לכלול בו עתה ספריות לאומיות, מוסדות מחקר, אוניברסיטאות וחברות עסקיות נוספות.



טל דרורי, מנהל קבוצת עיבוד המסמכים במעבדת המחקר של יבמ בחיפה, אומר כי "פרויקט impact לא רק מעמיד לרשות גופי מחקר מרכזיים דרך לקרב אנשים אל טקסטים היסטוריים שלא היו נגישים ולא נראו לעיני הציבור בעבר: הוא גם מאפשר להם להפוך הם עצמם לחלק ממאמץ השימור. זוהי מערכת הדיגיטציה הראשונה המשלבת את עוצמת ההמון והקהילה – יחד עם טכנולוגיית זיהוי אופטי אדפטיבי, בעלת כושר לימוד ותיקון שגיאות, המסוגלת לטפל בטקסטים שנוצרו החל מהמאה ה-15 ועד לשלהי המאה ה-19".



מנועי ocr רגילים המוכרים כיום מטפלים היטב בטקסטים מודרניים. אולם, הדיו הדהוי, הנייר או הגוויל העתיק, כמו גם צורות מיוחדות של גופנים האופייניות למסמכים עתיקים, עלולים להוריד את רמת הזיהוי בשיעורים מהותיים, ולכן לחייב עבודה ידנית נרחבת לתיקון תוצאות הדיגיטציה. "הדרך היחידה המאפשרת דיגיטציה בהיקף רחב של חומר היסטורי היא זו של שיפור איכות תהליך הזיהוי האופטי של הטקסט", אומר דרורי.



המערכת שפותחה במעבדת המחקר של יבמ מאפשרת למתנדבים מכל רחבי אירופה לבדוק את אמינות הטקסט המעובד ולתקן שגיאות בזיהוי תוך שימוש במערכת אינטרנטית. על מנת לייעל את תהליך הבחינה יודעת המערכת להציג בפני הבודק לא רק את דף המקור הסרוק - אלא את המילה המדויקת הדורשת בחינה לעומק. כך, למשל, שילוב האותיות האנגליות 'r' ו-'n', המופיעות בצמוד זו לזו מוביל פעמים רבות לטעות בקריאה הממוחשבת, כאשר המחשב מניח כי צמד האותיות הם למעשה האות 'm'.



כאשר המערכת מגיעה לנקודות בהן עולה ספק לגבי הזיהוי - היא אוספת מקרים רבים כאלה שזוהו כ-''m הפזורים ברחבי הטקסט - ומציגה אותם ביחד ובסמוך למילה השנויה בספק. כך יכול הבודק להסיק בקלות רבה יותר מסקנות לגבי הזיהוי הנכון, ולתקן מספר גדול של מקרים בפעולה בודדת.



כאשר קיים ספק לגבי זיהוי מילה שלמה מוסיפה אותה המערכת למאגר של מילים בלתי ברורות המוצג בסדר אלפא-ביתי. המתנדבים המסייעים לפרויקט צריכים לקבל או לדחות הצעות של המערכת לזיהוי המילים האלה בתהליך המתבצע בהקשת מקש בודדת. בנוסף, משתמשת המערכת ביכולת ייחודית להרחבת אוצר המילים שלה, כך שמילים חדשות נוספות למילון הפנימי על בסיס זיהוי ותיקון המתקבל ממשתמשים שונים.



רשימת הגופים המשתתפים בפרויקט impact כוללת בין השאר את הספריות הלאומיות של הולנד, בריטניה, צרפת, אוסטריה וגרמניה, הספריה המרכזית של מדינת בוואריה שבגרמניה, הספריה האוניברסיטאית של גטינגן, המכון ההולנדי לבלשנות, אוניברסיטת מינכן, אוניברסיטת באת', הספריה הלאומית של צרפת, הספריה הלאומית של ספרד, המרכז למחשוב-על בפוזנן פולין וגופים נוספים.



דרורי אומר כי בשיטת מחשוב קהילתי יכולה לשמש גם חקירת טקסטים עתיקים בעברית. "זאת מערכת שמאפשרת לאנשים רבים לתקן את הטקסט ולכן מקצרת את הזמן". לדבריו היא מסוגלת גם לנתח טקסטים עתיקים בעברית אבל לא ממוקדת בכך. "יכול להיות בהחלט שמוסדות ואוניברסיטאות ישראלים יוכלו להשתמש בטכנולוגיה שפיתחנו לניתוח עברית אבל היא בעיקר ממוקדת בשפה הלטינית".



דרורי אומר כי בפרויקט הנוכחי השתתפו עשרות אנשים, ובאופן ספציפי שבעה חוקרים ישראלים עמלו על כך מטעם יבמ חיפה.

טרם התפרסמו תגובות

הוסף תגובה חדשה

+
בשליחת תגובה אני מסכים/ה
    0
    walla_ssr_page_has_been_loaded_successfully