וואלה
וואלה
וואלה
וואלה

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

מה קרה בסלקום?

מאת אור הירשאוגה

5.12.2010 / 8:11

בלילה לפני התקלה בסלקום הריצו מהנדסי החברה קוד שגרם להשחתת נתונים. החלטה שלא להפסיק סנכרון בין המערכת גרמה להתפשטות הבעיה גם למערכת הגיבוי

תקופה לא פשוטה עוברת על מחלקת המיתוג של סלקום, הפועלת תחת חטיבת ההנדסה של החברה. לפני כחודשיים קוצץ כוח האדם במחלקה, וכעת נראה כי פעולות שביצעו עובדי המחלקה, המונה עשרות עובדים, גרמו במישרין לתקלה שהשביתה את המכשירים הסלולריים של כשליש מתושבי המדינה למשך 12 שעות.

בבוקר יום רביעי קמו עובדי מחלקת המיתוג ליום שלא ישכחו לעולם. במהלך הלילה שבין שלישי לרביעי הריצו אנשי המחלקה קטע קוד ("סקריפט") אותו כתבו אנשי סלקום בעצמם. לכאורה פעולה שגרתית. הרצת קטע הקוד נועדה לאפשר לבסיס המידע הכולל את רשומות הלקוחות הסלולריים להכיל מידע על שירותים חדשים. קטע הקוד נוסה לפני לכן בסביבת מעבדה, שבה פעל באופן תקין. בסביבה החיה, עם זאת, גרם הקוד לכשל שהביא לתקלה החמורה שידעה חברת סלולר ישראלית מעודה.

משהחל לרוץ במערכת גרם קטע הקוד להשחתת נתונים - המידע הרשום של הלקוח ניזוק, ומנע בפועל אימות של זהות המשתמש הסלולרי ולמניעת ביצוע שיחות. באופן תקין במקרה כזה היו צריכים בסלקום לעבור למערכת חלופית. החברה אכן מחזיקה בשתי מערכות זהות - הן לצורך ניתוב עומסים והן לצורכי גיבוי - האחת באור יהודה והשנייה ברמלה. אלא שהשחתת בסיסי הנתונים אירעה גם במערכת החלופית.

שתי המערכות מסונכרנות ביניהן ביומיום, כדי למנוע חוסר תאימות בנתונים. עם זאת, כשמבוצעים שינויים במערכת, נוהל הזהירות מחייב שהסנכרון בין המערכות יופסק. פעולה זו לא בוצעה בסלקום, כנראה מטעמי חסכון בזמן: הפסקת הסנכרון היתה מחייבת את מחלקת המיתוג לבצע את הרצת הקוד בשתי המערכות בנפרד.

בשלב זה עמדו בפני אנשי סלקום שתי אפשרויות: שיתוק כלל הרשת - כלומר כיבוי שתי המערכות וטעינתן מחדש בבסיס הנתונים כפי שנשמר בעותקי גיבוי על דיסקים, האפשרות השנייה היתה ניסיון לבצע הנדסה לאחור של פעולת הקוד על בסיס הנתונים בזמן אמת.

"אין פתרונות פשוטים בהליך כזה", הסביר מקור שהיה מעורב בתיקון התקלה. הבחירה באפשרות הראשונה היתה גורמת לשיתוקה של כלל רשת הסלולר של סלקום למשך כמה שעות, ולאובדן העדכונים בבסיס הנתונים למשך התקופה שחלפה מאז בוצע הגיבוי. האפשרות השנייה כללה רכיב לא מבוטל של סיכון: קשה להעריך את משך זמן התיקון - הוא עשוי להמשך כחצי שעה, או כמה ימים. יתר על כן, ניסיון לבצע הנדסה לאחור על מערכת חיה, בזמני עומס, קשה פי כמה.

בסלקום בחרו באפשרות השנייה: היא היתה ודאית פחות, אך כך יכלו בחברה לקוות כי משך התקלה יקוצר וכי מספר הלקוחות הנפגעים יקטן. זו גם הסיבה שמנכ"ל סלקום, עמוס שפירא, בחר לציין לאורך כל יום התקלה כי אינו יודע מתי תשוב המערכת לפעול בצורה תקינה. לפי דיווחי החברה ב-13:17 היקף התקלה הגיע לשיא חומרתו - בשעה זו היה שיעור השיחות המוצלחות ברשת כ-40%. מכיוון שמדובר בהליך הדרגתי תיקון השחתת בסיס הנתונים גרם לעלייה מתמשכת באחוז השיחות המוצלחות. בסלקום דיווחו כי ב-16:00 עמד אחוז השיחות המוצלחות ברשת על כ-66%. הקטנת העומס על המערכת בשעות הערב פישטה בהרבה את התהליך וסייעה להחזיר את השירות למרבית לקוחות סלקום. ב-21:15, לפי דיווחי החברה, חזרה המערכת לכשירות מלאה.

שומרים על עמימות

בסלקום מקפידים לשמור על עמימות בכל הנוגע למהות התקלה. אנשי החברה מדגישים כי מהות התקלה אינה ידועה, וכי חברת נוקיה-סימנס, יצרנית מערכת hlr עליה נמצא בסיס הנתונים שהושחת, עורבה כבר בשלב מוקדם. עוד נטען מהחברה כי לא בוצע כל הליך יוצא דופן בלילה שבין שלישי לרביעי.

תיאור השתלשלות האירועים שהובא כאן נסמך על ראיונות עם גורמים רבים, חלקם לקחו חלק פעיל בתיקון התקלה. תיאור זה בעייתי מאוד לסלקום. הוא מצביע על כך שהתקלה נגרמה באופן ישיר בשל פעולה של מהנדסי החברה, וכי מהנדסי החברה הם שכתבו את הקוד שיצר את הכשל. כמו כן הוא מצביע על כך שבשתי נקודות החלטה פעלה בחרה החברה במסלול שהיה כרוך בסיכון: הן בבחירה שלא להפסיק את הליך הסינכרון בין מאגרי המידע הכפולים והן בהחלטה על אופן תיקון התקלה. לפי גורמים בשוק התקשורת, הראשונה מבין אלה היתה חייבת לערב דרגים בכירים בחברה.

מסלקום נמסר בתגובה: "הדברים שמובאים מבוססים על ספקולציות. החברה לא תתייחס לדברים כל זמן שהבדיקה לא הסתיימה ולשם כך נמצאים בישראל מהנדסים בכירים מטעם נוקיה-סימנס".

מהי מערכת hlr?

מערכת ה-hlr, רכיב ליבה ברשתות סלולריות מסוג gsm, מאחסנת שדות מידע על כל לקוח ברשת: פרטי כרטיס ה-sim של הלקוח, מספר הטלפון, השירותים הזמינים לו ומספרי אימות.

מערכת hlr של סלקום היא מערכת של נוקיה-סימנס. פרטנר מחזיקה במערכת מקבילה של אריקסון, ואילו פלאפון מחזיקה במערכת של hp. בדומה לחברות הסלולר האחרות בישראל, מחזיקה סלקום בשתי מערכות hlr - אחת ברמלה והשנייה באור יהודה. כפל המערכות הזה נועד לשם חלוקת עומסים ולצורכי גיבוי.

בכל כמה שבועות מריצות חברות הסלולר קוד שמטרתו שינוי מבנה בסיס הנתונים במערכת במטרה לעדכן את השירותים המוצעים ללקוח, למשל, לשם הפעלת שירות חדש דוגמת שיר בהמתנה. בלילה שבין שלישי לרביעי בוצעה פעולה זו בסלקום.

בפרטנר ופלאפון חוקרים את התקלה בסלקום

ארכיטקטורת הרשת של פרטנר ופלאפון אינה שונה בהרבה מזו של סלקום. תקלה מסוג זו שהתרחשה בסלקום אפשרית בהחלט גם בחברות האחרות. זו, כנראה, הסיבה לכך שבפרטנר ובפלאפון רואים את התקלה בחומרה רבה. שתי החברות נכנסו מיד להליך תחקור של האירוע במטרה למנוע את הישנותו ברשתותיהן הן.

אין זה מן הנמנע שגם הליך קבלת ההחלטות היה חוזר על עצמו גם במתחרות. ההחלטה שלא להפסיק את הסנכרון בין מערכות ה-hlr אינה בהכרח רשלנית. "מדובר הליך שגרתי עם לא מעט מקום לשיקול דעת", הסביר מקור בכיר בשיחה עם themarker. כך גם בכל הנוגע להחלטה לבצע הנדסה לאחור מרגע היוודע התקלה.

ביצועו של הליך כזה היה יכול לקצר משמעותית את משך התקלה ואת היקף הלקוחות שנפגעו. עם זאת, מכיוון שמדובר בהליך שאינו ודאי, יכול היה הליך זה לגרום להימשכותה לאורך זמן רב.

  • עוד באותו נושא:
  • סלקום

טרם התפרסמו תגובות

הוסף תגובה חדשה

+
בשליחת תגובה אני מסכים/ה
    0
    walla_ssr_page_has_been_loaded_successfully