חברת הסטארטאפ הישראלית Baz דורגה במקום הראשון במדד הדיוק של מבחני בדיקות קוד שנכתב על ידי AI, במסגרת מדד Code Review Bench שהושק לאחרונה. הדירוג מציב את Baz לפני מעבדות ה-AI מהמובילות בעולם, בהן OpenAI, Anthropic, Google ו-Cursor. בנוסף, דורגה החברה במקום השני במדד המשוקלל, הכולל גם את הדיוק ואת היקף הכיסוי.
המדד Code-Review Bench הוא הראשון מסוגו בעולם, ומתמקד בתחום בדיקת איכות הקוד שנכתב על ידי AI. מדדים דומים כמו SWE-BENCH הפופולרי פותחו כדי למדוד את ההתקדמות של המודלים העדכניים בביצוע משימות קידוד, אך נמצאו כלא אמינים יותר, שכן המודלים אומנו כדי לנצח אותם. חברות הפועלות בקטגוריה ערכו מבחני השוואה פנימיים, אולם מטבע הדברים, התוצאות בשוק התקבלו בספקנות. זו פעם ראשונה שנערכת השוואה אוביקטיבית בידי גוף בלתי תלוי.
חברת Baz הוקמה בסוף 2023 על ידי היזם גיא איזנקוט (בנו של הרמטכ"ל לשעבר גדי איזנקוט), ונמרוד קור, ששרתו יחד ב-8200 ובעלי עבר משותף בתחום הסייבר. גיא היה ממייסדי Bridgecrew שנמכרה בשנת 2021, שנתיים לאחר הקמתה, לפאלו אלטו בסכום של 200 מיליון דולר. לאחר המכירה שימש סמנכ"ל ניהול מוצר ואחראי על אבטחת אפליקציות בפאלו אלטו. נמרוד היה העובד השלישי ומנהל קבוצה בהמשך בפאלו אלטו. בין המשקיעים בחברה Battery ו-Boldstart וכן הקרנות Vermillion, Secret Chord ו-Fusion.
המדד החדש Code-Review Bench פותח על ידי חוקרים שעבדו בפיתוח מודלים מתקדמים ב-Google DeepMind, Anthropic ו-Meta במסגרת עבודת מעבדת מחקר בסן פרנסיסקו. צוות המעבדה בחן כיצד מודלים מבינים באופן אמיתי ומלא אינטליגנציה מכנית. החברה פועלת מתוך תפיסה שבניית מודלים באמצעות ניסוי וטעייה אינה שקולה להבנה מדעית שלהם. מהסיבה הזאת החברה מפתחת כעת מדדים להבנת האינטליגנציה האמיתית שמאחורי האימוץ של טכנולוגיות כתיבת קוד בעזרת בינה מלאכותית.
הדרוג החדש יתעדכן מדי חודש והוא מבוסס על שילוב של מדידה מבוקרת ומדידה התנהגותית. במדידה המבוקרת מפעילים את כלי הבקרה של החברות השונות על אותם שינויים בקוד ומשווים אותם לסט בעיות מאומת. במדידה ההתנהגותית מנתחים כיצד מפתחים מגיבים בפועל להערות בכלי בדיקה במאגרי קוד פתוחים.
השילוב בין שתי הגישות נועד לצמצם את הפער בין מדידה תיאורטית של הסוכנים לבין הערך האמיתי שלהם במשימות קידוד. המתודולוגיה מתעדכנת באופן שוטף, כוללת ריענון חודשי של הנתונים, בקרה על הטיות של מודלי שיפוט אוטומטיים, והרחבה מתמדת של סט הבעיות כדי למנוע "קיבוע" של התוצאות או התאמה מלאכותית למדד. הסיבה לכך היא הבעיה הידועה שבה כלים לומדים "לנצח את המדד" במקום לשפר את המציאות, באמצעות עיגון למדדים התנהגותיים ופתיחות מלאה של המתודולוגיה.
הסטארטאפ Baz מפתח כלי בינה מלאכותית לבדיקת קוד באופן אוטומטי, המסייעים לצוותי פיתוח לזהות בעיות בקוד ולהציע תיקונים לפי כללים והתאמות שהצוות מגדיר. המוצר פותר את התסכול של בדיקות קוד ידניות חוזרות, משפר איכות קוד ומייעל את שיתוף הפעולה בצוותי פיתוח.
"מדד הדיוק, שבו דורגנו במקום הראשון, מחושב לפי שיעור הבדיקות שעליהן מפתחים פועלים בפועל, ולכן הוא משקף יחס בין ממצא וודאי ל'רעש' מיותר של התראות בעולם האמיתי", אומר גיא איזנקוט. "בבדיקת קוד שנכתב בסיוע AI דיוק הוא תנאי לאימוץ - אם הכלי מייצר יותר מדי רעש, מפתחים מפסיקים להקשיב, אבל אם הוא עקבי ומדויק, הוא הופך לחלק טבעי מזרימת העבודה. ההובלה במדד זה מחזקת את ההנחה המרכזית שלנו שמפתחי תוכנה צריכים כלי שמעדיף איכות וסיגנל גבוה על פני כמות הערות".
"מדובר בהשקה של בנצ'מרק מתפתח. ל-Baz יש כיום מדגם קטן יותר של בקשות שנמדדו לעומת חלק מהשחקנים הוותיקים, ולכן ייתכן שינוי בדירוגים ככל שהיקף הנתונים יגדל. בנוסף, מדד הדיוק מבוסס על פעולות מפתחים בפועל שזהו אינדיקטור חזק אבל לא מושלם לאיכות טכנית. גם מנגנוני השיפוט והגדרת "מהי בעיה" משתפרים לאורך זמן, ולכן התוצאות עשויות להתעדכן עם שיפור המתודולוגיה. אנו רואים בכך אינדיקציה משמעותית לכיוון הנכון, אך לא נקודת סיום, ונמשיך לעקוב אחרי הביצועים ככל שהבנצ'מרק יתפתח."
מעבר למוצר עצמו, Baz משקיעה במחקר עצמאי בתחום מדידת איכות הקוד שמייצרת בינה מלאכותית, פירוק שינויים מורכבים לנושאים ברורים, וזיהוי כשלים לוגיים ושינויי ממשק שעלולים להיות שבירת תאימות בעולמות התוכנה. בין לקוחותיה נמנות חברות טכנולוגיה מובילות בארץ ובעולם, ביניהן חברות הסייבר המובילות בישראל, שפועלים בשיתוף לאימוץ אחראי של בינה מלאכותית על ידי ארגוני פיתוח מאובטחים.
