מצ"ח: לא תיפתח חקירה פלילית נגד עומר מיארה בנה של היועמ"שית בהרב-מיארה. מיארה נחשד בגניבת אפוד קרמי מחייל במהלך שירות מילואים ב-2023. המכתב שוגר אמש בתשובה לפניית עו"ד זהבה גור מלפני חצי שנה. "האירוע טופל בתוך היחידה באמצעות הליך משמעתי, כולל הדחת הקצין מהמילואים, ובהיעדר תלונה מהנפגע - לא נמצא צורך בחקירה פלילית". (עידן יוסף)
חוקרים מזהירים: בלי מודל שפה לאומי ישראל מסכנת את ביטחונה
חוקרים מתריעים כי ההסתמכות על מודלי שפה זרים חושפת את ישראל להטיות תרבותיות ולפגיעה בריבונות ובביטחון
הלצה מפורסמת בבלשנות גורסת כי שפה היא דיאלקט שיש לו צבא. המשמעות היא שלא כל צורת דיבור זוכה למעמד רשמי אלא רק שפה שמגובה במדינה ובזהות לאומית. בעידן הבינה המלאכותית ההלצה הזו מקבלת ממד חדש. מודלי שפה גדולים כמו GPT ג’מיני או קלוד אינם עוד כלי טכנולוגי בלבד אלא הופכים ללב הזהות והריבונות הדיגיטלית של מדינות.
במאמר שכתבו ריאל סובלמן ומיכאל גנקין מהמכון למחקרי ביטחון לאומי נטען כי ישראל חייבת לפתח מודל שפה לאומי משלה. לדבריהם נושא זה הוזכר רק בשוליים בדו"ח ועדת נגל להאצת תחום הבינה המלאכותית בישראל, אך בפועל הוא קריטי לעתיד המדינה. אם ישראל לא תפתח מודל עצמאי היא עלולה למסור שליטה על המידע והתרבות שלה לגורמים זרים.
מודלי שפה אינם ניטרליים. הם משקפים את הערכים ואת הנרטיבים של מי שפיתח אותם. כך למשל מודל מערבי יתאר את אירועי טיאננמן כהתקוממות אזרחית נגד שלטון קומוניסטי, בעוד מודל סיני יציג גרסה שמתיישרת עם הקו הרשמי או יתחמק מלתת תשובה. כאשר רוב המידע שבו המודלים הוזנו הוא באנגלית, הם מציגים תמונת עולם מערבית, ובמקרה של ישראל הדבר עלול להביא למענה שטחי או מוטה בסוגיות לאומיות ותרבותיות.
כדי לאמן מודל גדול יש צורך בעשרות טריליוני מילים כתובות. בעברית אין די חומר באיכות מספקת בהיקפים כאלה. אחת הדרכים להתמודד עם הבעיה היא התאמת מודלים קיימים לעברית. דוגמה לכך היא DictaLM 2.0 שאומן על חמישים מיליארד מילים בעברית והצליח להציג תוצאות טובות למרות גודלו המצומצם. יתרונו הגדול שהוא מודל פתוח שניתן להריץ במחשוב מקומי, מה שמבטיח שמידע רגיש לא חייב לצאת מגבולות המדינה.
פיתוח מודל עצמאי כרוך בעלויות עתק. עלות האימון של GPT 4 הוערכה בכחמישים מיליון דולר, בעוד עלות פיתוח כוללת של מודלים גדולים מגיעה למאות מיליוני דולרים ואף עד תשעה מיליארד דולר. לכך יש להוסיף את העלויות של הקמת מרכזי מחשוב עצומים וצריכת אנרגיה אדירה. בישראל התקציב הקיים קטן בהרבה מהנדרש, ולכן הדיון הציבורי מתמקד בשאלה כמה זה יעלה במקום בשאלה האם אפשר להרשות לעצמנו לוותר על כך.
המאמר מצביע גם על דוגמה מקומית. מערכת "צ’אט המשפט" של הרשות השופטת מבוססת על מודל ג’מיני של גוגל. המערכת חוסכת זמן ומגיעה לרמת דיוק גבוהה, אך השימוש במודל זר חושף את ישראל לסיכון שמידע רגיש של אזרחיה יעובד מחוץ לגבולות המדינה. נוסף לכך העלות גבוהה יותר והאפקטיביות פחותה לעומת מצב שבו היה פותח מודל ישראלי ייעודי.
לדברי החוקרים, לישראל אין פריבילגיה להסתמך רק על מודלים זרים. מודל לאומי בעברית יבטיח שהערכים, התרבות והניואנסים הלשוניים המקומיים יבואו לידי ביטוי. הוא ישמש בסיס לריבונות דיגיטלית ולביטחון לאומי. או כפי שהלצה הבלשנים מזכירה, שפה בלי צבא היא דיאלקט, ומדינה בלי מודל שפה לאומי עלולה לאבד את זהותה ואת ביטחונה בעידן הבינה המלאכותית.
