Bypassing AI Safeguards and Paul Virilio's Integral Accident

Hillel Kobrovski
לפני שעתיים (2)
זמן קריאה 3 דקות

ב YNET פורסמה (30.04.26) כתבה בנושא שמטריד את מנוחתי כבר הרבה זמן AI Safety והקלות הבלתי נסבלת ש "משתמשים רגילים" מצליחים לעקוף את מנגנוני הבקרה והבטיחות ב Gen-AI, מנגנונים שמטרתם למנוע שימוש לרעה במודלי שפה גדולים (LLM). הכתבה קיבלה את השם "המדריך להרג ההמוני: צ'אטבוטים מלמדים איך ליצור נשק ביולוגי", ובתקציר רשמו: תחקיר חדש של ה"ניו יורק טיימס" חושף שמערכות AI מספקות מידע רגיש ומפורט על ייצור והפצה של חומרים קטלניים, גם למי שאין רקע מדעי. חלק מהמודלים מסרבים בהתחלה, אבל נשברים אחרי ניסוח מתוחכם יותר של שאלות. בטיחות בינה מלאכותית נשמעת לרוב כמו דיון תיאורטי של חוקרים ואנשי רגולציה, אבל מי שקורא את התחקיר ב־ynet על "המדריך להרג ההמוני" מבין מהר מאוד שהשיחה הזו כבר מזמן עברה מהאקדמיה לשטח. צ’אטבוטים שמסוגלים לספק מדריכים מעשיים לייצור נשק ביולוגי מדגימים בצורה חריפה עד כמה ה־AI הפך מכלי עבודה חכם למכפיל כוח פוטנציאלי באיומים קיצוניים.

כאן בדיוק נכנס לתמונה פול ויריליו (Paul Virilio), פילוסוף הטכנולוגיה שדיבר על "התאונה האינטגרלית" ("Integral Accident"). כדי להסביר זאת בצורה פשוטה: כאשר אתה ממציא טכנולוגיה חדשה, למעשה באותו רגע ממש אתה יצרת גם את הבעיה הטכנולוגית הבאה היחודית לאותה טכנולוגיה חדשה. לדוגמא כשאתה ממציא את המטוס, אתה ממציא גם את התרסקות המטוס. כשאתה מפתח כור גרעיני, אתה מייצר גם את האפשרות לדליפתו ולאסון צ’רנוביל הבא.

באותו אופן, כשאנחנו בונים מודלי שפה עצומים, זמינים ונגישים לכולם, אנחנו ממציאים גם את התאונה האינטגרלית הדיגיטלית הבאה: מצב שבו אותה טכנולוגיה שנועדה להנגיש ידע ולזרז מחקר, מאפשרת גם לאנשים חסרי מומחיות לקבל "קיצור דרך" מעשי לתרחישים מסוכנים כגון: טרור ביולוגי, ייצור נשק חם גם ברמת המעבדה הביתית, כתיבת קוד עיון להתקפות סייבר, יצירות תוכן Deep Fake (ווידיאו, אודיו, ויזואל, טקסט) למטרות של הונאות סייבר או הפצה של Fake News למטרות של קמפיין השפעה פוליטית או טרור פסיכולוגי. יש עוד תרחישים רבים ומגוונים לניצול לרעה של טכנולוגיה זו בדרך שעלולה לגזול חיי אדם.

הנקודה המדאיגה באמת היא שהסכנה הזו איננה "באג" במערכת היא תכונה (כמו שכל מפתח תוכנה שעשה טעות יגיד לך). היכולת של מודלים לפרק תהליכים מורכבים, להסביר שלב־אחר־שלב, להציע וריאציות ולייעל רעיונות, היא בדיוק מה שהופך אותם לכלי חלום עבור חוקרים ומדענים, ולסיוט עבור מי שמתעסק בביטחון לאומי, הגנת סייבר ובהגנה על בריאות הציבור. גם כאשר המערכות "מסרבות" בהתחלה לעזור בשאלה ישירה על נשק ביולוגי, מספיק לעקוף את זה בניסוח מתוחכם או בגרסאות פחות מסוננות, והמידע זורם. למי שפיספס את הניסוי שערך בלוגר אוסטרלי, האם ה Chat GPT יתעלם משלושת חוקי הרובוטיקה של אייזק אסימוב (או ארבעת החוקים אם לוקחים בחשבון את חוק 0) והוא בסופו של דבר בלי למצמץ ילחץ על ההדק 🔫 לינק לסרטון המלא (14 דקות) לינק

https://video.wixstatic.com/video/bd83c8_035033bb307848878b7cd8c6893a8f9e/720p/mp4/file.mp4

מנקודת מבט של אנשי סייבר, מדובר בשינוי פרדיגמה: לא עוד הגנה על מערכות מידע בלבד, אלא על ממשקי ידע.

אם בעבר ההפרדה בין "מי שיודע" לבין "מי שמסוגל לבצע" דרשה שנות הכשרה, גישה למעבדות וקשרים אקדמיים, הרי ש־AI שובר את החיץ הזה. זה כבר לא רק דליפת נתונים או כופרה, אלו מודלים שמורידים את רף הכניסה לאיומים ביולוגיים, כימיים או היברידיים.

במונחים של ויריליו, אנחנו לא יכולים להרשות לעצמנו לחשוב על AI רק דרך פריזמה של "חדשנות" ו"פרודוקטיביות". כל קפיצה טכנולוגית כזו מייצרת במקביל גם את צורת התאונה שלה, ולעולם הסייבר יש אחריות להיות אלה שמצביעים על התאונה האינטגרלית בזמן אמת, לפני שהיא הופכת מאפשרות תיאורטית לכותרת של יום אחרי. בדיוק כאן AI Safety צריך להפוך מנושא שוליים לקו הגנה מרכזי, לא רק ברמה הטכנית של פילטרים ומדיניות שימוש, אלא ברמה האסטרטגית של איך אנחנו מעצבים תשתיות ידע בעידן שבו כל צ’אטבוט עלול להפוך, בלי כוונה, ל"מדריך הפעלה" לאירוע בקנה מידה עולמי. את האימוץ המהיר והשימוש הנפוץ ב‑Gen‑AI אי אפשר לעצור, וגם לא בטוח שצריך. אבל אם לא נאיץ באותה מידה את פיתוח "מעקות הבטיחות" של AI Safety, מנגנוני ביטחון והגנה טכניים, רגולטוריים ותרבותיים, יש סכנה שהתאונה האינטגרלית שויריליו דיבר עליה כבר לא תהיה תיאוריה פילוסופית, אלא אירוע אמיתי בקנה מידה עולמי.

בסייבר כמו בסייבר (לא שאלה של אם זאת שאלה של מתי) - השאלה כבר איננה האם ינסו לעקוף את ההגנות, אלא האם אנחנו, כקהילת סייבר וטכנולוגיה, נצליח לבנות מנגנוני בטיחות שירוצו מהר לפחות כמו החדשנות עצמה ?. שלכם ובשבילכם, הילל קוברובסקי

Bypassing AI Safeguards and Paul Virilio's Integral Accident

פוסטים אחרונים

תגובות