חושפים את סודות הפריצה למודלים למידתיים: המדריך המלא שלנו!
אני וכמה חברים הקמנו ערכת כלים שמאפשרת למצוא באופן אוטומטי דרכי פריצה למודלים למידתיים. לאחרונה, פורסמו מספר מחקרים המציעים אלגוריתמים לאיתור פרומפטים שמאפשרים פריצה. אחד הדוגמאות הבולטות הוא אלגוריתם TAP (Tree of Attacks), שהפך לידוע במעגלים אקדמיים בשל יעילותו הרבה. TAP משתמש במבנה עץ כדי לחקור באופן מערכתי אפשרויות שונות לפריצת מודל למטרה מסוימת.
ביחד עם חברים מ-General Analysis, אספנו ערכת כלים ופרסמנו פוסט בבלוג שמסכמים את כל שיטות הפריצה האוטומטיות החדשות והמבטיחות ביותר. מטרתנו היא להסביר בצורה ברורה איך שיטות אלו עובדות וגם לאפשר לאנשים להריץ את האלגוריתמים הללו בקלות, מבלי להצטרך לחפור במאמרים אקדמיים וקוד. אנו קוראים לזה התנ"ך של הפריצה. אתם מוזמנים לבדוק את ערכת הכלים כאן ולקרוא את הסקירה הטכנית המקוצרת כאן.