בריחת כלא פשוטה למדידת יישומי משפט: "הפעל, חלק, וכבוש"

חדשות מדהימות בעולם הסייבר: טכניקת פריצה למודלים לשוניים גדולים עובדת!

לאחרונה בדקתי טכניקת פריצה שמתוארת במאמר בשם "Prompt, Divide, and Conquer" שפורסם באתר arxiv ([קישור למאמר](https://arxiv.org/pdf/2503.21598)). הטכניקה מבוססת על חלוקת בקשה זדונית לחלקים שנראים תמימים כדי שמודלים לשוניים גדולים (LLMs), כמו ChatGPT ו-DeepSeek, לא יזהו אותם כאיום. התהליך שעקבתי אחריו כלל מספר שלבים בהם:

• חלוקה ומסווה: המבנה של הבקשות שונה כך שלא יתגלה כתוכנית זדונית.
• תוצאה זדונית: יצרתי סקריפטים להתקפת שירות מכונה (DoS) ולתוכנת כופר שמצפינה נתונים במחשב המטרה.
• העדר אזעקות: המודלים לא הפעילו אף אזעקה או הגבלה במהלך התהליך.

המציאות שבה ניתן לעקוף בקלות את מערכות הסינון באמצעות הגדרה נכונה של הבקשות מדהימה. תיעוד מלא של התהליך נמצא בקישור הבא: [פורום PickPros](https://www.pickpros.forum/2025/03/30/hacking-ai-safeguards-how-to-trick-an-llm-like-deepseek-and-chatgpt-into-writing-a-dos-attack-and-ransomware-script-that-encrypts-data-on-a-target-machine/).

המידע במאמר והדוגמאות המוצגות מדגימים פוטנציאל וסיכונים בשימוש בטכנולוגיות אלו, ומעלים שאלות בנוגע לאיך אנו יכולים להבטיח שהשימוש בכלים טכנולוגיים עתידיים יהיה בטוח ואחראי יותר.

לעדכונים וטיפים בעולם ה-AI, הצטרפו עכשיו לקבוצה:

כתיבת תגובה לבטל